分类:字词难度

来自Big Physics
PsyWu讨论 | 贡献2020年3月8日 (日) 10:54的版本


研究背景

在很多研究中,我们需要有一个字词难度的度量方法或者结果列表。例如,如果我们做阅读分级,我们首先就可以考虑篇章的字词数量、句子数量、平均句子长度、平均字词难度等指标。其次,更进一步我们还可以考虑篇章的内在逻辑难度。甚至,就像[1]所指出的,由于语言是大量心理学实验的介质,因此研究介质本身带来的认知上的影响是非常重要的。

在英语词汇上,[1]完成了4万多个词的难度测量。其测量方式是:第一、让被试来识别一个随机出现的词(并不真的随机,使得看起来随机)是不是真的是一个词,然后测量每一个词的反应时间和正确率;第二、让被试读出来随机出现的词,然后测量反应时间和正确率。其原始数据和数据库检索界面在这里:https://elexicon.wustl.edu/index.html 。反应时间和正确率两者都可以用来当做字词难度的度量。之前有一些小规模的工作(见[1]的参考文献),大部分集中于正确率。基于正确率的难度测量,非常依赖于被试选择的平衡性(各个层次的被试都要有,还最好无偏)。也就是说,如果被试都是识字率比较高的人,那么,从其中得到的数据就不能用于度量字词难度。加入了反应时间以后,就可以利用单一类型的被试来得到字词难度的数据了。

在汉语的字词上,我没有看到类似的工作。

不过,上面测量到的是综合难度。我们可能还想得到一个模型,一个从给定的字计算出来识字难度的模型。最好两者还能相互印证。对于这个模型来说,我们应该主要考虑哪些因素呢?我们可以尝试:字词的使用频率、字词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、字词的读音透明度(其读音是否能够从其结构,看出来)、字词子结构数量(英语可以是整个单词的或者字根部分的字母数、音节数;汉语可以是笔画数、构成这个字的汉字的数量)。如果得到每一个字的这些数量信息之后,我们可以来做一个线性回归模型:综合难度是y,其他各个数量信息是x。

于是,我们就可以即有一个字词难度表(只能用于测量过的字词),还有一个模型(这样对于没有实验测量过的字词,可以算)。

有了字词难度信息之后,结合字词使用频率和字词结构关系网络,我们才能得到更好的学习顺序。在学习顺序分析的基础上,做词汇分级、学习材料的编撰,才更加科学。

怎么做

在英文单词的综合难度测量结果的基础[1]上,获得单词的使用频率、单词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、单词的读音透明度(其读音是否能够从其结构,看出来)、单词子结构数量(英语可以是整个单词的或者字根部分的字母数、音节数)数据、临近单词(修改个别字母或者交换个别字母就可以得到的其他单词)数量,构建英文单词难度模型。

做中文字词的综合难度测量。其中考虑到中文词的特殊性——是否是一个词不好判断没有标准,以及交换字母顺序不影响阅读的研究[2],可以把区分真假词和朗读换成“造句或者说说意思”和“朗读”。在此基础上,获得字词的使用频率、字词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、字词的读音透明度(其读音是否能够从其结构,看出来)、字词子结构数量(汉语可以是笔画数、构成这个字的汉字的数量)、临近字词数量,构建汉语字词的难度模型。

在难度模型和难度测量表的基础上,构建篇章难度分析器,综合考虑文章表面难度和逻辑理解难度,用于构建分解阅读的体系。

可能的实验测量方案

通常认为阅读过程是将字形映射到语音和语义的过程,如果要测量人们阅读过程中的字词层面的难度,那么可以从这三方面入手:字形本身的难度(可能是枕叶的视觉词形区[visual word form area, VWFA]),字形通达语音的难度(背侧通路:枕叶→颞-顶联合区)和字形通达语义的难度(腹侧通路:枕叶→颞叶)。

  1. 字形本身的难度。心理学上好像没有特别的任务来测量主观上的字形复杂度,可能的做法或许有以下这几种。
    1. 笔画数。
    2. 计算该字的位点图的视觉复杂度。
    3. 吴老师的拆字网络找到合适的指标替代。
    4. 听写任务。但它不是纯粹测量到字形,而且是产出过程。
  2. 字形通达语音的难度。
    1. 声调识别任务。判断该字或者词的语音是第几声。优点:简单易行。缺点:可能存在多音字的问题。
    2. 语音判断任务。判断该字或者词的语音是否以某个声母开头,或者某个韵母结尾。如要求被试判断是否以h开头,给被试黄、绿,打,那么被试应该判断为是、否、否。记录被试做出判断的反应时间。缺点:如果要求被试对所有词按照一个标准(如,是否以h开头)作判断,那么会有太多否的反应;如果要求被试用不同的标准做判断,那么标准不统一的结果在多大程度上具有可比性(即,不清楚判断“绿”是以h开头与判断“绿”是以f开头在多大程度上是一样的)。
  3. 字形通达语义的难度。
    1. 语义判断任务,判断语音是否属于某个类别(最常见的有生命/非生命、人造/非人造、比鞋盒大/比鞋盒小)。记录被试做出判断的反应时间。缺点:同上,标准判断的问题。
  4. 两者或三者混合的难度
    1. 配对评估任务。给被试一对字或者词,让其判断哪一个更容易(或者更困难)。优点:简单直接。缺点:实际测量到的是“容易感”而非“容易度”。当然两者可能近似。
    2. 真假字判断任务。给被试一对字或者词,让其判断真假。具体流程可参考Balota(2007)。优点:简单易行。缺点:符合正字法的假字制作起来比较麻烦,不知道有没有现成的假字库。不过可以不要求假字数量和真字1:1,假字可以多次呈现,只为保证被试在认真加工真字,最后只关心真字的反应时。
    3. 快速命名任务。要求被试快速念出屏幕上呈现的字或者词,如果不认识则说“不知道”。记录其反应时和正确率。具体流程可参考Balota(2007)。优点:简单易行。技巧:可以让被试命名完一个词后,自己对刚念完的词进行“转录”,判断念的对不对,或者自己也不知道对不对,或者录音坏了。这样事后转录成本会低很多。
    4. 听写任务。给被试听一个词,让他在平板上写出来。记录其反应时和正确率。优点:简单易行。缺点:测到的是产出的难度,而不是阅读理解的难度。当然二者有很强相关。

具体的实验测量方案(备选)

习得年龄评估(Age-of-acquisition ratings)

  1. 材料
    1. 确定要测评的词汇。例如25000个词(后文简称“所有词汇”)。
    2. 给每个被试安排300个正式词汇。要求这些词大致覆盖所有词汇的词频,并在被试间没有显著差异。可参照的做法是,把整个词库按词频高低排列,并等分成10份,每次给被试分配词汇时都从这10份中随机抽取30个词汇,并把顺序打乱。
    3. 在正式词汇前安排10个标尺词汇(calibrator word)。这些词用作让被试形成大致的评估标准。标尺词汇要大致覆盖所有词汇的习得年龄,比如3~12岁。这可能要通过其它渠道获得,如中小学课本的识字顺序。Kuperman et al. (2012)是根据Stadthagen-Gonzalez & Davis, (2006) 的研究来选词,而后者的研究并没有安排标尺词汇。
    4. 在正式词汇中混入50个控制词汇(control word)。这些词用作监控被试有没有认真完成任务。这些控制词汇的习得年龄已经通过其它渠道获得(如课本),如果某位被试对这些词汇习得年龄的评估与我们已知的习得年龄相差太大(如,皮尔逊相关系数低于0.2),则认为该被试没有认真完成任务,应该剔除其数据。
    5. 要求每个词汇获得不少于18个被试的有效评估(目标数量为25个,参考Kuperman et al. 2012)。


拓展

同样的研究方式可以拓展到其他学科,例如数学概念的学习难度、物理概念的学习难度,概念之间的联系(给定两个概念,有联系点击左键,没有联系点击右键;说说联系。测量反应时间和准确率)等等。招募这个学科的大学本科生、研究生,以及高中学生,来做例如,任务一判断两个概念之间是否有联系,任务二说一说联系,然后测量延迟时间和准确率。

参考文献

  1. 1.0 1.1 1.2 1.3 Balota, D.A., Yap, M.J., Hutchison, K.A. et al. Behavior Research Methods (2007) 39: 445. https://doi.org/10.3758/BF03193014
  2. Velan, H. & Frost, R. Psychonomic Bulletin & Review (2007) 14: 913. https://doi.org/10.3758/BF03194121

本分类目前不含有任何页面或媒体文件。