分类:字词难度

来自Big Physics


研究背景

在很多研究中,我们需要有一个字词难度的度量方法或者结果列表。例如,如果我们做阅读分级,我们首先就可以考虑篇章的字词数量、句子数量、平均句子长度、平均字词难度等指标。其次,更进一步我们还可以考虑篇章的内在逻辑难度。甚至,就像[1]所指出的,由于语言是大量心理学实验的介质,因此研究介质本身带来的认知上的影响是非常重要的。

在英语词汇上,[1]完成了4万多个词的难度测量。其测量方式是:第一、让被试来识别一个随机出现的词(并不真的随机,使得看起来随机)是不是真的是一个词,然后测量每一个词的反应时间和正确率;第二、让被试读出来随机出现的词,然后测量反应时间和正确率。其原始数据和数据库检索界面在这里:https://elexicon.wustl.edu/index.html 。反应时间和正确率两者都可以用来当做字词难度的度量。之前有一些小规模的工作(见[1]的参考文献),大部分集中于正确率。基于正确率的难度测量,非常依赖于被试选择的平衡性(各个层次的被试都要有,还最好无偏)。也就是说,如果被试都是识字率比较高的人,那么,从其中得到的数据就不能用于度量字词难度。加入了反应时间以后,就可以利用单一类型的被试来得到字词难度的数据了。

在汉语的字词上,我没有看到类似的工作。

不过,上面测量到的是综合难度。我们可能还想得到一个模型,一个从给定的字计算出来识字难度的模型。最好两者还能相互印证。对于这个模型来说,我们应该主要考虑哪些因素呢?我们可以尝试:字词的使用频率、字词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、字词的读音透明度(其读音是否能够从其结构,看出来)、字词子结构数量(英语可以是整个单词的或者字根部分的字母数、音节数;汉语可以是笔画数、构成这个字的汉字的数量)。如果得到每一个字的这些数量信息之后,我们可以来做一个线性回归模型:综合难度是y,其他各个数量信息是x。

于是,我们就可以即有一个字词难度表(只能用于测量过的字词),还有一个模型(这样对于没有实验测量过的字词,可以算)。

有了字词难度信息之后,结合字词使用频率和字词结构关系网络,我们才能得到更好的学习顺序。在学习顺序分析的基础上,做词汇分级、学习材料的编撰,才更加科学。

怎么做

在英文单词的综合难度测量结果的基础[1]上,获得单词的使用频率、单词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、单词的读音透明度(其读音是否能够从其结构,看出来)、单词子结构数量(英语可以是整个单词的或者字根部分的字母数、音节数)数据、临近单词(修改个别字母或者交换个别字母就可以得到的其他单词)数量,构建英文单词难度模型。

做中文字词的综合难度测量。其中考虑到中文词的特殊性——是否是一个词不好判断没有标准,以及交换字母顺序不影响阅读的研究[2],可以把区分真假词和朗读换成“造句或者说说意思”和“朗读”。在此基础上,获得字词的使用频率、字词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、字词的读音透明度(其读音是否能够从其结构,看出来)、字词子结构数量(汉语可以是笔画数、构成这个字的汉字的数量)、临近字词数量,构建汉语字词的难度模型。

在难度模型和难度测量表的基础上,构建篇章难度分析器,综合考虑文章表面难度和逻辑理解难度,用于构建分解阅读的体系。

可能的实验测量方案

通常认为阅读过程是将字形映射到语音和语义的过程,如果要测量人们阅读过程中的字词层面的难度,那么可以从这三方面入手:字形本身的难度(可能是枕叶的视觉词形区[visual word form area, VWFA]),字形通达语音的难度(背侧通路:枕叶→颞-顶联合区)和字形通达语义的难度(腹侧通路:枕叶→颞叶)。

  1. 字形本身的难度。心理学上好像没有特别的任务来测量主观上的字形复杂度,可能的做法或许有以下这几种。
    1. 笔画数。
    2. 计算该字的位点图的视觉复杂度。
    3. 吴老师的拆字网络找到合适的指标替代。
    4. 听写任务。但它不是纯粹测量到字形,而且是产出过程。
  2. 字形通达语音的难度。
    1. 声调识别任务。判断该字或者词的语音是第几声。优点:简单易行。缺点:可能存在多音字的问题。
    2. 语音判断任务。判断该字或者词的语音是否以某个声母开头,或者某个韵母结尾。如要求被试判断是否以h开头,给被试黄、绿,打,那么被试应该判断为是、否、否。记录被试做出判断的反应时间。缺点:如果要求被试对所有词按照一个标准(如,是否以h开头)作判断,那么会有太多否的反应;如果要求被试用不同的标准做判断,那么标准不统一的结果在多大程度上具有可比性(即,不清楚判断“绿”是以h开头与判断“绿”是以f开头在多大程度上是一样的)。
  3. 字形通达语义的难度。
    1. 语义判断任务,判断语音是否属于某个类别(最常见的有生命/非生命、人造/非人造、比鞋盒大/比鞋盒小)。记录被试做出判断的反应时间。缺点:同上,标准判断的问题。
  4. 两者或三者混合的难度
    1. 配对评估任务。给被试一对字或者词,让其判断哪一个更容易(或者更困难)。优点:简单直接。缺点:实际测量到的是“容易感”而非“容易度”。当然两者可能近似。
    2. 真假字判断任务。给被试一对字或者词,让其判断真假。具体流程可参考Balota et al. (2007)[1]。优点:简单易行。缺点:符合正字法的假字制作起来比较麻烦,不知道有没有现成的假字库。不过可以不要求假字数量和真字1:1,假字可以多次呈现,只为保证被试在认真加工真字,最后只关心真字的反应时。
    3. 快速命名任务。要求被试快速念出屏幕上呈现的字或者词,如果不认识则说“不知道”。记录其反应时和正确率。具体流程可参考Balota(2007)。优点:简单易行。技巧:可以让被试命名完一个词后,自己对刚念完的词进行“转录”,判断念的对不对,或者自己也不知道对不对,或者录音坏了。这样事后转录成本会低很多。
    4. 听写任务。给被试听一个词,让他在平板上写出来。记录其反应时和正确率。优点:简单易行。缺点:测到的是产出的难度,而不是阅读理解的难度。当然二者有很强相关。

具体的实验测量方案(备选)

习得年龄评估(Age-of-acquisition ratings)

  1. 材料
    1. 确定要测评的词汇。例如25000个词(后文简称“所有词汇”)。
    2. 给每个被试安排300个正式词汇。要求这些词大致覆盖所有词汇的词频,并在被试间没有显著差异。可参照的做法是,把整个词库按词频高低排列,并等分成10份,每次给被试分配词汇时都从这10份中随机抽取30个词汇,并把顺序打乱。
    3. 在正式词汇前安排10个标尺词汇(calibrator word)。这些词用作让被试形成大致的评估标准。标尺词汇要大致覆盖所有词汇的习得年龄,比如3~12岁。这可能要通过其它渠道获得,如中小学课本的识字顺序。Kuperman et al. (2012)[3]是根据Stadthagen-Gonzalez & Davis (2006) [4]的研究来选词,而后者的研究并没有安排标尺词汇。
    4. 在正式词汇中混入50个控制词汇(control word)。这些词用作监控被试有没有认真完成任务。这些控制词汇的习得年龄已经通过其它渠道获得(如课本),如果某位被试对这些词汇习得年龄的评估与我们已知的习得年龄相差太大(如,皮尔逊相关系数低于0.2),则认为该被试没有认真完成任务,应该剔除其数据。
    5. 要求每个词汇获得不少于18个被试的有效评估(目标数量为25个,合计约25*25000/300 = 2084 人)[1][3]
  2. 实验流程

习得年龄评估.jpg

    1. 安排被试就坐在安静的环境,准备好相关设备和程序。
    2. 问候被试,并询问被试基本信息,如性别、年龄、年级、学科成绩等。
    3. 帮助被试确认年龄和年级的对应关系,以便更准确地完成测评。如,询问被试一年级时候几岁?四年级时候几岁?
    4. 给被试呈现(或者播放)指导语:“本次测评将会给你逐一呈现词汇,请你尽可能地回忆出你学会这个词汇的年龄。只要有人在你面前以书写形式使用过这个词,并且让你理解了它的意思,都算作学会,即使当时你还没有阅读或者书写这个词。如果遇到不认识的字,则输入x。” 同时,给被试呈现两个选项:“明白了,可以进入实验”,“有疑问,举手提问”。(Kuperman et al. (2012)的指导语是这样的“we mean the age at which you would have understood that word if somebody had used it in front of you, EVEN IF YOU DID NOT use, read, or write it at the time.”供参考 )
    5. 给被试呈现3~5个词汇练习,练习结束后,再给被试呈现两个选项:“明白,可以进入实验”,“有疑问,举手提问”。练习词汇不在正式实验中出现。
    6. 逐一呈现上述360个词汇,要求被试回忆该词的习得年龄。在被试给出答案并点击确认键后,再呈现下一个词汇,即自定步速(self-paced)。
    7. 致谢
    8. 预计每个被试用时20分钟(总共评估360个词汇,平均每个词汇用时3.33秒)。

快速命名任务(speeded naming task)

  1. 材料
    1. 确定要测评的词汇。例如25000个词(后文简称“所有词汇”)。
    2. 给每个被试安排300个正式词汇。要求这些词大致覆盖所有词汇的词频,并在被试间没有显著差异。可参照的做法是,把整个词库按词频高低排列,并等分成10份,每次给被试分配词汇时都从这10份中随机抽取30个词汇,并把顺序打乱。
    3. 要求每个词汇获得不少于18个被试的有效评估(目标数量为25个,合计约25*25000/300 = 2084 人)[1][3]
  2. 实验流程

快速命名任务.jpg

    1. 安排被试就坐在安静的环境,准备好相关设备和程序。
    2. 问候被试,并询问被试基本信息,如性别、年龄、年级、学科成绩等。
    3. 给被试呈现(或者播放)指导语:“本次测评将会给你逐一呈现词汇,请你尽可能快速、准确、大声地读出它。在每读完一个词后,请评估刚才读得怎么样。” 同时,给被试呈现两个选项:“明白了,可以进入实验”,“有疑问,举手提问”。
    4. 给被试呈现3~5个词汇练习,练习结束后,再给被试呈现三个选项:“明白,可以进入实验”,“有疑问,举手提问”,“报告!麦克风有问题”。练习词汇不在正式实验中出现。
    5. 逐一呈现上述300个词汇,要求被试快速大声地读出该词。在被试评估完命名质量后,再呈现下一个词汇,即自定步速(self-paced)。时间参数参考Lu et al. (2017)[5]
    6. 致谢
    7. 预计每个被试用时20分钟(共300个词汇,平均每个词汇用时4秒)。

读音判断任务

  1. 材料
    1. 确定要测评的词汇。例如25000个词(后文简称“所有词汇”)。
    2. 给每个被试安排300个正式词汇。要求这些词大致覆盖所有词汇的词频,并在被试间没有显著差异。可参照的做法是,把整个词库按词频高低排列,并等分成10份,每次给被试分配词汇时都从这10份中随机抽取30个词汇,并把顺序打乱。
    3. 给这300个正式词汇配上读音,其中150个词的读音是匹配的(如,lao3 shi1 与 老师),另外150个词的读音不匹配(lao3 shi1 与 火车)。所有读音只在任务中出现一次。
    4. 要求每个词汇获得不少于18个被试的有效评估(目标数量为25个,合计约25*25000/300 = 2084 人,另外,如果要区分匹配和不匹配,被试量加倍)[1][3]
  2. 实验流程

读音判断任务.jpg

    1. 安排被试就坐在安静的环境,准备好相关设备和程序。
    2. 问候被试,并询问被试基本信息,如性别、年龄、年级、学科成绩等。
    3. 给被试呈现(或者播放)指导语:“在本次测评中,你将会听到一个读音,接着再看到一个词汇,请你尽可能快速、准确判断该词汇与读音是否匹配。” 同时,给被试呈现两个选项:“明白了,可以进入实验”,“有疑问,举手提问”。
    4. 给被试呈现3~5个词汇练习,练习结束后,再给被试呈现三个选项:“明白,可以进入实验”,“有疑问,举手提问”,“报告!声音播放有问题”。练习词汇不在正式实验中出现。
    5. 逐一呈现上述300个词汇,要求被试判断是否匹配。如果判断错误,则给出提醒。其中正确或者错误按键的位置,在被试间平衡(即,一半被试左为正确,右为错误;另一半反过来)。时间参数参考Lu et al. (2017)[5]
    6. 致谢
    7. 预计每个被试用时15分钟(总共300个试次,平均每个试次用时3秒)。

语义相关判断任务(Semantic-Relatedness Judgment Task)

  1. 材料
    1. 确定要测评的词汇。例如25000个词(后文简称“所有词汇”)。
    2. 给每个被试安排300个正式词汇(也称为目标词)。要求这些词大致覆盖所有词汇的词频,并在被试间没有显著差异。可参照的做法是,把整个词库按词频高低排列,并等分成10份,每次给被试分配词汇时都从这10份中随机抽取30个词汇,并把顺序打乱。
    3. 给这300目标词配上启动词,其中150个启动词语目标词之间有语义关联(相同概念类别:桌子-椅子;相同主题:玫瑰-花瓶),另外150个启动词语目标词之间没有语义关联。启动词不重复用作目标词。
    4. 要求每个词汇获得不少于18个被试的有效评估(目标数量为25个,合计约25*25000/300 = 2084 人,另外,如果要区分相关和不相关条件,被试量加倍)[1][3]
  2. 实验流程

语义相关判断任务.jpg

    1. 安排被试就坐在安静的环境,准备好相关设备和程序。
    2. 问候被试,并询问被试基本信息,如性别、年龄、年级、学科成绩等。
    3. 给被试呈现(或者播放)指导语:“在本次测评中,你将会看到两个词汇,请你在第二个词汇出现后,尽可能快速、准确判断该词汇与前一个词汇是否存在语义关联。” 同时,给被试呈现两个选项:“明白了,可以进入实验”,“有疑问,举手提问”。
    4. 给被试呈现3~5个词汇练习,练习结束后,再给被试呈现两个选项:“明白,可以进入实验”,“有疑问,举手提问”。练习词汇不在正式实验中出现。
    5. 逐一呈现上述300个词汇,要求被试判断是否匹配。如果判断错误,则给出提醒。其中正确或者错误按键的位置,在被试间平衡(即,一半被试左为正确,右为错误;另一半反过来)。时间参数参考Lu et al. (2017)[5]
    6. 致谢
    7. 每个被试预计用时15分钟(总共300个试次,平均每个试次用时3秒)。

拓展

同样的研究方式可以拓展到其他学科,例如数学概念的学习难度、物理概念的学习难度,概念之间的联系(给定两个概念,有联系点击左键,没有联系点击右键;说说联系。测量反应时间和准确率)等等。招募这个学科的大学本科生、研究生,以及高中学生,来做例如,任务一判断两个概念之间是否有联系,任务二说一说联系,然后测量延迟时间和准确率。

参考文献

  1. 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Balota, D.A., Yap, M.J., Hutchison, K.A. et al. The English Lexicon Project. Behavior Research Methods (2007) 39: 445. https://doi.org/10.3758/BF03193014
  2. Velan, H. & Frost, R. Psychonomic Bulletin & Review (2007) 14: 913. https://doi.org/10.3758/BF03194121
  3. 3.0 3.1 3.2 3.3 3.4 Kuperman, V., Stadthagen-Gonzalez, H., & Brysbaert, M. (2012). Age-of-acquisition ratings for 30,000 English words. Behavior research methods, 44(4), 978-990.
  4. Stadthagen-Gonzalez, H., & Davis, C. J. (2006). The Bristol norms for age of acquisition, imageability, and familiarity. Behavior research methods, 38(4), 598-605.
  5. 5.0 5.1 5.2 Lu, Y., Wu, J., Dunlap, S., & Chen, B. (2017). The inhibitory mechanism in learning ambiguous words in a second language. Frontiers in psychology, 8, 636.

本分类目前不含有任何页面或媒体文件。