分类:字词难度
研究背景
在很多研究中,我们需要有一个字词难度的度量方法或者结果列表。例如,如果我们做阅读分级,我们首先就可以考虑篇章的字词数量、句子数量、平均句子长度、平均字词难度等指标。其次,更进一步我们还可以考虑篇章的内在逻辑难度。甚至,就像[1]所指出的,由于语言是大量心理学实验的介质,因此研究介质本身带来的认知上的影响是非常重要的。
在英语词汇上,[1]完成了4万多个词的难度测量。其测量方式是:第一、让被试来识别一个随机出现的词(并不真的随机,使得看起来随机)是不是真的是一个词,然后测量每一个词的反应时间和正确率;第二、让被试读出来随机出现的词,然后测量反应时间和正确率。其原始数据和数据库检索界面在这里:https://elexicon.wustl.edu/index.html 。反应时间和正确率两者都可以用来当做字词难度的度量。之前有一些小规模的工作(见[1]的参考文献),大部分集中于正确率。基于正确率的难度测量,非常依赖于被试选择的平衡性(各个层次的被试都要有,还最好无偏)。也就是说,如果被试都是识字率比较高的人,那么,从其中得到的数据就不能用于度量字词难度。加入了反应时间以后,就可以利用单一类型的被试来得到字词难度的数据了。
在汉语的字词上,我没有看到类似的工作。
不过,上面测量到的是综合难度。我们可能还想得到一个模型,一个从给定的字计算出来识字难度的模型。最好两者还能相互印证。对于这个模型来说,我们应该主要考虑哪些因素呢?我们可以尝试:字词的使用频率、字词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、字词的读音透明度(其读音是否能够从其结构,看出来)、字词子结构数量(英语可以是整个单词的或者字根部分的字母数、音节数;汉语可以是笔画数、构成这个字的汉字的数量)。如果得到每一个字的这些数量信息之后,我们可以来做一个线性回归模型:综合难度是y,其他各个数量信息是x。
于是,我们就可以即有一个字词难度表(只能用于测量过的字词),还有一个模型(这样对于没有实验测量过的字词,可以算)。
有了字词难度信息之后,结合字词使用频率和字词结构关系网络,我们才能得到更好的学习顺序。在学习顺序分析的基础上,做词汇分级、学习材料的编撰,才更加科学。
怎么做
在英文单词的综合难度测量结果的基础[1]上,获得单词的使用频率、单词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、单词的读音透明度(其读音是否能够从其结构,看出来)、单词子结构数量(英语可以是整个单词的或者字根部分的字母数、音节数)数据、临近单词(修改个别字母或者交换个别字母就可以得到的其他单词)数量,构建英文单词难度模型。
做中文字词的综合难度测量。其中考虑到中文词的特殊性——是否是一个词不好判断没有标准,以及交换字母顺序不影响阅读的研究[2],可以把区分真假词和朗读换成“造句或者说说意思”和“朗读”。在此基础上,获得字词的使用频率、字词的含义透明性(其含义是否能够从其结构,尤其是结构拆分,看出来)、字词的读音透明度(其读音是否能够从其结构,看出来)、字词子结构数量(汉语可以是笔画数、构成这个字的汉字的数量)、临近字词数量,构建汉语字词的难度模型。
在难度模型和难度测量表的基础上,构建篇章难度分析器,综合考虑文章表面难度和逻辑理解难度,用于构建分解阅读的体系。
拓展
同样的研究方式可以拓展到其他学科,例如数学概念的学习难度、物理概念的学习难度,概念之间的联系(给定两个概念,有联系点击左键,没有联系点击右键;说说联系。测量反应时间和准确率)等等。招募这个学科的大学本科生、研究生,以及高中学生,来做例如,任务一判断两个概念之间是否有联系,任务二说一说联系,然后测量延迟时间和准确率。
参考文献
- ↑ 1.0 1.1 1.2 1.3 Balota, D.A., Yap, M.J., Hutchison, K.A. et al. Behavior Research Methods (2007) 39: 445. https://doi.org/10.3758/BF03193014
- ↑ Velan, H. & Frost, R. Psychonomic Bulletin & Review (2007) 14: 913. https://doi.org/10.3758/BF03194121
本分类目前不含有任何页面或媒体文件。