分类:阅读分级的方法

来自Big Physics

研究背景

在英语学习中,阅读材料分级体系(分级方法和分出来的结果,以及用于英语教和学)、词汇分级体系(分析方法和分出来的结果,以及用于测试词汇量,用于编撰教材和词典)是比较成熟的。其最简单的方法大概来说就是依赖于词汇的使用频率,更低的使用频率表示更难的词汇,更难得词汇更多的篇章就更难。最近甚至出现了用心理学方法直接度量词汇认知难度然后重新来做词汇和阅读分级的研究,见字词难度测量。当然,那个研究的另一个动机其实是为了考虑到心理学研究中使用英语词汇当做任务的时候词汇难度带来的影响。从字词难度到篇章难度的统计方法目前都比较表面和简单,不过效果不差。例如,统计平均每句话的长度,平均多少个字里面就会出现一个高难度字(当年要靠手去统计,所以,把词汇定性划分一下会更简单,现在用不着了,直接按照频率或者难度值算好了)。这样的指标见Flesch-Kincaid Reading Ease,Gunning Fog Index,SMOG formula,Dale–Chall Score等。

但是,在中文界,非常神奇既没有汉字难度数据(汉字直接把使用频率当难度稍微不够一点,因为汉字是组合而成的,有结构的。更多结构和难度的结合可见汉字网络和汉字的理解型学习),更加没有运用难度来安排汉字学习顺序,更加没有汉语分级阅读体系(方法和分出来的结果都没有)。

学中文的孩子们真惨啊,五年级就开始被要求读《红楼梦》、《三国演义》,天哪,当故事书都没法读啊(词汇的问题、生活经验差别的问题、历史背景的问题、表面含义和内部含义的问题)。如果是外国人,那就更惨了,更加不知道除了教材之外,还可以看什么了。

一个严格的分级体系应该在自难度排序和分级之后,严格控制第一阶段的阅读材料只能(或者绝大多数)出现第一阶段的字,等等等等,以此类推。当然,实际文本不一定做得到如此,那分级阅读的核心也应该是字词难度为主、篇章阅读和信息加工难度为辅的一个体系。

整体研究方案

首先,基于汉字使用频率,或者考虑了汉字结构以后传播出来的使用频率(见汉字网络和汉字的理解型学习)),运用Flesch-Kincaid Reading Ease,Gunning Fog Index,SMOG formula,Dale–Chall Score等简单统计指标体系,建立起来一个篇章表面难度度量方法。这个时候,可能会依赖于若干个词汇统计指标,甚至可以把这些指标都粗糙地加起来,得到初步表面难度指标。利用这样的指标来对篇章语料做难度划分。基本上得到学前、小学低段、小学高段、初中、高中、大学及以后等几个等级。

其次,在粗糙表面难度指标以及初步分级材料之后,做每一个初步分级的更细致的实验,得到更细致的分级。例如,用学前的材料对学前的孩子们做分级阅读标记实验。这个时候,一方面,使用频率可能需要按照对象来修改。另一方面,也能够以来试验结果得到各个表面指标如何加起来的系数(做回归)。然后用这个更加细致的表面指标来重新做这个大级别内的小级别的分级。同时,尽量找到一个语料的难度标记。有一个比较可靠的语料难度标记,也可以开展纯黑箱子的机器学习训练。可以考虑对所有文本用大学生被试阅读文本回答阅读理解题,同时记录眼动和其他生理指标来得到阅读难度。也可以考虑在初步分级以后的文本范围内对于更准确的被试群体做阅读理解和生理指标的测量。

接着,考虑篇章阅读加工的难度。也就是说,就算每个字都认识的时候,是不是还会存在不能把主要意思都读出来的现象。这个时候,就需要考虑用自然语言处理阅读理解机来辅助得到篇章阅读难度了,见阅读理解机以及难度度量。其主要思想是看一看足够聪明的阅读机在做完形填空、回答检索类问题、回答WHWM深度加工问题等方面的正确率、注意力范围、耗时等指标。不过,学习机的方式非常依赖于标注语料库(检索类问答题和答案、WHWM问答题和答案)。

最后,可以考虑进一步把基于频率和频率加结构的词汇难度改成基于心理学测量的词汇难度。再一次来提高整个难度分级的方法和结果。

研究计划

  1. 先实现初步表面分类
  2. 做实验来构建小类细节的表面指标分类,同时获得初步分类以后的分级语料阅读难度标记,或者全语料的阅读难度标记
  3. 篇章难度学习机衡量部分可以和其他部分同时开展
  4. 词汇的心理认知难度和之前的难度分级体系的结合

本分类目前不含有任何页面或媒体文件。