分类:阅读理解机以及难度度量
用机器学习来做阅读理解题,例如问答系统,已经是自然语言处理发展程度比较高的任务了。现在,我希望通过这样的阅读理解,除了回答一般的阅读理解问题,还能够回答WHWM问题,并且还能够对于篇章的阅读理解难度做一个指标。
研究背景
问答系统、自动摘要,甚至翻译,都可以看做是阅读理解系统。其基本原理就是条件语言模型:对来源文本做状态编码,然后根据对象文本的状态来产生文字(问答系统),或者根据来源文本的状态来产生对象文本(翻译、摘要)。当然,这个条件语言模型可以是encoder-decoder结构的,也可以是autoregression结构的。
但是,目前来说,大部分问答题都是能够从源文本中找到答案的问题,这些问题本身也没有通用性。为了度量文本阅读理解的难度,同时,真正地考察阅读理解——对信息的提取、选择和组织(抓住联系),其实可以问以下四个问题:文章主要表达了什么(What),怎么(How)表达的,为什么(Why)这样表达为什么表达这个,你觉得怎么样(Meaningful)。
另一方面,从现实的角度,当前的高考题,甚至其他阅读题,以及更一般的分级阅读,很有必要给一个难度指数。当然,这个指数可以包含用字词的难度来表示的部分,但是更加重要的是对文章整体理解的部分,也就是WHWM问题。
因此,在这里,我们希望能够得到一个既可以回答通常的阅读理解题又可以回答WHWM问题的机器,并且在得到这个机器之后,还能够用这个机器的状态来度量文章的整体阅读理解难度。
技术
数据集
收集和标记阅读理解题,包含一般的阅读理解题的文本和答案,以及WHWM的答案。
在算法测试阶段,也可以用以及做好分级的其他语言的材料,来试试,下面的指标是否具有一定的合理性。
注意力网络和语言表面网络
训练出来能够完成阅读理解任务的机器之后,我们提取出来这个机器中的注意力网络。第一,在语言模型本身,不考虑阅读理解任务的时候,得到字词之间的注意力关系,句子之间的注意力关系,然后构建一个字词的注意力网络(例如大于多少的才取出来当做链接,或者直接取前面多少个),以及句子的注意力网络。分析这个网络的中心度和模块化程度。第二,在考虑阅读理解任务的时候,提取出来问题和源文本的字词句之间的注意力关系。
同时,我们构建文章字词之间的直接的联系(例如出现在同一句话之中),甚至句子之间的直接联系(例如出现在同一段、关于同一个对象等、句子矢量表示上的相似性)。
然后,我们可以来对比这两种网络:如果两个网络的中心结点比较相似,则文章比较简单;如果网络的模块化程度比较高,则文章比较简单。
得到上面的字词句之间的注意力关联网络之后,我们可以来计算整个篇章中的平均注意力关联长度(对于每一个字词句,算出来其到其他字词句的注意力平均关联长度——关联长度乘以关联概率,然后计算所有的词的平均)。这个注意力关联长度可以当做文章阅读难度的指标之一。
篇章关联长度和问答关联长度
另一种获得篇章平均关联长度的方法是,直接运用字词句的矢量表示,对于每一个字词句,计算其到其他任何字词句的相似性,当做关联概率,然后在这个关联概率上乘以关联长度(中间间隔几个词)。除了对于整篇文章计算平均,还可以针对WHWM问题来计算问答关联长度。也就是,针对每一个问答题,给出来其和篇章中所有词的相关程度,然后,计算这些个关联长度的方差(越集中,表示问题的答案越简单,只要看某一段)。
语言表示矢量的自相关函数计算:给定一个序列[math]\displaystyle{ \vec{x}\left(t\right) }[/math],我们计算自相关函数[math]\displaystyle{ c\left(\tau\right) = \sum_{t} \vec{x}^{\dag}\left(t\right)\vec{x}\left(t+\tau\right) }[/math]。和标量函数的时间序列分析相比,唯一的差别就是用内积代替数之间的乘法。如果这样算出来的自相关函数有一个[math]\displaystyle{ \tau }[/math]的峰值,或者说,相应的自相关函数的频谱(Fourier变换)有一个[math]\displaystyle{ \frac{1}{\tau} }[/math]的峰值,那么,这个[math]\displaystyle{ \tau }[/math]就可以当做这个篇章的典型关联长度。或者更一般地,计算自相关函数矩阵[math]\displaystyle{ C\left(\tau\right) = \sum_{t} \vec{x}\left(t\right)\vec{x}^{\dag}\left(t+\tau\right) }[/math],然后看这个矩阵(通过本征向量和本征值来看)是否存在某个峰值。甚至构造时间关联矩阵,[math]\displaystyle{ C_{t \tau} = x^{\dag}\left(t\right)x\left(\tau\right) }[/math],来看看这个矩阵是否存在本征值的能隙(gap)。
字义数量、最小覆盖体积和平均使用频率
还可以数数整篇文章的字数、平均字频、字词平均难度、平均句子长度等表面指标来衡量文章的阅读难度,参考Flesch-Kincaid Reading Ease,Gunning Fog Index,SMOG formula,Dale–Chall Score等指标。沿着这个指标,其实更应该来考虑一下字义和词义的数量,在整个空间中,字义和词义的分布(例如所有词义都有差别,但是其实差别很小)从而来算一下高维空间的体积之类的。
本分类目前不含有任何页面或媒体文件。