分类:阅读理解机以及难度度量
用机器学习来做阅读理解题,例如问答系统,已经是自然语言处理发展程度比较高的任务了。现在,我希望通过这样的阅读理解,除了回答一般的阅读理解问题,还能够回答WHWM问题,并且还能够对于篇章的阅读理解难度做一个指标。
研究背景
问答系统、自动摘要,甚至翻译,都可以看做是阅读理解系统。其基本原理就是条件语言模型:对来源文本做状态编码,然后根据对象文本的状态来产生文字(问答系统),或者根据来源文本的状态来产生对象文本(翻译、摘要)。当然,这个条件语言模型可以是encoder-decoder结构的,也可以是autoregression结构的。
但是,目前来说,大部分问答题都是能够从源文本中找到答案的问题,这些问题本身也没有通用性。为了度量文本阅读理解的难度,同时,真正地考察阅读理解——对信息的提取、选择和组织(抓住联系),其实可以问以下四个问题:文章主要表达了什么(What),怎么(How)表达的,为什么(Why)这样表达为什么表达这个,你觉得怎么样(Meaningful)。
另一方面,从现实的角度,当前的高考题,甚至其他阅读题,以及更一般的分级阅读,很有必要给一个难度指数。当然,这个指数可以包含用字词的难度来表示的部分,但是更加重要的是对文章整体理解的部分,也就是WHWM问题。
因此,在这里,我们希望能够得到一个既可以回答通常的阅读理解题又可以回答WHWM问题的机器,并且在得到这个机器之后,还能够用这个机器的状态来度量文章的整体阅读理解难度。
技术
数据集
收集和标记阅读理解题,包含一般的阅读理解题已经WHWM的文本和答案。
注意力网络和语言表面网络
训练出来能够完成阅读理解任务的机器之后,我们提取出来这个机器中的注意力网络。第一,在语言模型本身,不考虑阅读理解任务的时候,得到字词之间的注意力关系,句子之间的注意力关系,然后构建一个字词的注意力网络(例如大于多少的才取出来当做链接,或者直接取前面多少个),以及句子的注意力网络。分析这个网络的中心度和模块化程度。第二,在考虑阅读理解任务的时候,提取出来问题和源文本的字词句之间的注意力关系。
同时,我们构建文章字词之间的直接的联系(例如出现在同一句话之中),甚至句子之间的直接联系(例如出现在同一段、关于同一个对象等、句子矢量表示上的相似性)。
然后,我们可以来对比这两种网络:如果两个网络的中心结点比较相似,则文章比较简单;如果网络的模块化程度比较高,则文章比较简单。
本分类目前不含有任何页面或媒体文件。