分类:阅读理解机以及难度度量

用机器学习来做阅读理解题，例如问答系统，已经是自然语言处理发展程度比较高的任务了。现在，我希望通过这样的阅读理解，除了回答一般的阅读理解问题，还能够回答WHWM问题，并且还能够对于篇章的阅读理解难度做一个指标。

研究背景

问答系统、自动摘要，甚至翻译，都可以看做是阅读理解系统。其基本原理就是条件语言模型：对来源文本做状态编码，然后根据对象文本的状态来产生文字（问答系统），或者根据来源文本的状态来产生对象文本（翻译、摘要）。当然，这个条件语言模型可以是encoder-decoder结构的，也可以是autoregression结构的。

但是，目前来说，大部分问答题都是能够从源文本中找到答案的问题，这些问题本身也没有通用性。为了度量文本阅读理解的难度，同时，真正地考察阅读理解——对信息的提取、选择和组织（抓住联系），其实可以问以下四个问题：文章主要表达了什么（What），怎么(How)表达的，为什么(Why)这样表达为什么表达这个，你觉得怎么样(Meaningful)。

另一方面，从现实的角度，当前的高考题，甚至其他阅读题，以及更一般的分级阅读，很有必要给一个难度指数。当然，这个指数可以包含用字词的难度来表示的部分，但是更加重要的是对文章整体理解的部分，也就是WHWM问题。

因此，在这里，我们希望能够得到一个既可以回答通常的阅读理解题又可以回答WHWM问题的机器，并且在得到这个机器之后，还能够用这个机器的状态来度量文章的整体阅读理解难度。

技术

数据集

收集和标记阅读理解题，包含一般的阅读理解题已经WHWM的文本和答案。

注意力网络和语言表面网络

训练出来能够完成阅读理解任务的机器之后，我们提取出来这个机器中的注意力网络。第一，在语言模型本身，不考虑阅读理解任务的时候，得到字词之间的注意力关系，句子之间的注意力关系，然后构建一个字词的注意力网络（例如大于多少的才取出来当做链接，或者直接取前面多少个），以及句子的注意力网络。分析这个网络的中心度和模块化程度。第二，在考虑阅读理解任务的时候，提取出来问题和源文本的字词句之间的注意力关系。

同时，我们构建文章字词之间的直接的联系（例如出现在同一句话之中），甚至句子之间的直接联系（例如出现在同一段、关于同一个对象等、句子矢量表示上的相似性）。

然后，我们可以来对比这两种网络：如果两个网络的中心结点比较相似，则文章比较简单；如果网络的模块化程度比较高，则文章比较简单。

本分类目前不含有任何页面或媒体文件。

匿名

搜索

分类:阅读理解机以及难度度量

名字空间

更多

页面选项

目录

研究背景

技术

数据集

注意力网络和语言表面网络

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:阅读理解机以及难度度量

研究背景

技术

数据集

注意力网络和语言表面网络

导航

Wiki工具

页面工具

分类