分类:阅读理解机以及难度度量

来自Big Physics
Jinshanw讨论 | 贡献2019年6月28日 (五) 16:40的版本 (创建页面,内容为“分类:语言研究 用机器学习来做阅读理解题,例如问答系统,已经是自然语言处理发展程度比较高的任务了。现在,我希...”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


用机器学习来做阅读理解题,例如问答系统,已经是自然语言处理发展程度比较高的任务了。现在,我希望通过这样的阅读理解,除了回答一般的阅读理解问题,还能够回答WHWM问题,并且还能够对于篇章的阅读理解难度做一个指标。

研究背景

问答系统、自动摘要,甚至翻译,都可以看做是阅读理解系统。其基本原理就是条件语言模型:对来源文本做状态编码,然后根据对象文本的状态来产生文字(问答系统),或者根据来源文本的状态来产生对象文本(翻译、摘要)。当然,这个条件语言模型可以是encoder-decoder结构的,也可以是autoregression结构的。

但是,目前来说,大部分问答题都是能够从源文本中找到答案的问题,这些问题本身也没有通用性。为了度量文本阅读理解的难度,同时,真正地考察阅读理解——对信息的提取、选择和组织(抓住联系),其实可以问以下四个问题:文章主要表达了什么(What),怎么(How)表达的,为什么(Why)这样表达为什么表达这个,你觉得怎么样(Meaningful)。

另一方面,从现实的角度,当前的高考题,甚至其他阅读题,以及更一般的分级阅读,很有必要给一个难度指数。当然,这个指数可以包含用字词的难度来表示的部分,但是更加重要的是对文章整体理解的部分,也就是WHWM问题。

因此,在这里,我们希望能够得到一个既可以回答通常的阅读理解题又可以回答WHWM问题的机器,并且在得到这个机器之后,还能够用这个机器的状态来度量文章的整体阅读理解难度。

技术

本分类目前不含有任何页面或媒体文件。