分类:概念抽取和概念关系挖掘

来自Big Physics
Jinshanw讨论 | 贡献2019年11月26日 (二) 21:15的版本


研究背景

从书籍、论文等语料经过自然语言处理或者人工处理得到概念、概念关系,形成概念网络,或者知识地图,是大量后续研究的基础(见概念网络和理解型学习科学计量学导引)。例如概念网络可以用于论文分类、创新性的度量、问答系统、阅读理解、教和学。这里有两个问题:如何从语料得到概念地图,如何用概念地图来做后续任务。当然,这两个任务不一定要合起来做,可以在某些概念地图的基础上做后续研究(例如我们的概念学习顺序和检测算法),也可以仅仅研究从语料到概念网络。这需要依靠自然语言处理技术。

同时,也有一个反过来的问题:概念地图如何帮助提高自然语言处理技术。

运用自然语言处理技术从文本中抽取概念和概念联系

实际上,Google知识图谱任务就已经以Wikipedia等语料和其他网络语料为基础构建了很大规模的“常识和常识之间的联系”数据库。一方面,我们需要去了解一下他们的算法是什么。另一方面,很有可能有联系的概念可以通过语料和自然语言处理算法来发现联系。同时,考虑到我们通常需要在更加专门的领域内构建概念网络,然后用于这个专门领域的研究和学习,所以,可能会存在更好的算法。

这个研究就专门在“科学计量学”(见科学学)和“产品生产关系”(见生产关系挖掘)两个小领域内来构建概念网络。前者需要从科学计量学论文语料库找出来,科学计量学的专有名词和这些专有名词之间的关系。后者,需要从一个叫做"How Prroducts Are Made"网站获得产品的生产过程和原材料的描述,把原材料和产品的类似化学反应的数据取出来。

所需要的论文数据和网站数据请跟我们联系。

你也可以选择你能够获取数据的其他领域,例如,所有的中小学数学书来获得数学概念和概念联系,所有的中小学物理书等等。

利用概念地图提高自然语言处理技术

在自然语言处理中,隐性关系和长程关联是非常难以处理的。隐性关系是指在这一段文本中没有明确写出来的但是为了理解这段文本却需要用到的关系。例如,应用题中通常不给出来事物之间的某个核心关系。比如说,一道相遇问题的应用题,通常会给出来总路程和两个相遇者的各自的速度,但是,不会提醒“总路程等于两者速度之和(等价于总速度)乘以时间”,也就是说“L=Vt”是一半不明确提供而是以往被试自己掌握的。长程联系是指在一段文本中,某一个部分的含义依赖于很长一段文本之前的那一段文本的信息。当然,自然语言处理已经有自己的方法来解决这些问题。不过,如果能够依靠概念地图来把隐性关系显性化,长程关联短程化,总是可能可以更好地解决这个问题的。

那,怎么办用呢?

我们可以考虑把概念网络矢量表示做出来——顶点和边的矢量表示同时做出来,然后,把这个矢量表示和词矢量一起当做语言模型的计算起点。

这个工作的参考文献我们会慢慢补充上。


参考文献