分类:概念抽取和概念关系挖掘
研究背景
从书籍、论文等语料经过自然语言处理或者人工处理得到概念、概念关系,形成概念网络,或者知识地图,是大量后续研究的基础(见概念网络和理解型学习,科学计量学导引)。例如概念网络可以用于论文分类、创新性的度量、问答系统、阅读理解、教和学。这里有两个问题:如何从语料得到概念地图,如何用概念地图来做后续任务。当然,这两个任务不一定要合起来做,可以在某些概念地图的基础上做后续研究(例如我们的概念学习顺序和检测算法),也可以仅仅研究从语料到概念网络。这需要依靠自然语言处理技术。
同时,也有一个反过来的问题:概念地图如何帮助提高自然语言处理技术。
运用自然语言处理技术从文本中抽取概念和概念联系
实际上,Google知识图谱任务就已经以Wikipedia等语料和其他网络语料为基础构建了很大规模的“常识和常识之间的联系”数据库。一方面,我们需要去了解一下他们的算法是什么。另一方面,很有可能有联系的概念可以通过语料和自然语言处理算法来发现联系。同时,考虑到我们通常需要在更加专门的领域内构建概念网络,然后用于这个专门领域的研究和学习,所以,可能会存在更好的算法。
这个研究就专门在“科学计量学”(见科学学)和“产品生产关系”(见生产关系挖掘)两个小领域内来构建概念网络。前者需要从科学计量学论文语料库找出来,科学计量学的专有名词和这些专有名词之间的关系。后者,需要从一个叫做"How Products Are Made"网站获得产品的生产过程和原材料的描述,把原材料和产品的类似化学反应的数据取出来。
所需要的论文数据和网站数据请跟我们联系。
你也可以选择你能够获取数据的其他领域,例如,所有的中小学数学书来获得数学概念和概念联系,所有的中小学物理书等等。
概念挖掘和关系挖掘的技术
自然语言处理已经有一些实体标记的技术,但是,这样的实体标记技术是否可以用在学科概念上还有待检验。因此,无监督概念挖掘技术本身也是一个有待解决的问题。另一方面,对于某些领域,可以用Wikipedia、教材、领域专有词汇等等,来做个有监督概念挖掘。因此,概念挖掘还不是特别难。
关系挖掘就是比较复杂。第一,我们可能需要确定是否两个概念之间有逻辑上的关系,有的话,有没有方向,能不能确定方向。第二,给这个有关系,有方向的关系,找一个合适的关系连词来连上。同样,如果是无监督的挖掘可能确实也不好办。如果是有监督的,例如利用Wikipedia的超链接,甚至专门的Wikidata等基于Wikipedia的三元体来训练,就会简单一点。另外,从方向上,原则上一个简单概念下层概念可能会在一个其支撑的上层概念附近被多次提及,而反过来,一个上层概念不会在其下层支撑概念附近被多次提及[1]。因此,方向的训练上,也不是完全没有希望。有了概念,有了关系的存在性,是不是通过词矢量表示和运算(例如<math>v_{t}-v_{h}=v_{r}<math>,两个概念的矢量表示的差对应着关系的矢量表示引用错误:没有找到与</ref>
对应的<ref>
标签
</references>
- ↑ 引用错误:无效
<ref>
标签;未给name属性为Liang:Prerequisition
的引用提供文字
子分类
本分类有以下10个子分类,共有10个子分类。
C
E
S
科
分类“概念抽取和概念关系挖掘”中的页面
以下2个页面属于本分类,共2个页面。