分类:概念抽取和概念关系挖掘

来自Big Physics


研究背景

从书籍、论文等语料经过自然语言处理或者人工处理得到概念、概念关系,形成概念网络,或者知识地图,是大量后续研究的基础(见概念网络和理解型学习科学计量学导引)。例如概念网络可以用于论文分类、创新性的度量、问答系统、阅读理解、教和学。这里有两个问题:如何从语料得到概念地图,如何用概念地图来做后续任务。当然,这两个任务不一定要合起来做,可以在某些概念地图的基础上做后续研究(例如我们的概念学习顺序和检测算法),也可以仅仅研究从语料到概念网络。这需要依靠自然语言处理技术。

同时,也有一个反过来的问题:概念地图如何帮助提高自然语言处理技术。

运用自然语言处理技术从文本中抽取概念和概念联系

实际上,Google知识图谱任务就已经以Wikipedia等语料和其他网络语料为基础构建了很大规模的“常识和常识之间的联系”数据库。一方面,我们需要去了解一下他们的算法是什么。另一方面,很有可能有联系的概念可以通过语料和自然语言处理算法来发现联系。同时,考虑到我们通常需要在更加专门的领域内构建概念网络,然后用于这个专门领域的研究和学习,所以,可能会存在更好的算法。

这个研究就专门在“科学计量学”(见科学学)和“产品生产关系”(见生产关系挖掘)两个小领域内来构建概念网络。前者需要从科学计量学论文语料库找出来,科学计量学的专有名词和这些专有名词之间的关系。后者,需要从一个叫做"How Products Are Made"网站获得产品的生产过程和原材料的描述,把原材料和产品的类似化学反应的数据取出来。

所需要的论文数据和网站数据请跟我们联系。

你也可以选择你能够获取数据的其他领域,例如,所有的中小学数学书来获得数学概念和概念联系,所有的中小学物理书等等。

概念挖掘和关系挖掘的技术

自然语言处理已经有一些实体标记的技术引用错误:没有找到与</ref>对应的<ref>标签 [1] [2] [3] [4] [5] [6] </references>

  1. T. Mikolov, W.-T. Yih, and G. Zweig, “Linguistic regularities in continuous space word representations,” in Proc. Conf. North Amer. Chapter Assoc. Comput. Linguistics: Human Language Technol., 2013, 746-751.
  2. A. Bordes, N. Usunier, A. Garcıa-Duran, J. Weston, and O. Yakhnenko, “Translating embeddings for modeling multi-relational data,” in Proc. Adv. Neural Inf. Process. Syst., 2013, 2787-2795.
  3. J. Weston, A. Bordes, O. Yakhnenko, and N. Usunier, “Connecting language and knowledge bases with embedding models for relation extraction,” in Proc. Conf. Empirical Methods, Natural Language Process., 2013, 1366-1371.
  4. S. Riedel, L. Yao, A. Mccallum, and B. M. Marlin, “Relation extraction with matrix factorization and universal schemas,” in Proc. Conf. North Amer. Chapter Assoc. Comput. Linguistics: Human Language Technol., 2013, 74-84.
  5. Maximilian Nickel, Kevin Murphy, Volker Tresp, Evgeniy Gabrilovich. A Review of Relational Machine Learning for Knowledge Graphs. Proceedings of the IEEE 2016.
  6. John Giorgi and Xindi Wang and Nicola Sahar and Won Young Shin and Gary D. Bader and Bo Wang, End-to-end Named Entity Recognition and Relation Extraction using Pre-trained Language Models, arXiv cs.CL 1912.13415(2019).