分类:基于内容的科学学

来自Big Physics


研究背景

在科学学中,我们经常需要研究metadata(标题、作者、地址、期刊、引文网络、关键词)以及metadata以外的数据(摘要、公式、图、引用动机、概念、概念关系、核心贡献或者说新增加的知识)。前者有比较好的数据库可以使用,后者需要从全文去挖掘。一方面,当前的科学学研究的发展已经使得对后者的关注越来越重要,比如说我们已经不满足于数被引次数甚至不满足于引文网络上的传播计算,而是要追求从一篇论文的研究问题和核心贡献来说,这篇论文的创新性和学术价值到底怎样。另一方面,自然语言处理技术和网络分析等计算分析技术的发展也给我们做后者的研究创造了条件。因此,已经到了可以开展全文分析,或者叫做基于内容的科学学的时候了。

研究问题

我们从两个的方面来开展基于内容的科学学。首先,从全文数据构建学科概念网络。这需要先把pdf格式的论文变成xml等机器可读格式的论文,然后从论文中用自然语言处理技术提炼出来概念和概念联系,构建包含作者-论文-概念的科学学三层网络(或者更多层的网络)。其次,我们要研究科学学三层网络上的分析计算方法来回答科学学问题。例如,论文创新性的度量、作者识别、单位识别、方程识别、图表识别、引文骨架识别、引用动机识别、知识发现、论文推荐等等。

研究方法

在这里我们打算采用“全文全要素自然语言处理”的方法来构建网络和发展网络上的算法回答科学学问题。

全文全要素自然语言处理就是,把全文文字以及文中的参考文献(在每一句被引用的话中替换成文献的唯一编码,例如DOI)、作者、单位、公式、图、表都当做一个词或者一个短语,用自然语言处理技术,得到论文、词语、短语的矢量表示,并且做后续的实体识别(作者姓名、单位、参考文献、概念等)和关系识别等计算分析。

子分类

本分类有以下2个子分类,共有2个子分类。