分类:基于内容的科学学

来自Big Physics
Jinshanw讨论 | 贡献2021年1月5日 (二) 11:14的版本


研究背景

在科学学中,我们经常需要研究metadata(标题、作者、地址、期刊、引文网络、关键词)以及metadata意外的数据(摘要、公式、图、引用动机、概念、概念关系、核心贡献或者说新增加的知识)。前者有比较好的数据库可以使用,后者需要从全文去挖掘。一方面,当前的科学学研究的发展已经使得对后者的关注越来越重要,比如说我们已经不满足于数被引次数甚至不满足于引文网络上的传播计算,而是要追求从一篇论文的研究问题和核心贡献来说,这篇论文的创新性和学术价值导师怎样。另一方面,自然语言处理技术和网络分析等计算分析技术的发展也给我们做后者的研究创造了条件。因此,已经到了可以开展全文分析,或者叫做基于内容的科学学的时候了。

研究问题

我们从两个的方面来开展基于内容的科学学。首先,从全文数据构建学科概念网络。这需要先把pdf格式的论文变成xml的论文,然后从论文中用自然语言处理技术提炼出来概念和概念联系,构成分类:科学计量学多层网络构建和应用 科学学三层网络

全文纯word2vec 得到论文的全文,把全文中引用的参考文献替换成文献的唯一编码,例如DOI,看作一个词。对这个扩大了的文本(文本、文献都是词)用word2vec,可以同时得到论文和词语的矢量表示。然后用得到的论文的矢量表示来做论文分类。此外,得到的词语也可以做层次性聚类,甚至计算词语和论文之间的相似性,来得到一个不同层次的主题的分类体系,以及文章和主题的对应关系。

这个研究需要全文数据,可以先在某个小集合上做一个实验。例如获取所有的科学计量学论文或者APS论文,来训练。在全文上,除了PMC,Elsevier有能够获得全文的API(胡志刚)。

注意,没有被引用的文章可能得通过doc2vec来获得矢量表示。已经有被引的文章还要结合通过词(DOI)以及通过doc来获得矢量的方式来获得矢量。

在计算文章矢量表示的过程中,区分参考文献中出现的文章的矢量,以及正文的矢量,然后对比同一篇文章在这两个情况下的矢量,会是一个有意思的问题。

具体算法上,除了word2vec还可以考虑BERT算法,可以产生带有context的矢量表示。

另外,全文word2vec还可以用于得到作者、地址矢量,用于作者识别和机构识别,甚至用于作者贡献的识别(假设一个作者的主要领域和主要风格是比较固定的可以用自然语言处理探测到,再假设主要领域相关的科学家起到主要作用。当然,这些假设就需要比较多的同一个作者的论文全文数据)。

子分类

本分类有以下5个子分类,共有5个子分类。