分类:作者-论文-主题网络

来自Big Physics


作者-论文-主题网络指的是把科学计量学基础数据——论文发表和引用记录呈现为一个网络形式。

其中作者层之内是学术传承关系(例如[| 数学学术传承树],[学术树项目]),有必要的时候也可以包含其他社会关系,例如亲属关系等。

论文层之内是引用关系。这里要注意,实际上有一个大多数的引用都是礼貌性引用的问题——我们称之为引用骨架挖掘

主题层之内是概念地图,或者称为标注了概念之间的逻辑关系的概念网络。概念地图层本身也可以是一个两部分网——分成概念、命题两层,关系包含概念进入命题、命题导出命题、概念之间的内在依赖关系。

从作者到论文是写作、创作关系。

从论文到主题是“工作在”的关系。

当和专利体系的发明人-专利-技术领域网络结合的时候,就是论文-专利多层网络

网络的构建

从目前的数据来看,一部分学科有作者识别,并且有作者的学术传承关系。文献之间的引用关系数据比较完整。主题之间的逻辑关系,以及文章到主题的关系,这个数据需要自己来构建。当然,也有一定的能用的基础。例如,化学反应研究领域每篇文章和化学元素、化学反应的关系是已经有数据库的。化学反应和元素就可以看做是主题。例如,APS数据库里面PACS代码、PubMed里面的Mech代码、数学的MSC、经济学的JEL也可以当作主题。主题之间也有一些逻辑上的层次关系和共现关系。当然,这些都是暂时可以考虑用一下的数据。真的三层网络模型必须通过更加可靠和深入的方式来构建。例如,文本分析、专家知识、引文分析的结合。

还有一些可能可以拿来用一下的生成关系的方式。例如,通过文章之间的聚类——可能是基于引文的、基于文本的、混合的聚类——来产生文章的分类,然后把得到的分类当做文章的主题。还可以考虑直接通过全文的文本聚类——不管是直接聚类的还是考虑了word2vec之后的词义关系的聚类——来得到分类当作主题。

概念网络的构建是其中更加困难的任务:从知识库和论文中抽取出来概念和概念关系,并且决定把每一篇文章标记在哪些概念上面。关于这个任务,最近Kuansan Wang等人有一个工作可以参考[1]。其主要思想是利用基于知识库,例如Wikipeida,训练出来的已知的概念的矢量表示,来发现论文中的概念。进一步可能还可以考虑通过同时出现在一句话或者一段话中的两个概念来寻找概念之间的关系,例如看看这两个词合起来的共同attention在哪里,来确定概念之间的关系。

网络做什么用

第一,把之前的大量的分析工作和分析方法都统一地描述为:三层网络上的问题和算法。例如,关于作者-主题共现的研究可以一定程度上回答每一个研究者的专家领域的问题,那么,现在来看,实际上就是在研究这个三层网络的一个投影。例如,文章的基于引用关系的聚类的研究,之前有直接引用关系、共被引关系、共施引关系等多种网络分析方法,但是,在这个网络上,实际上就是中间的引文网络的本身或者投影上的研究。

第二,可以帮助研究其它问题。例如聚类问题、主体重要性衡量、创新性度量、作者识别、引文骨架挖掘等等。在聚类问题上,显然,来自于一个作者、被同一篇文章引用、引用同一篇文章、工作在类似的主题上(例如来自于纯文本聚类),都代表了两篇文章一定的相似性。那么,我们就要寻找合适的方法把这些重要性整合起来。显然,三层网络就是这样的一个舞台。具体的分析方法当然还要进一步探索。在主体重要性的问题上,显然,一个工作来自于重要的作者,或者被重要的文章引用,或者工作在重要的主题上,都表示这文章是重要的。因此,我们就需要让重要性在三层网络上传播起来。

第三,非常适合网络效益的体现和网络分析方法的使用。网络效益就是当我们考虑网络上的两个点之间的关系的时候,往往不能局限于是否存在直接联系,还要考虑间接联系,以及其他整体性的问题。一个这方面的分析方法的典型就是广义投入产出分析。当然,目前这个分析方法只有同类顶点网络上的版本,如果想用在多层网络上还需要研究多层网络的版本。

挑战和下一步工作

网络的构建、网络上分析算法的设计和检验(由于Ground Truth的缺乏,科学学领域的检验不好做)、甚至最合适的用三层网络框架来分析的问题的选择,都是挑战。

目前来说,可以考虑先做:

  1. 主体重要性的度量,例如文章、作者、主题(科学领域)、专利、技术部门、学校、国家等等的重要性度量
  2. 文章聚类,非node2vec的直接基于网络的不需要生成随机行走的word2vec,把word2vec用于词之后做的文本聚类
  3. 创新性度量(从概念距离的角度来看论文的创新性)、多样性度量
  4. 在某些领域,例如科学计量学、物理学APS数据(作者识别、论文引用、概念网络都大概有了),先做出来这样一个主题网络,然后,直接做好这个三层网络,用来讨论作者、文章、概念的排序
  5. 用作者-文章-概念三层网络来计算作者的影响力,然后按照作者的主要工作单位所在的国家(假设在研究期间这个作者的国家属性没有发生变化,这个要统计一下变量的比例)来解决作者国家贡献度度量的问题
  6. 用配合上专利引用论文(需求端)、书籍引用论文(需求端)、概念在书籍中出现的频次(需求端,需要找出来每个概念第一次出现哪篇文章以及后来出现在哪篇文章中)或者论文引用书籍(供给端)当作外界的作者-论文-概念三层网络来讨论作者、文章、概念的排序。更多见考虑教材和专利的论文影响力衡量
  7. 在这个分析中得到论文的三层网络中概念重要性之后,概念的重要性是否可以用于学习顺序的研究做参考?当然,这一点也可以直接就当做这个方法的一个卖点,如果我们找不到好的检验方法来体验这个多层网络分析的好处的话

参考文献

  1. Zhihong Shen, Hao Ma, Kuansan Wang, A web-scale system for scientific knowledge exploration, 2018 MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS. https://arxiv.org/pdf/1805.12216.pdf

子分类

本分类有以下2个子分类,共有2个子分类。