分类:作者-论文-主题网络

来自Big Physics


作者-论文-主题网络指的是把科学计量学基础数据——论文发表和引用记录呈现为一个网络形式。

其中作者层之内是学术传承关系(例如[| 数学学术传承树],[学术树项目]),有必要的时候也可以包含其他社会关系,例如亲属关系等。

论文层之内是引用关系。这里要注意,实际上有一个大多数的引用都是礼貌性引用的问题——我们称之为引用骨架挖掘

主题层之内是概念地图,或者称为标注了概念之间的逻辑关系的概念网络。

从作者到论文是写作、创作关系。

从论文到主题是“工作在”的关系。

当和专利体系的发明人-专利-技术领域网络结合的时候,就是论文-专利多层网络

网络的构建

从目前的数据来看,一部分学科有作者识别,并且有作者的学术传承关系。文献之间的引用关系数据比较完整。主题之间的逻辑关系,以及文章到主题的关系,这个数据需要自己来构建。当然,也有一定的能用的基础。例如,化学反应研究领域每篇文章和化学元素、化学反应的关系是已经有数据库的。化学反应和元素就可以看做是主题。例如,APS数据库里面PACS代码、PubMed里面的Mech代码、数学的MSC、经济学的JEL也可以当作主题。主题之间也有一些逻辑上的层次关系和共现关系。当然,这些都是暂时可以考虑用一下的数据。真的三层网络模型必须通过更加可靠和深入的方式来构建。例如,文本分析、专家知识、引文分析的结合。

还有一些可能可以拿来用一下的生成关系的方式。例如,通过文章之间的聚类——可能是基于引文的、基于文本的、混合的聚类——来产生文章的分类,然后把得到的分类当做文章的主题。还可以考虑直接通过全文的文本聚类——不管是直接聚类的还是考虑了word2vec之后的词义关系的聚类——来得到分类当作主题。

网络做什么用

第一,把之前的大量的分析工作和分析方法都统一地描述为:三层网络上的问题和算法。例如,关于作者-主题共现的研究可以一定程度上回答每一个研究者的专家领域的问题,那么,现在来看,实际上就是在研究这个三层网络的一个投影。例如,文章的基于引用关系的聚类的研究,之前有直接引用关系、共被引关系、共施引关系等多种网络分析方法,但是,在这个网络上,实际上就是中间的引文网络的本身或者投影上的研究。

第二,可以帮助研究其它问题。例如聚类问题、主体重要性衡量、创新性度量、作者识别、引文骨架挖掘等等。在聚类问题上,显然,来自于一个作者、被同一篇文章引用、引用同一篇文章、工作在类似的主题上(例如来自于纯文本聚类),都代表了两篇文章一定的相似性。那么,我们就要寻找合适的方法把这些重要性整合起来。显然,三层网络就是这样的一个舞台。具体的分析方法当然还要进一步探索。在主体重要性的问题上,显然,一个工作来自于重要的作者,或者被重要的文章引用,或者工作在重要的主题上,都表示这文章是重要的。因此,我们就需要让重要性在三层网络上传播起来。

第三,非常适合网络效益的体现和网络分析方法的使用。网络效益就是当我们考虑网络上的两个点之间的关系的时候,往往不能局限于是否存在直接联系,还要考虑间接联系,以及其他整体性的问题。

挑战和下一步工作

网络的构建、网络上分析算法的设计和检验(由于Ground Truth的缺乏,科学学领域的检验不好做)、甚至最合适的用三层网络框架来分析的问题的选择,都是挑战。

目前来说,可以考虑先做:

  1. 主体重要性的度量,例如文章、作者、主题(科学领域)、专利、技术部门、学校、国家等等的重要性度量
  2. 文章聚类,非node2vec的直接基于网络的不需要生成随机行走的word2vec,把word2vec用于词之后做的文本聚类
  3. 创新性度量

子分类

本分类有以下2个子分类,共有2个子分类。