分类:作者-论文-主题网络
来自Big Physics
作者-论文-主题网络指的是把科学计量学基础数据——论文发表和引用记录呈现为一个网络形式。
其中作者层之内是学术传承关系(例如[| 数学学术传承树],[学术树项目]),有必要的时候也可以包含其他社会关系,例如亲属关系等。
论文层之内是引用关系。这里要注意,实际上有一个大多数的引用都是礼貌性引用的问题——我们称之为引用骨架挖掘。
主题层之内是概念地图,或者称为标注了概念之间的逻辑关系的概念网络。
从作者到论文是写作、创作关系。
从论文到主题是“工作在”的关系。
当和专利体系的发明人-专利-技术领域网络结合的时候,就是论文-专利多层网络。
网络的构建
从目前的数据来看,一部分学科有作者识别,并且有作者的学术传承关系。文献之间的引用关系数据比较完整。主题之间的逻辑关系,以及文章到主题的关系,这个数据需要自己来构建。当然,也有一定的能用的基础。例如,化学反应研究领域每篇文章和化学元素、化学反应的关系是已经有数据库的。化学反应和元素就可以看做是主题。例如,APS数据库里面PACS代码、PubMed里面的Mech代码、数学的MSC、经济学的JEL也可以当作主题。主题之间也有一些逻辑上的层次关系和共现关系。当然,这些都是暂时可以考虑用一下的数据。真的三层网络模型必须通过更加可靠和深入的方式来构建。例如,文本分析、专家知识、引文分析的结合。
还有一些可能可以拿来用一下的生成关系的方式。例如,通过文章之间的聚类——可能是基于引文的、基于文本的、混合的聚类——来产生文章的分类,然后把得到的分类当做文章的主题。还可以考虑直接通过全文的文本聚类——不管是直接聚类的还是考虑了word2vec之后的词义关系的聚类——来得到分类当作主题。
网络做什么用
子分类
本分类有以下2个子分类,共有2个子分类。