分类:2021年下学期大物理第四次组会纪要

来自Big Physics
Safin讨论 | 贡献2021年3月20日 (六) 15:59的版本


时间:2021年3月18日(周四)第四次组会


报告人:焦弈霖

题目: xxx

主要内容: xxx

组会反馈:xxx

下一步工作:xxx


报告人:邓招奇

题目:替代力指数应用于MAG数据集

主要内容:主要介绍了在MAG数据集上计算替代力指数,并从几个方面与其它指数展开类比。本次组会主要目的是借此总结前一阶段的工作,并寻找替代力指数工作本身可能的闪光点。

前面的工作,主要是在APS数据上计算替代力指数,APS数据集仅有56万条数据,引用关系网络不是很完备,虽然在其上可以较好的利用替代力指数筛选出Nobel获奖论文,但是却无法复现出参考文献的主要结果,Disruption指数与团队数量成反比。

MAG数据集是微软基于搜索建立的形式化的数据集,其包含了Journal,Patent,Repository,Conference,BookChapter,Book,Dataset,Other等类型的数据,截至2020-07-29的离线数据集,一共包含240913761条(2.4亿)数据。其中施引和被引全为0的数据127127788条(1.2亿)条,利用剩下被引和施引不全为0的113785973条数据来构建引用关系网络。

在引用关系网络之上,计算每条数据的被引数量,Disriuption指数,一阶替代力指数及其权重,另外MAG数据本身包含一个排序指数Rank。

首先,复现参考文献的结果,基本能得到 被引数量与团队数量成正比,Disriuption指数,一阶替代力指数的权重,以及Rank与团队数量成反比。

接着,计算特殊数据,Nobel奖论文的各项指数,以及它们在整体数据中的百分位数,发现百分位数均值,在被引数量,一阶替代力指数的权重上均超过98%,而在Disruption指数上仅有70.97%,在Rank指数仅为46.14%。同时,在数据集中随机选取50万条数据,与Nobel奖论文一起绘制被引数量与各个指数的关系散点图,发现,相比Disruption指数和Rank指数,一阶替代力指数能够较好的筛选出Nobel奖论文。

之后,计算每个作者的学术生命,并从文章角度,计算属于文章的四种与作者相关的学术生命,也即第一作者的学术生命,所有作者的平均学术生命,所有作者的中位数学术生命,所有作者的最大学术生命,发现文章的四种学术生命,与被引数量成正比,而其它指数在学术生命的各个时期,表现出先下降,后上升的趋势。而如果从作者本身的角度,来计算各个指数的均值,发现指数均值与作者的学术生命,表现出,先下降,后平稳维持一段时期,最后上升的趋势。

组会反馈:整体来看,我们的替代力指数,在某些方面优于Disruption,并且可以通过参数进行灵活的调整。通过学术生命的结果,可以看到,这几种指数在衡量创新性上都有缺陷,因为按照常理,不可能年龄越大,创新性越强。参考文献的reduce操作是一种很自然的操作,特别是当数据的属性比较分散,无法体现相关性时,可以考虑进行聚团。虽然替代力指数可以筛选出Nobel奖论文,但是Nobel奖论文本身的被引数量已经非常高了。可以现在APS数据集上,计算二阶及以上的替代力指数,特别时当参数较大,无法求解矩阵逆时,可以用矩阵乘法来近似计算前几阶。

下一步工作:继续寻找,能够利用替代力指数发现一些发转的结果,比如,被引数量很大,但是替代力指数很小,或者被引数量很小,反而替代力指数较大,这类特殊数据的特点;看看能否发现一些定性的结果,比如替代力指数与数据的其它特性成某种关系。

本分类目前不含有任何页面或媒体文件。