分类:2021年下学期大物理第四次组会纪要

时间：2021年3月18日（周四）第四次组会

报告人：焦弈霖

题目： xxx

主要内容： xxx

组会反馈：xxx

下一步工作：xxx

报告人：邓招奇

题目：替代力指数应用于MAG数据集

主要内容：主要介绍了在MAG数据集上计算替代力指数，并从几个方面与其它指数展开类比。本次组会主要目的是借此总结前一阶段的工作，并寻找替代力指数工作本身可能的闪光点。

前面的工作，主要是在APS数据上计算替代力指数，APS数据集仅有56万条数据，引用关系网络不是很完备，虽然在其上可以较好的利用替代力指数筛选出Nobel获奖论文，但是却无法复现出参考文献的主要结果，Disruption指数与团队数量成反比。

MAG数据集是微软基于搜索建立的形式化的数据集，其包含了Journal，Patent，Repository，Conference，BookChapter，Book，Dataset，Other等类型的数据，截至2020-07-29的离线数据集，一共包含240913761条(2.4亿)数据。其中施引和被引全为0的数据127127788条(1.2亿)条，利用剩下被引和施引不全为0的113785973条数据来构建引用关系网络。

在引用关系网络之上，计算每条数据的被引数量，Disriuption指数，一阶替代力指数及其权重，另外MAG数据本身包含一个排序指数Rank。

首先，复现参考文献的结果，基本能得到被引数量与团队数量成正比，Disriuption指数，一阶替代力指数的权重，以及Rank与团队数量成反比。

接着，计算特殊数据，Nobel奖论文的各项指数，以及它们在整体数据中的百分位数，发现百分位数均值，在被引数量，一阶替代力指数的权重上均超过98%，而在Disruption指数上仅有70.97%，在Rank指数仅为46.14%。同时，在数据集中随机选取50万条数据，与Nobel奖论文一起绘制被引数量与各个指数的关系散点图，发现，相比Disruption指数和Rank指数，一阶替代力指数能够较好的筛选出Nobel奖论文。

之后，计算每个作者的学术生命，并从文章角度，计算属于文章的四种与作者相关的学术生命，也即第一作者的学术生命，所有作者的平均学术生命，所有作者的中位数学术生命，所有作者的最大学术生命，发现文章的四种学术生命，与被引数量成正比，而其它指数在学术生命的各个时期，表现出先下降，后上升的趋势。而如果从作者本身的角度，来计算各个指数的均值，发现指数均值与作者的学术生命，表现出，先下降，后平稳维持一段时期，最后上升的趋势。

组会反馈：整体来看，我们的替代力指数，在某些方面优于Disruption，并且可以通过参数进行灵活的调整。通过学术生命的结果，可以看到，这几种指数在衡量创新性上都有缺陷，因为按照常理，不可能年龄越大，创新性越强。参考文献的reduce操作是一种很自然的操作，特别是当数据的属性比较分散，无法体现相关性时，可以考虑进行聚团。虽然替代力指数可以筛选出Nobel奖论文，但是Nobel奖论文本身的被引数量已经非常高了。可以现在APS数据集上，计算二阶及以上的替代力指数，特别时当参数较大，无法求解矩阵逆时，可以用矩阵乘法来近似计算前几阶。

下一步工作：继续寻找，能够利用替代力指数发现一些发转的结果，比如，被引数量很大，但是替代力指数很小，或者被引数量很小，反而替代力指数较大，这类特殊数据的特点；看看能否发现一些定性的结果，比如替代力指数与数据的其它特性成某种关系。

本分类目前不含有任何页面或媒体文件。

匿名

搜索

分类:2021年下学期大物理第四次组会纪要

名字空间

更多

页面选项

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:2021年下学期大物理第四次组会纪要

导航

Wiki工具

页面工具

分类