分类:替代能力指数

来自Big Physics
Safin讨论 | 贡献2021年9月30日 (四) 09:43的版本 →‎初步结果


问题背景

度量研究工作的创新性是科学学非常需要的但是还没有的一个指标。从根本上来说,创新性的度量需要用到科学学三层网络,从概念层来考虑一篇文章在研究问题、研究方法、结论上的新意。但是,由于建立三层网络架构的难度,我们可以暂时考虑一些替代品,例如,论文追热点,以及这里的替代力指数

替代力指数(replaceability),Disruptive指数的矩阵形式和拓展

考虑当论文[math]\displaystyle{ i }[/math]在被论文[math]\displaystyle{ j }[/math]引用的时候多大程度上代表[math]\displaystyle{ j }[/math]是建立在[math]\displaystyle{ i }[/math]的基础上。这个时候,可以区分[math]\displaystyle{ j }[/math]是否引用了其他文章,尤其是[math]\displaystyle{ j }[/math]是否引用了[math]\displaystyle{ i }[/math]的参考文献([math]\displaystyle{ i }[/math]的父辈),甚至[math]\displaystyle{ j }[/math]的爷爷(参考文献的参考文献)。实际上,这就是Disruptive指数的含义[1][2](不过在那里有几个问题,首先,原来的定义企图把影响力和替代力混合,包含了[math]\displaystyle{ N_R }[/math];正负两个方向含义相反,原则上应该是定义一个Disuptive和In-disruptive,保持正号)。在这里,考虑参考文献的参考文献,则是对这个指数的推广。

原始的Disruptive指数的含义[1][2]的定义如下:

定义[math]\displaystyle{ x^{i}_{j} }[/math]表示[math]\displaystyle{ i }[/math][math]\displaystyle{ j }[/math]引用,也就是[math]\displaystyle{ i }[/math]的一部分进入了[math]\displaystyle{ j }[/math],或者说,学术意义上,[math]\displaystyle{ i }[/math]支撑了[math]\displaystyle{ j }[/math][math]\displaystyle{ \sum_{j}x^{i}_{j} }[/math]表示[math]\displaystyle{ i }[/math]的被引次数,[math]\displaystyle{ \sum_{jk}x^{k}_{j}x^{i}_{j}x^{k}_{i} }[/math]表示引用[math]\displaystyle{ i }[/math]的论文同时引用[math]\displaystyle{ i }[/math]的参考文献[math]\displaystyle{ k }[/math]的次数,[math]\displaystyle{ \sum_{jk}x^{k}_{j}x^{k}_{i} }[/math]表示[math]\displaystyle{ i }[/math]的参考文献[math]\displaystyle{ k }[/math]被单独引用(没有同时和[math]\displaystyle{ i }[/math]一起被引用)的次数,于是,[math]\displaystyle{ \eta^{i}=\frac{\sum_{j}x^{i}_{j}-\sum_{jk}x^{k}_{j}x^{i}_{j}x^{k}_{i}}{\sum_{j}x^{i}_{j}+\sum_{jk}x^{k}_{j}x^{i}_{j}x^{k}_{i}+\sum_{jk}x^{k}_{j}x^{k}_{i}} }[/math]。关键是前两项,i的总被引次数,减去,i和k(i的参考文献)同时被引的次数。如果这个差比较大,那么,i就相当于代替了其参考文献,也就是替代性强,否则,i和它的参考文献经常一起被引,则替代性弱。

注意到分子分母的形式是人为添加进去的,我们打算沿着这个同时引用父辈的思想,定义一个天生的分数,然后来做分数的乘法。

推广后的Disruptive指数,或者叫做替代力指数(replaceability)的数学形式如下:

定义[math]\displaystyle{ X_{j}=\sum_{i} x^{i}_{j} }[/math][math]\displaystyle{ j }[/math]的参考文献数量,并且在此基础上定义引用支撑关系矩阵:[math]\displaystyle{ A^{i}_{j}=\frac{x^{i}_{j}}{X_{j}} }[/math]。顺便,实际上,源归一化引用次数就是计算这个矩阵的行和,也就是:[math]\displaystyle{ S^{i,\left(0\right)}=\sum_{j}A^{i}_{j} }[/math]。PageRank算法实际上是计算这个矩阵的本征向量(或者说,给矩阵加上一个微扰以后的本征向量)。不过,现在,我们要换一个这个矩阵的用法。将来再考虑和PageRank的结合。

这个用法的思想如下:我们更加关注原创性,或者说参考文献的替代能力问题——一篇论文的真正的学术上的重要支撑来自于哪里。因此,在一篇论文引用的论文中,如果有两篇论文其存在引用关系,我们就把更多的权重给那篇较早的论文。同样地,如果被引用的两篇论文没有直接引用关系,但是有间接引用关系,例如其中一篇是另一篇的参考文献的参考文献,也需要做相应的权重调整。也就是说,我们希望把矩阵[math]\displaystyle{ A }[/math]变成一个更加代表原创性不可替代性的的引用关系矩阵[math]\displaystyle{ \mathcal{A} }[/math]

第一项考虑[math]\displaystyle{ i }[/math][math]\displaystyle{ j }[/math]引用的度量,也就是[math]\displaystyle{ A^{i}_{j} }[/math]

第二项,考虑考虑[math]\displaystyle{ i }[/math][math]\displaystyle{ j }[/math]引用,同时考虑[math]\displaystyle{ i }[/math]的父辈[math]\displaystyle{ k }[/math]也被[math]\displaystyle{ j }[/math]引用,也就是[math]\displaystyle{ A^{i}_{j}\sum_{k}A^{k}_{j}A^{k}_{i}=\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}A\left|i\right\rangle }[/math]

第二项,考虑考虑[math]\displaystyle{ i }[/math][math]\displaystyle{ j }[/math]引用,同时考虑[math]\displaystyle{ i }[/math]的爷爷辈[math]\displaystyle{ m }[/math](通过父辈[math]\displaystyle{ l }[/math]相联系)也被[math]\displaystyle{ j }[/math]引用,也就是[math]\displaystyle{ A^{i}_{j}\sum_{lm}A^{l}_{i}A^{m}_{l}A^{m}_{j}=\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}AA\left|i\right\rangle }[/math]

以此类推,如下图。

Irreplaceability.png

根据前面的原创性或者说不可替代性考量,我们应该把第一项算成正的,把后面的项都算成负的。因此, [math]\displaystyle{ \mathcal{A}^{i}_{j}=A^{i}_{j}-\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}A\left|i\right\rangle-\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}AA\left|i\right\rangle-\cdots }[/math],合起来

[math]\displaystyle{ \mathcal{A}^{i}_{j}=A^{i}_{j}\left[1-\left\langle j\right|\left(A^{\dag}A+A^{\dag}A^{2}+\cdots\right)\left|i\right\rangle\right]=A^{i}_{j}\left[1-\left\langle j\right|\frac{A^{\dag}A}{1-A}\left|i\right\rangle\right] }[/math]

更一般的情况,我们还可以考虑一个衰减系数[math]\displaystyle{ \gamma }[/math],从而[math]\displaystyle{ \mathcal{A}^{i}_{j}\left(\gamma\right)=A^{i}_{j}\left[1-\gamma\left\langle j\right|\frac{A^{\dag}A}{1-\gamma A}\left|i\right\rangle\right] }[/math]。或者在第一阶截断,[math]\displaystyle{ \mathcal{A}^{\left(1\right),i}_{j}=A^{i}_{j}\left[1-\left\langle j\right|A^{\dag}A\left|i\right\rangle\right] }[/math]

有了这个矩阵[math]\displaystyle{ \mathcal{A} }[/math][math]\displaystyle{ \mathcal{A}\left(\gamma\right) }[/math][math]\displaystyle{ A^{\left(1\right)} }[/math]我们再来计算网络指标。例如直接计算顶点权重, [math]\displaystyle{ \mathcal{S}^{i}=\sum_{j}\mathcal{A}^{i}_{j} }[/math](实际上,用[math]\displaystyle{ A^{\left(1\right)} }[/math]计算出来的就和[1][2]的disruptive指数相当)。或者把PageRank算法以及投入产出分析用到这个矩阵[math]\displaystyle{ \mathcal{A} }[/math]上(先把[math]\displaystyle{ \mathcal{A} }[/math]转化成概率转移矩阵,然后计算加了适当微扰的本征向量),就可以综合考虑间接影响力。

衰减太快的问题

[math]\displaystyle{ \mathcal{A}^{i}_{j}=A^{i}_{j}\left[1-\left\langle j\right|\left(A^{\dag}A+A^{\dag}A^{2}+\cdots\right)\left|i\right\rangle\right]=A^{i}_{j}\left[1-\left\langle j\right|\frac{A^{\dag}A}{1-A}\left|i\right\rangle\right] }[/math]这个定义中,由于[math]\displaystyle{ A^{i}_{j} }[/math]是一个小于1的数,因此累积相乘造成了特别大的衰减,于是实际上高阶项的贡献不大。一种处理方式就是,直接用[math]\displaystyle{ x^{i}_{j} }[/math],也就是定义,[math]\displaystyle{ \eta=\frac{x^{i}_{j}-\gamma\left\langle i\right|x\left|j\right\rangle\left\langle j\right|x^{\dag}x\left|i\right\rangle-\gamma^{2}\left\langle i\right|x\left|j\right\rangle\left\langle j\right|x^{\dag}xx\left|i\right\rangle-\cdots}{x^{i}_{j}+\gamma\left\langle i\right|x\left|j\right\rangle\left\langle j\right|x^{\dag}x\left|i\right\rangle+\gamma^{2}\left\langle i\right|x\left|j\right\rangle\left\langle j\right|x^{\dag}xx\left|i\right\rangle+\cdots} }[/math],然后尝试合适的[math]\displaystyle{ \gamma }[/math]。这是disruptive指数[1][2]的矩阵形式的直接推广。

初步结果

1. APS

  - 稀疏矩阵,直接幂乘,变成稠密矩阵,内存不够,采用子空间迭代求解方程组
  - 计算$R^i_j$和相应的权重,由于$A^i_j<1$,无法很明显的看出一阶与多阶的差异
  - 计算$T^i_j$和相应的权重,$\gamma > 0.09$后,系数矩阵条件数很大,子空间迭代求解方程组无法有效快速收敛
  - Nobel奖论文,$\gamma=0.05$,其后代不怎么引用其各个层次的参考文献
  - 在其上无法复现disruption指数的结果,所以转向MAG

2. MAG

  - 由于引用关系矩阵规模较大,仅仅计算一阶$T^i_j$和相应的权重 
  - 团队大小,复现disruption指数的结果,一阶替代力指数与团队大小成反比
  - 通过调整$\gamma$,一阶替代力指数权重可以较好的筛选出Nobel奖论文
  - 作者学术生命,随着生命的增长,被引数量不断增加,一阶替代力指数权重先下降后增长
  - 高被引的论文,disruption指数,一阶替代力指数权重与团队大小仍然是反比关系
  - 国家对比,大盘走势不变,中国情况比较特殊,当团队大小大于1后,团队大小与指数的关系基本保持不变

下一步工作

  1. 在物理APS数据、数学经济学数据、更多其他领域的数据、甚至全数据上做论文替代力指数计算
  2. 分析论文替代力指数和其他论文属性的相关性,例如分国家、作者数量、领域、参考文献数量、被引次数、是否国际合作等
  3. 解释计算结果

拓展

除了考虑[math]\displaystyle{ X^i_j }[/math][math]\displaystyle{ i }[/math]的各个层级的祖先的影响,我们还可以考虑[math]\displaystyle{ i }[/math]的各个层级的兄弟的影响,如下图所示。

GFcitation.png

还可以考虑兄弟和祖先的混合。这个时候,要注意两种方式并不完全独立,也就是两种生成方式在某些时候会得到相同的图。能不能写下来一个公式把两种生成方式的所有结果都包含进来,是一个问题。这就是传播子Green函数。当然,也可以选分开考虑这两种情况。到底怎么用,得在实际系统中做出来看看。不过无论如何兄弟的,都比同级别的祖先的多一个[math]\displaystyle{ X }[/math],也就是更小。

参考文献

  1. 1.0 1.1 1.2 1.3 Funk, R. J. & Owen-Smith, J. A dynamic network measure of technological change. Manage. Sci. 63, 791-817(2017). https://pubsonline.informs.org/doi/10.1287/mnsc.2015.2366
  2. 2.0 2.1 2.2 2.3 Lingfei Wu, Dashun Wang & James A. Evans, Large teams develop and small teams disrupt science and technology, Nature 566, 378-382(2019). https://www.nature.com/articles/s41586-019-0941-9

本分类目前不含有任何页面或媒体文件。