分类:引文热点追踪

来自Big Physics
Jinshanw讨论 | 贡献2019年12月28日 (六) 17:39的版本 →‎追热点指数的计算
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


问题背景

之前我们研究了发文的热点追踪现象[1][2](见热点追踪),也就是是否当前更大更热(需要在比较近的一段时间内算累计)的领域会吸引更多的新论文,也就是看新论文所在的领域的小大分布[math]\displaystyle{ \frac{m_{k}\left(t, t+\Delta t\right)}{\sum_{k} m_{k}\left(t, t+\Delta t\right)} }[/math]和当前的领域大小的分布函数[math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math]的比。具体计算上,可以直接拟合函数[math]\displaystyle{ \frac{\frac{m_{k}\left(t, t+\Delta t\right)}{\sum_{k} m_{k}\left(t, t+\Delta t\right)}}{\frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)}} }[/math](它是[math]\displaystyle{ k }[/math]的函数,一般是[math]\displaystyle{ k^{\alpha} }[/math]的形式);也可以分别用Newman的幂律分布函数拟合方法[3] [4] [5] 拟合[math]\displaystyle{ \frac{m_{k}\left(t, t+\Delta t\right)}{\sum_{k} m_{k}\left(t, t+\Delta t\right)} }[/math][math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math]。研究发现整体上确实科学界存在追热点现象,但是不同的国家,尤其是中国科学家比其他几个主要国家都要追的更严重,的程度不一样。更多细节见热点追踪以及[1][2]

在这里,我们来问科学家在决定引用什么文献的时候,是否也存在热点追踪现象,也就是:

  1. 所有论文在选择全世界的论文来当参考文献的时候,是不是更偏向目前被引次数高的文献?
  2. 一个国家的论文在选择全世界的论文来当参考文献的时候,是不是更偏向目前被引次数高的文献?
  3. 一个国家的论文在选择某个国家的论文来当参考文献的时候,是不是更偏向目前被引次数高的文献?
  4. 一个国家的论文在被全世界的论文引用的时候,是不是主要被被引次数高的论文所引用?
  5. 一个国家的论文在被某个国家的论文引用的时候,是不是主要被被引次数高的论文所引用?
  6. 高被引论文在发表的当时,是不是,主要在热点领域,还是说一开始不在,后来在,还是说后来也不是太相关?
  7. 还可以进一步把科学家分类(发文数量多的和少的,被引次数多的和少的,学术生涯早期的和晚期的),来进行上面的研究。

为什么要问这些问题呢?当然,首先这些问题本身挺有意思。但是,更大的背景是思考引用过程中的灌水现象——某些论文被引用不是因为这篇论文“值得”被引用这么多次,而是大家看到这篇论文被引用的多,所以也就引用了。这种灌水现象,或者说羊群效应,从众效应,在实际的引用过程中占了多大比例是一个很重要的问题:如果科学学研究的基础引用关系都是灌水的,那么,后续很多工作都需要来想办法挤出水分了。这个问题和引用骨架相关。可是,在没有一个好的指标的情况下,我们怎么来判断这样的灌水量呢?

实在不行,就只好先做一个领域之间、国家之间、时间段之间的比较,来看看有没有区别了。

数据和研究方法

这个研究需要的数据是,每一篇论文的发表时间和参考文献列表[math]\displaystyle{ i{\overset{t}{\rightarrow}} j }[/math](表示论文j引用论文i)。当然,有了作者(作者识别、作者学术年龄识别、作者国家单位等)信息就可以研究更多的问题。如果需要研究领域,则还需要每一篇文章的领域标记。国家[math]\displaystyle{ c\left(j\right) }[/math], 领域[math]\displaystyle{ f\left(j\right) }[/math],作者[math]\displaystyle{ a\left(j\right) }[/math],作者的年龄[math]\displaystyle{ y\left(a\right) }[/math]等。有了这些基本数据,就可以得到从某个时刻[math]\displaystyle{ t_{0} }[/math]开始的当前时刻每一篇论文的被引次数[math]\displaystyle{ k_{i} }[/math],于是也就知道了每一次引用到底落在了当前被引次数为多少的文章身上。记前者的统计数据为[math]\displaystyle{ n_{k}\left(t_{0}, t\right) }[/math],后者的统计数据为[math]\displaystyle{ c_{k}\left(t, t+\Delta t\right) }[/math]

对于第一个问题,所有论文在选择所有引文的时候是否存在偏向高被引论文,只需要计算[math]\displaystyle{ \frac{\frac{c_{k}\left(t, t+\Delta t\right)}{\sum_{k} c_{k}\left(t, t+\Delta t\right)}}{\frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)}} }[/math],当然,跟前面提到的一样,还可以分开计算[math]\displaystyle{ \frac{c_{k}\left(t, t+\Delta t\right)}{\sum_{k} c_{k}\left(t, t+\Delta t\right)} }[/math][math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math],然后比较指数。

对于第二个问题,某个国家的论文在选择所有引文的时候是否存在高被引论文,只需要在统计[math]\displaystyle{ c_{k}\left(t, t+\Delta t\right) }[/math]的时候,把各个国家分开,也就是[math]\displaystyle{ c^{o}_{k}\left(t, t+\Delta t\right) }[/math],然后计算[math]\displaystyle{ \frac{c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k}c^{o}_{k}\left(t, t+\Delta t\right)} }[/math],并且和[math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math]比较。实际上,[math]\displaystyle{ c^{o}_{k}\left(t, t+\Delta t\right) }[/math]还可以国家当做分布函数的变量的角度来看,也就是看分布函数,[math]\displaystyle{ \frac{c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{r} c^{r}_{k}\left(t, t+\Delta t\right)} }[/math],或者[math]\displaystyle{ \frac{\sum_{k}c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k,r} c^{r}_{k}\left(t, t+\Delta t\right)} }[/math]。前者固定某个k,后者对所有的k求和。前者表示在这个新引用目前已经被引k次的引用事件集合里面,来自于国家o的引用的比例。后者表示,在所有国家的所有的引用事件中,来自于o国家的引用的比例。这个时候,如果我们想了解国家o对k的偏好,就正好可以计算并比较不同国家的[math]\displaystyle{ \frac{\frac{c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{r} c^{r}_{k}\left(t, t+\Delta t\right)}}{\frac{\sum_{k}c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k,r} c^{r}_{k}\left(t, t+\Delta t\right)}} }[/math]。这样的计算的好处是,我们只需要数据[math]\displaystyle{ c^{o}_{k}\left(t, t+\Delta t\right) }[/math],而不再需要数据[math]\displaystyle{ n_{k}\left(t_{0}, t\right) }[/math]。对于后面几个问题的回答也一样,可以考虑类似的办法。


对于第三个问题,某个国家的论文在选择某个国家的论文来引用的时候是否存在高被引论文,需要在统计[math]\displaystyle{ c_{k}\left(t, t+\Delta t\right) }[/math][math]\displaystyle{ n_{k}\left(t_{0}, t\right) }[/math]的时候,把各个国家分开,也就是[math]\displaystyle{ c^{o}_{k}\left(t, t+\Delta t\right) }[/math][math]\displaystyle{ n^{d}_{k}\left(t_{0}, t\right) }[/math],然后计算[math]\displaystyle{ \frac{c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k}c^{o}_{k}\left(t, t+\Delta t\right)} }[/math],并且和[math]\displaystyle{ \frac{n^{d}_{k}\left(t_{0}, t\right)}{\sum_{k} n^{d}_{k}\left(t_{0}, t\right)} }[/math]比较。


对于第四个问题,某个国家[math]\displaystyle{ d }[/math]的论文被所有论文引用,施引论文是不是主要是高被引论文,需要统计某个时间范围内的[math]\displaystyle{ d }[/math]国家论文的所有施引论文[math]\displaystyle{ c^{k}_{d}\left(t, t+\Delta t\right) }[/math]。其中[math]\displaystyle{ k }[/math]是施引论文的最终(或者某段时间之内,[math]\displaystyle{ \left(t+\Delta t, \infty \right) }[/math])的被引次数。然后计算分布函数,[math]\displaystyle{ \frac{c^{k}_{d}\left(t, t+\Delta t\right)}{\sum_{k}c^{k}_{d}\left(t, t+\Delta t\right)} }[/math],并且和这段时间内发表的所有论文的最终被引频次分布函数[math]\displaystyle{ \frac{n_{k}\left(t, t+\Delta t\right)}{\sum_{k} n_{k}\left(t, t+\Delta t\right)} }[/math]比较。


对于第五个问题,某个国家[math]\displaystyle{ d }[/math]的论文被某个国家[math]\displaystyle{ o }[/math]的论文引用,施引论文是不是主要是高被引论文,需要统计某个时间范围内的[math]\displaystyle{ d }[/math]国家论文的被[math]\displaystyle{ o }[/math]引用的论文[math]\displaystyle{ c^{o,k}_{d}\left(t, t+\Delta t\right) }[/math]。其中[math]\displaystyle{ k }[/math]是施引论文的最终(或者某段时间之内,[math]\displaystyle{ \left(t+\Delta t, \infty \right) }[/math])的被引次数。然后计算分布函数,[math]\displaystyle{ \frac{c^{o,k}_{d}\left(t, t+\Delta t\right)}{\sum_{k}c^{o, k}_{d}\left(t, t+\Delta t\right)} }[/math],并且和这段时间内发表的国家[math]\displaystyle{ o }[/math]的论文的被引频次分布函数[math]\displaystyle{ \frac{n^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k} n^{o}_{k}\left(t, t+\Delta t\right)} }[/math]比较。

对于第六个问题,只需要把每一篇论文的被引次数[math]\displaystyle{ k_{j} }[/math](可以在一段时期内,例如[math]\displaystyle{ \left(t, \infty\right) }[/math])和论文所在的领域在论文发表当时的大小[math]\displaystyle{ s\left(f_{j}\left(t\right)\right) }[/math]做一个相关性分析就可以。或者更复杂一点,把论文按照被引次数分类,在每一个类做追领域热点的分析,最后做类间对比。不过,这个工作实际上在领域追热点的工作[2]中就做过:顶级期刊和普通期刊文章追热点有区别,但是,不同被引次数的文章追热点没有发现定性区别。

追热点指数的计算

一种计算方法是把分子分母分开按照两个幂律分布函数(如果是幂律分布的话)分解计算指数然后两个指数相减得到追热点指数。或者把分子分母先除好,看做自变量[math]\displaystyle{ k }[/math]的幂函数,然后拟合出来这个幂指数。在第一种方法里面,幂律分布函数的幂指数可以通过最小二乘法来估计,或者极大似然估计(也就是Newman方法)来估计。在第二种方法里面,这个幂函数不再是一个衰减的幂率分布函数,只能用最小二乘法来估计。原则上,我们需要两种估计方法都用一下,比较一下,然后算出来比较可靠的这个指数。

目前,在利用Monte Carlo生成的数据上,我们比较了最小二乘法(对累积分布函数做拟合,采用log-bin或者rank-frequency)和Newman拟合,这两种拟合。得到了具有可比性的结果。在实际数据上,稍微复杂一点。

另外,Newman的方法也可以直接用来做分段幂律分布函数的拟合:其xmin的选择过程会自动把前一段幂律分布忽略掉,而更加关注后一段幂律,当后一段幂律的数据不远远少于前一段(尝试了10000:1000,仍然忽略前一段,尝试的程序在下面)的情况下。于是,如果用Newman方法来做分段幂律拟合,只需要在全数据上做一个拟合,然后如果有一大段被抛弃的前面的数据,则对前面的数据单独再做一次拟合,就行。


from randht import *
from plfit import *
from plplot import *
import bisect
x = randht(10000,'xmin',5,'powerlaw',3.0);
y = randht(10000,'xmin',50,'powerlaw',2.0);
CutPoint=1000;
x.sort();
index=bisect.bisect(x,CutPoint);
index;
xnew=x[0:index];
y.sort();
index=bisect.bisect(y,CutPoint);
index;
ynew=y[index:];
xT=xnew+ynew;
[alphaX,xminX,LX]=plfit(xnew);
[alphaY,xminY,LY]=plfit(ynew);
[alphaT,xminT,LT]=plfit(xT);
xminX;
xminY;
xminT;
plplot(xnew,xminX,alphaX);
plplot(ynew,xminY,alphaY);
plplot(xT,xminT,alphaT);

综合直接和间接影响的计算

把一个国家o对另一个国家d的引用,按照施引文章和文章本身的被引次数(分别记作l和k)来分类,构建一个投入产出矩阵[math]\displaystyle{ x^{o,l}_{d,k} }[/math]:也就是o国家中自身被引次数为l的文章(统计的所有引用,而不仅仅是这篇施引文章发表的时候,发表的时候没有引用),引用d国家被引用的时候或者所有的历史合起来的被引次数为k的文章的次数。接着对这个矩阵做各种统计以及广义投入产出分析,就可以知道[math]\displaystyle{ x^{o,l}_{d,k} }[/math]对学术圈的综合贡献。

下一步工作

  1. 整理物理APS数据、数学经济学数据、更多其他领域的数据
  2. 实现以上计算,统计分析和投入产出分析
  3. 解释计算结果

参考文献

  1. 1.0 1.1 Tian Wei, Menghui Li, Chensheng Wu, Xiao-Yong Yan, Ying Fan, Zengru Di & Jinshan Wu, Do scientists trace hot topics?, Scientific Reports 3, Article number: 2207 (2013), doi:10.1038/srep02207.
  2. 2.0 2.1 2.2 Menghui Li, Liying Yang, Huina Zhang, Zhesi Shen, Chensheng Wu, Jinshan W, Do Mathematicians, Economists and Biomedical Scientists Trace Large Topics More Strongly Than Physicists?,Journal of Informetrics,10.1016/j.joi.2017.04.004.
  3. Hanel R, Corominas-Murtra B, Liu B, Thurner S (2018) Correction: Fitting power-laws in empirical data with estimators that work for all exponents. PLOS ONE 13(4): e0196807. https://doi.org/10.1371/journal.pone.0196807
  4. A. Clauset, C.R. Shalizi, and M.E.J. Newman, "Power-law distributions in empirical data" SIAM Review 51(4), 661-703 (2009).
  5. Y. Virkar and A. Clauset, Power-law distributions in binned empirical data. Annals of Applied Statistics 8(1), 89 - 119 (2014).

本分类目前不含有任何页面或媒体文件。