分类:引文热点追踪

来自Big Physics


问题背景

之前我们研究了发文的热点追踪现象[1][2](见热点追踪),也就是是否当前更大更热(需要在比较近的一段时间内算累计)的领域会吸引更多的新论文,也就是看新论文所在的领域的小大分布[math]\displaystyle{ \frac{m_{k}\left(t, t+\Delta t\right)}{\sum_{k} m_{k}\left(t, t+\Delta t\right)} }[/math]和当前的领域大小的分布函数[math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math]的比。具体计算上,可以直接拟合函数[math]\displaystyle{ \frac{\frac{m_{k}\left(t, t+\Delta t\right)}{\sum_{k} m_{k}\left(t, t+\Delta t\right)}}{\frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)}} }[/math](它是[math]\displaystyle{ k }[/math]的函数,一般是[math]\displaystyle{ k^{\alpha} }[/math]的形式);也可以分别用Newman的幂律分布函数拟合方法[3] [4] [5] 拟合[math]\displaystyle{ \frac{m_{k}\left(t, t+\Delta t\right)}{\sum_{k} m_{k}\left(t, t+\Delta t\right)} }[/math][math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math]。研究发现整体上确实科学界存在追热点现象,但是不同的国家,尤其是中国科学家比其他几个主要国家都要追的更严重,的程度不一样。更多细节见[[:分类:热点追踪|热点追踪]以及[1][2]

在这里,我们来问科学家在决定引用什么文献的时候,是否也存在热点追踪现象,也就是:

  1. 所有论文在选择全世界的论文来当参考文献的时候,是不是更偏向目前被引次数高的文献?
  2. 一个国家的论文在选择全世界的论文来当参考文献的时候,是不是更偏向目前被引次数高的文献?
  3. 一个国家的论文在选择某个国家的论文来当参考文献的时候,是不是更偏向目前被引次数高的文献?
  4. 一个国家的论文在被全世界的论文引用的时候,是不是主要被被引次数高的论文所引用?
  5. 一个国家的论文在被某个国家的论文引用的时候,是不是主要被被引次数高的论文所引用?
  6. 高被引论文在发表的当时,是不是,主要在热点领域,还是说一开始不在,后来在,还是说后来也不是太相关?
  7. 还可以进一步把科学家分类(发文数量多的和少的,被引次数多的和少的,学术生涯早期的和晚期的),来进行上面的研究。

数据和研究方法

这个研究需要的数据是,每一篇论文的发表时间和参考文献列表[math]\displaystyle{ i{\overset{t}{\rightarrow}} j }[/math](表示论文j引用论文i)。当然,有了作者(作者识别、作者学术年龄识别、作者国家单位等)信息就可以研究更多的问题。如果需要研究领域,则还需要每一篇文章的领域标记。国家[math]\displaystyle{ c\left(j\right) }[/math], 领域[math]\displaystyle{ f\left(j\right) }[/math],作者[math]\displaystyle{ a\left(j\right) }[/math],作者的年龄[math]\displaystyle{ y\left(a\right) }[/math]等。有了这些基本数据,就可以得到从某个时刻[math]\displaystyle{ t_{0} }[/math]开始的当前时刻每一篇论文的被引次数[math]\displaystyle{ k_{i} }[/math],于是也就知道了每一次引用到底落在了当前被引次数为多少的文章身上。记前者的统计数据为[math]\displaystyle{ n_{k}\left(t_{0}, t\right) }[/math],后者的统计数据为[math]\displaystyle{ c_{k}\left(t, t+\Delta t\right) }[/math]

对于第一个问题,所有论文在选择所有引文的时候是否存在偏向高被引论文,只需要计算[math]\displaystyle{ \frac{\frac{c_{k}\left(t, t+\Delta t\right)}{\sum_{k} c_{k}\left(t, t+\Delta t\right)}}{\frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)}} }[/math],当然,跟前面提到的一样,还可以分开计算[math]\displaystyle{ \frac{c_{k}\left(t, t+\Delta t\right)}{\sum_{k} c_{k}\left(t, t+\Delta t\right)} }[/math][math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math],然后比较指数。

对于第二个问题,某个国家的论文在选择所有引文的时候是否存在高被引论文,只需要在统计[math]\displaystyle{ c_{k}\left(t, t+\Delta t\right) }[/math]的时候,把各个国家分开,也就是[math]\displaystyle{ c^{o}_{k}\left(t, t+\Delta t\right) }[/math],然后计算[math]\displaystyle{ \frac{c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k}c^{o}_{k}\left(t, t+\Delta t\right)} }[/math],并且和[math]\displaystyle{ \frac{n_{k}\left(t_{0}, t\right)}{\sum_{k} n_{k}\left(t_{0}, t\right)} }[/math]比较。


对于第三个问题,某个国家的论文在选择某个国家的论文来引用的时候是否存在高被引论文,需要在统计[math]\displaystyle{ c_{k}\left(t, t+\Delta t\right) }[/math][math]\displaystyle{ n_{k}\left(t_{0}, t\right) }[/math]的时候,把各个国家分开,也就是[math]\displaystyle{ c^{o}_{k}\left(t, t+\Delta t\right) }[/math][math]\displaystyle{ n^{d}_{k}\left(t_{0}, t\right) }[/math],然后计算[math]\displaystyle{ \frac{c^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k}c^{o}_{k}\left(t, t+\Delta t\right)} }[/math],并且和[math]\displaystyle{ \frac{n^{d}_{k}\left(t_{0}, t\right)}{\sum_{k} n^{d}_{k}\left(t_{0}, t\right)} }[/math]比较。


对于第四个问题,某个国家[math]\displaystyle{ d }[/math]的论文被所有论文引用,施引论文是不是主要是高被引论文,需要统计某个时间范围内的[math]\displaystyle{ d }[/math]国家论文的所有施引论文[math]\displaystyle{ c_{k}_{d}\left(t, t+\Delta t\right) }[/math]。其中[math]\displaystyle{ k }[/math]是施引论文的最终(或者某段时间之内,[math]\displaystyle{ \left(t+\Delta t, \infty \right) }[/math])的被引次数。然后计算分布函数,[math]\displaystyle{ \frac{c^{k}_{d}\left(t, t+\Delta t\right)}{\sum_{k}c^{k}_{d}\left(t, t+\Delta t\right)} }[/math],并且和这段时间内发表的所有论文的被引频次分布函数[math]\displaystyle{ \frac{n_{k}\left(t, t+\Delta t\right)}{\sum_{k} n_{k}\left(t, t+\Delta t\right)} }[/math]比较。


对于第五个问题,某个国家[math]\displaystyle{ d }[/math]的论文被某个国家[math]\displaystyle{ o }[/math]的论文引用,施引论文是不是主要是高被引论文,需要统计某个时间范围内的[math]\displaystyle{ d }[/math]国家论文的被[math]\displaystyle{ o }[/math]引用的论文[math]\displaystyle{ c^{o,k}_{d}\left(t, t+\Delta t\right) }[/math]。其中[math]\displaystyle{ k }[/math]是施引论文的最终(或者某段时间之内,[math]\displaystyle{ \left(t+\Delta t, \infty \right) }[/math])的被引次数。然后计算分布函数,[math]\displaystyle{ \frac{c^{o,k}_{d}\left(t, t+\Delta t\right)}{\sum_{k}c^{o,k}_{d}\left(t, t+\Delta t\right)} }[/math],并且和这段时间内发表的国家[math]\displaystyle{ o }[/math]的论文的被引频次分布函数[math]\displaystyle{ \frac{n^{o}_{k}\left(t, t+\Delta t\right)}{\sum_{k} n^{o}_{k}\left(t, t+\Delta t\right)} }[/math]比较。

一个国家选择另外一个国的论文的参考文献列表,R^oi_dj。

前者得到目前的论文的被引次数的分布函数,n(k)/N。后者结合前者,得到m^o_k,国家引用目前被引次数为k的次数。以及所有国家合起来算(把o取和)的次数m_k。对所有的k取和就得到总的新增加被引次数。

现在,计算m_k/m,再除以n(k)/N,就是全世界论文引用其他论文的时候,是否追热点。

接着,各个国家来算,m^o_k/m^o,再除以n(k)/N。

接着回答第二个问题

本质上只要把目前的所有论文分成每一个国家的集合,在每一个集合上做上面的讨论就可以。

这就可以看出来,例如中国科学家,对于美国科学家的论文的引用是否主要偏向被引次数多的文章

另外,实际上,对于m^o_k,还可以按照o来看分布函数,也就是m^o_k/m_k,也就是看对于被引次数为k的论文来说,施引论文主要来自于哪个国家。


m^o_d(k)在第二个问题中,基础数据实际上是它,表示o国家引用d国家的文章中目前被引次数已经是k的文章的次数。

这个东西甚至可以进一步拓展,变成m^oc_dk,也就是o国家中自身被引次数为c的文章(统计的所有引用,而不仅仅是这篇施引文章发表的时候,发表的时候没有引用),引用d国家目前被引次数为k的文章的次数。接着对这个矩阵做各种统计。例如,固定dko讨论c的分布函数,例如固定dkc讨论o的分布函数,固定ocd讨论k,固定ock讨论d。


直接和间接计算,m^oc_dk实际上是一个投入产出矩阵,可以分析直接和间接效果。这样还可以知道m^oc_dk的综合贡献量。

高被引文章是否发表在热点领域,文章的被引次数和发表当时领域的大小的关联函数。

热点追踪问题研究科学家在选择研究问题发表论文的时候,是否存在追踪热点的问题。如果有,不同的背景因素(例如国家、作者数量、文章参考文献的数量、编辑延迟时间等),是否表现不一样[1][2]。科学研究工作大多数时候是在前人的基础上完成的,但是也需要有创新。因此,出现热点追踪的现象是很可能的。例如,重要的问题可能本来就有比较多的已有研究工作。当然,也有可能有的研究者就是冲着已有的工作多文章容易发,稍微改改参数的工作也比较多比较容易找到,而选择在大领域工作的。我们就要看,这样的现象是不是普遍的,如果是,追热点的严重程度是否在不同的国家等背景下是否会有差异。

更进一步,我们还想看看是不是不同的国家,有的是引领这个大领域,有的是跟踪这个大领域,有的是把小领域变成大领域,也就是做各个国家领域贡献大小的时间序列的分析。

类似地,我们还可以看看引用参考文献的时候是否存在热点追踪现象——也就是是否目前被引用的更多的文章得到新引用的概率更高。

这个引文分为被引的热点追踪和施引的热点追踪。施引的热点追踪就是考虑中国的学者引用所有文章(以及分开来看的中国和其他国家的文章)的时候,是不是比较集中在少数被引次数比较高的论文上(这是分布函数的研究),以及是不是已经高被引的文章得到新的引用的几率比较高。被引的热点追踪,是指对于中国的所有文章来说,被中国或者其他国家引用的时候,追热点程度有没有区别。当然,为了做比较,中间这个“中国”需要替换成任意一个主要国家,都算一遍。

具体计算上和文章发表追热点领域的计算是一样的。还可以做这个引文热点追踪现象的文章的其他特征的对比(例如文章的年龄、作者的h指数等)。另外,在时间序列分析上,还可以讨论,是否存在主题被引用和引用次数时间序列和国家领域贡献量的相关性(超前、滞后、等时)。

为了做这个工作还需要做一个铺垫:APS文章被APS之内引用和WoS全库引用的相关性。

如果这个分析能做,没准,我们还可以提出来一个单个科学家的追热点指标。从一篇文章的参考文献列表,来看这篇文献的引用追热点程度,于是,把这把作者的所有文章合起来得到作者的指标,或者按照作者的学术年龄来分阶段讨论。如果能够得到作者层面的追热点程度就有意思了。看发文章数量的最热点的话,样本太少,不可靠。就只能靠看引文了。可能还需要结合那个多大才够大的工作,也就是一致性,来讨论:只有文献数量大于多少的,这个个体科学家的追热点程度的度量才能有意义。

和这个工作相联系的,我们还可以讨论基金、收入、论文数量、被引次数等分布不均匀性的研究,也就是大鱼吃小鱼现象,以及不公平性对科学技术进步的影响。

整个工作合起来,并且结合国家-学科的投入产出分析以及基金机构影响力度量(尤其是中间中国发表的论文的论文数量或者被引次数占被引次数或者其他指标top百分之几的文章的比例,中国施引的论文的论文数量或者被引次数占全球top百分之几的比例。中国发表的论文表示中国的科研产出。中国施引表示中国科学的思想源头和眼界),我们还有一个隐含的主题:中国科学研究现状和国际地位怎样。我们已经发现,中国科学家的在文章数量上的追热点非常高,而中国在小领域的相对贡献率非常小(也就是中国在小领域里面没有做出来相配的贡献量)。如果我们进一步检验中国科研经费的分配情况、发表论文的施引和被引情况,我们就可能可以更深入地了解中国科学研究的现状和可能的原因。

参考文献

  1. 1.0 1.1 1.2 Tian Wei, Menghui Li, Chensheng Wu, Xiao-Yong Yan, Ying Fan, Zengru Di & Jinshan Wu, Do scientists trace hot topics?, Scientific Reports 3, Article number: 2207 (2013), doi:10.1038/srep02207.
  2. 2.0 2.1 2.2 Menghui Li, Liying Yang, Huina Zhang, Zhesi Shen, Chensheng Wu, Jinshan W, Do Mathematicians, Economists and Biomedical Scientists Trace Large Topics More Strongly Than Physicists?,Journal of Informetrics,10.1016/j.joi.2017.04.004.
  3. Hanel R, Corominas-Murtra B, Liu B, Thurner S (2018) Correction: Fitting power-laws in empirical data with estimators that work for all exponents. PLOS ONE 13(4): e0196807. https://doi.org/10.1371/journal.pone.0196807
  4. A. Clauset, C.R. Shalizi, and M.E.J. Newman, "Power-law distributions in empirical data" SIAM Review 51(4), 661-703 (2009).
  5. Y. Virkar and A. Clauset, Power-law distributions in binned empirical data. Annals of Applied Statistics 8(1), 89 - 119 (2014).

本分类目前不含有任何页面或媒体文件。