分类:再生数建模的其他应用

来自Big Physics


背景和动机

从传染病传播建模发展起来的再生数建模,实际上可以用在传染病研究之外的很多地方,只要是具有某种东西在“传播”的因素。当然,这也不是什么特别新的idea。例如,实际上,人口平均出生率就是一个人口上的再生数。在这里,我们把这个再生数建模的概念用到更多的现象上去。

再生数分析框架的核心公式就是,

  1. 一个地方的感染者数量的增加是由于在这个地方的感染者再一次去感染其他人,也就是[math]\displaystyle{ I\left(t\right)=\sum_{\tau=0}^{\infty}I\left(t-\tau\right)R\left(t\right)w\left(\tau\right) }[/math]
  2. 等价地,[math]\displaystyle{ R\left(t\right)=\frac{I\left(t\right)}{\sum_{\tau=0}^{\infty}I\left(t-\tau\right)w\left(\tau\right)} }[/math]

其中[math]\displaystyle{ I\left(t\right) }[/math]就是[math]\displaystyle{ t }[/math]时刻增加的病人数量,[math]\displaystyle{ R\left(t\right) }[/math][math]\displaystyle{ t }[/math]时刻的再生数,[math]\displaystyle{ w\left(\tau\right) }[/math]是一个被感染者在被感染之后[math]\displaystyle{ \tau }[/math]时间以后感染其他人的相对概率。

如果我们进一步区分输入性病人,一代病人(被输入性病人感染的本地人),和二代以及以上病人(被一代以及以上本地病人感染的本地人),则

  1. 特定城市输入病人(称为零代病人)的一代感染者数量[math]\displaystyle{ I^{1}\left(t\right)=\sum_{\tau=0}^{\infty}I^{0}\left(t-\tau\right)R_{0}^{1}\left(t\right)\omega\left(\tau\right) }[/math]
  2. 本地城市二代以及二代以上以上感染者数量[math]\displaystyle{ I^{2+}\left(t\right)=\sum_{\tau=0}^{\infty}\left(I^{1}\left(t-\tau\right)+I^{2+}\left(t-\tau\right)\right)R_{1+}^{2+}\left(t\right)w\left(\tau\right) }[/math]

相应的再生数为,

  1. [math]\displaystyle{ R_{0}^{1}\left(t\right)=\frac{I^{1}\left(t\right)}{\sum_{\tau=0}^{\infty}I^{0}\left(t-\tau\right)\omega\left(\tau\right)} }[/math]
  2. [math]\displaystyle{ R_{1+}^{2+}\left(t\right)=\frac{I^{2+}\left(t\right)}{\sum_{\tau=0}^{\infty}\left[I^{1}\left(t-\tau\right)+I^{2+}\left(t-\tau\right)\right]w\left(\tau\right)} }[/math]

只要把这里的被感染者数量[math]\displaystyle{ I\left(t\right) }[/math]改成任何具有传染性(传播性)的东西的数量,就可以把这一套分析方法用于相应的现象的研究。

用于论文的传播(被引和被阅读)

在这里,我们考虑一篇论文被引用的事件(实际上[math]\displaystyle{ w\left(\tau\right)} }[/math]的计算可能得需要一个论文集合,例如一个领域一个期刊之类的。当然,在单篇论文上也可以用)。我们把这篇论文的被引用看做是这篇论文直接被引用(我们称这样的引用为零代,其实一代更合适如果我们把论文自己叫做零代的话),以及,这篇论文通过一篇施引这篇论文的论文来被引用(也就是一代以及一代以上的引用,如果愿意可以把这个代继续分下去)。为什么这样区分呢,我们希望看到多大程度上这篇论文的被引用是由这篇论文本身驱动的,还是由于领域热度来驱动的。那数据上有如何区分这两种引用呢?很难。一种可以尝试的办法就是:如果这篇论文和某一篇施引这篇论文的论文一起被引用则看做一代或者一代以上,否则看做零代引用。

或者,进一步,把学科领域考虑进来,当做传染病传播中的区域,还可以进一步分出来领域内的输入性引用(这篇不再这个领域内的论文第一次被这个领域的论文引用)和更高代的引用。

无论如何,假设我们得到了[math]\displaystyle{ I^{0}\left(t\right), I^{1}\left(t\right), I^{2}\left(t\right), \cdots }[/math]等等,再统计出来[math]\displaystyle{ w\left(\tau\right) }[/math],我们就可以从被引次数时间序列得到再生数之间序列。

那么,得到了再生数时间序列又怎样呢?

首先,我们可以看出来,这篇文章的被引的代际分布。不过,这个其实只要分代就能看出来了,不用算再生数。其次,我们还可以区分这篇文章的影响力是长期发挥的还是短期发挥的[1],也就是是不是其被引次数在很多年期间都有增长(再生数长时间保持一定大小),并且原则上可以出现一段时间内再生数不小但是总被引次数不大的情况。再次,我们可以得到这篇文章在哪个阶段其影响力扩散最厉害。当然,这个其实只需要看一下逐年被引次数分布函数也就大概能够看出来了。不过,再生数的计算更加深入一步,实际上是把每篇论文的“生育能力”,也就是“带来新引用的能力”,拿出来看看。这个东西一方面是这篇论文本身的属性(就好像是传染病本身的传染能力),另一方面是领域热度或者领域平均引用次数等其他因素造成的。如果我们还能够把两种动力分开的话,就很有意思了。因此,再次,这个计算的一个更好的好处是,可能可以区分开来文章本身的影响力扩散能力和领域加持下的扩散能力。最后,如果多篇文章,其再生数时间序列的行为有共性可以分类,甚至这种共性和分类可以用于预测,那就更加厉害了。不过,只要有和找到这样的共性,就是非常有意思的研究了。

如果这些共性还可以在不同现象上做一个比较,例如传染病、网上消息、时尚等等,就更加有意思了。

从论文评价的角度来看,通过论文被引用再生数来挖掘论文本身属性和领域加持属性,也算是论文评价的一部分。

另外,从关系类比来说,被引次数和再生数的关系正好就是位移和速度的关系,或者速度和加速度的关系。那在物理学,为什么需要从位移走到速度,从速度走到加速度呢?是因为到了正速度就可以和外生变量——力——联系起来了。那么,是不是再生数(还是说再生数的再生数)就可以对应到外生变量呢?

此外,发表-被引序列间隔[math]\displaystyle{ w\left(\tau\right)} }[/math],也是一个很有意思的量。可以看一下,多大程度上这个间隔的分布函数是普适的,是否依赖于领域、期刊、国家,这些结果是否可以我们更好地认知知识传播过程以及把握领域发展。在这里,可能需要采用年或者月为单位的数据。

用于网上消息(谣言、评论、声誉)的传播

用于概念或者技术发明的传播

用于时尚的传播

用于领域或者行业从业者人数的分析

用于产品销售量的分析

参考文献

  1. Loet Leydesdorff, imageLutz Bornmann, imageJordan A. Comins and imageStaša Milojević. Citations: Indicators of Quality? The Impact Fallacy. Front. Res. Metr. Anal., 1, 1 (2016). https://doi.org/10.3389/frma.2016.00001 .

本分类目前不含有任何页面或媒体文件。