分类:再生数建模的其他应用
背景和动机
从传染病传播建模发展起来的再生数建模,实际上可以用在传染病研究之外的很多地方,只要是具有某种东西在“传播”的因素。当然,这也不是什么特别新的idea。例如,实际上,人口平均出生率就是一个人口上的再生数。在这里,我们把这个再生数建模的概念用到更多的现象上去。
再生数分析框架的核心公式就是,
- 一个地方的感染者数量的增加是由于在这个地方的感染者再一次去感染其他人,也就是[math]\displaystyle{ I\left(t\right)=\sum_{\tau=0}^{\infty}I\left(t-\tau\right)R\left(t\right)w\left(\tau\right) }[/math]
- 等价地,[math]\displaystyle{ R\left(t\right)=\frac{I\left(t\right)}{\sum_{\tau=0}^{\infty}I\left(t-\tau\right)w\left(\tau\right)} }[/math]
其中[math]\displaystyle{ I\left(t\right) }[/math]就是[math]\displaystyle{ t }[/math]时刻增加的病人数量,[math]\displaystyle{ R\left(t\right) }[/math]是[math]\displaystyle{ t }[/math]时刻的再生数,[math]\displaystyle{ w\left(\tau\right) }[/math]是一个被感染者在被感染之后[math]\displaystyle{ \tau }[/math]时间以后感染其他人的相对概率。
如果我们进一步区分输入性病人,一代病人(被输入性病人感染的本地人),和二代以及以上病人(被一代以及以上本地病人感染的本地人),则
- 特定城市输入病人(称为零代病人)的一代感染者数量[math]\displaystyle{ I^{1}\left(t\right)=\sum_{\tau=0}^{\infty}I^{0}\left(t-\tau\right)R_{0}^{1}\left(t\right)\omega\left(\tau\right) }[/math]
- 本地城市二代以及二代以上以上感染者数量[math]\displaystyle{ I^{2+}\left(t\right)=\sum_{\tau=0}^{\infty}\left(I^{1}\left(t-\tau\right)+I^{2+}\left(t-\tau\right)\right)R_{1+}^{2+}\left(t\right)w\left(\tau\right) }[/math]
相应的再生数为,
- [math]\displaystyle{ R_{0}^{1}\left(t\right)=\frac{I^{1}\left(t\right)}{\sum_{\tau=0}^{\infty}I^{0}\left(t-\tau\right)\omega\left(\tau\right)} }[/math]
- [math]\displaystyle{ R_{1+}^{2+}\left(t\right)=\frac{I^{2+}\left(t\right)}{\sum_{\tau=0}^{\infty}\left[I^{1}\left(t-\tau\right)+I^{2+}\left(t-\tau\right)\right]w\left(\tau\right)} }[/math]
只要把这里的被感染者数量[math]\displaystyle{ I\left(t\right) }[/math]改成任何具有传染性(传播性)的东西的数量,就可以把这一套分析方法用于相应的现象的研究。
用于论文的传播(被引和被阅读)
在这里,我们考虑一篇论文被引用的事件。我们把这篇论文的被引用看做是这篇论文直接被引用(我们称这样的引用为零代,其实一代更合适如果我们把论文自己叫做零代的话),以及,这篇论文通过一篇施引这篇论文的论文来被引用(也就是一代以及一代以上的引用,如果愿意可以把这个代继续分下去)。为什么这样区分呢,我们希望看到多大程度上这篇论文的被引用是由这篇论文本身驱动的,还是由于领域热度来驱动的。那数据上有如何区分这两种引用呢?很难。一种可以尝试的办法就是:如果这篇论文和某一篇施引这篇论文的论文一起被引用则看做一代或者一代以上,否则看做零代引用。
或者,进一步,把学科领域考虑进来,当做传染病传播中的区域,还可以进一步分出来领域内的输入性引用(这篇不再这个领域内的论文第一次被这个领域的论文引用)和更高代的引用。
无论如何,假设我们得到了[math]\displaystyle{ I^{0}\left(t\right), I^{1}\left(t\right), I^{2}\left(t\right), \cdots }[/math]等等,再统计出来[math]\displaystyle{ w\left(\tau\right) }[/math],我们就可以从被引次数时间序列得到再生数之间序列。
那么,得到了再生数时间序列又怎样呢?
首先,我们可以看出来,这篇文章的被引的代际分布。不过,这个其实只要分代就能看出来了,不用算再生数。其次,我们可以得到这篇文章在哪个阶段其影响力扩散最厉害。当然,这个其实只需要看一下逐年被引次数分布函数也就大概能够看出来了。不过,再生数的计算更加深入一步,实际上是把每篇论文的“生育能力”,也就是“带来新引用的能力”,拿出来看看。这个东西一方面是这篇论文本身的属性(就好像是传染病本身的传染能力),另一方面是领域热度或者领域平均引用次数等其他因素造成的。如果我们还能够把两种动力分开的话,就很有意思了。因此,再次,这个计算的一个更好的好处是,可能可以区分开来文章本身的影响力扩散能力和领域加持下的扩散能力。最后,如果多篇文章,其再生数时间序列的行为有共性可以分类,甚至这种共性和分类可以用于预测,那就更加厉害了。不过,只要有和找到这样的共性,就是非常有意思的研究了。
如果这些共性还可以在不同现象上做一个比较,例如传染病、网上消息、时尚等等,就更加有意思了。
从论文评价的角度来看,通过论文被引用再生数来挖掘论文本身属性和领域加持属性,也算是论文评价的一部分。
用于网上消息(谣言、评论、声誉)的传播
用于概念或者技术发明的传播
用于时尚的传播
本分类目前不含有任何页面或媒体文件。