分类:科学家的半衰期

来自Big Physics


研究背景和问题

科学家有生命(生死)、学术生命(发文章和不发了,可以定义10年没见新文章就是不发了之类的)、学术影响力生命(论文从被引用到不再被引用)。那么,能不能计算一下这些生命周期的半衰期:生死的角度来说,也就是真的生命的一半是多少;对于学术生命,就是一半数量的文章是什么学术年龄的时候发的;对于学术影响力生命,就是一半数量的引用是在什么学术年龄的时候得到的。

前人研究过文章被引半衰期、期刊被引半衰期[1]、知识的半衰期[2][3][4] 。现在看看科学家的半衰期[5]

除了生命期、学术生命期、论文数量半衰期、引用半衰期的分布函数[math]\displaystyle{ p_{y} }[/math],我们还可以研究这些年份的淘汰率。比如,对生命期来说,就是计算某一年龄结束生命的人,占所有生命大于等于这个年龄的人的数量[math]\displaystyle{ r_{y}=\frac{p_{y}}{\sum_{z\geq y}p_{z}} }[/math]。这相当于寿险行业中的分年龄死亡率。

同样,半衰期也可以做这样的计算。相当于算的是学术活动半活跃淘汰率,也就是对于这个学术年龄[math]\displaystyle{ y }[/math]的研究者来说,大约有[math]\displaystyle{ r_{y} }[/math]的概率进入学术活动后半期。

有了这个淘汰率(死亡率),就可以计算一个处于第[math]\displaystyle{ y }[/math]年的科学家,平均来看,还有[math]\displaystyle{ E_{y} }[/math]年才会从科学界退出、或者半退出(论文数量的角度、被引次数的角度),[math]\displaystyle{ E_{y}=\sum_{x=y+1}^{N}\left(x-y\right)\left[\Pi_{z=y}^{x-1}\left(1-r_{z}\right)\right]r_{x} }[/math]。其中[math]\displaystyle{ \left[\Pi_{z=y}^{x-1}\left(1-r_{z}\right)\right]r_{x} }[/math]表示从y年开始,这个科学家都没有退出,但是,到了第x年,退出了,的概率。

上面这几个量(死亡率,预期生命剩余),需要采用下面的人口动力学模型重新定义一下。

数据基础格式

活着的人口数量时间序列,记最长寿命为$N$。假设每个年龄的死亡率不依赖于出生时间。也可以进一步假设每年出生的人数不依赖于出生的时间。

年龄0 年龄1 年龄2 年龄3 年龄4 ...年龄N-1 年龄N
统计当年-0出生 [math]\displaystyle{ x_{0} }[/math] 0 0 0 0 0 0
统计当年-1出生 0 [math]\displaystyle{ x_{-1}\left(1-d_{0}\right) }[/math] 0 0 0 0 0
统计当年-2出生 0 0 [math]\displaystyle{ x_{-2}\left(1-d_{0}\right)\left(1-d_{1}\right) }[/math] 0 0 0 0
统计当年-3出生 0 0 0 [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right) }[/math] 0 0 0
统计当年-4出生 0 0 0 0 [math]\displaystyle{ x_{-4}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right)\left(1-d_{3}\right) }[/math] 0 0
...统计当年-(N-1)出生 0 0 0 0 0 ...[math]\displaystyle{ x_{-(N-1)}\Pi_{l=0}^{l=N-2}\left(1-d_{l}\right) }[/math] 0
...统计当年-N出生 0 0 0 0 0 0 ...[math]\displaystyle{ x_{-N}\Pi_{l=0}^{l=N-1}\left(1-d_{l}\right) }[/math]

可以算出来死亡人口数量:

年龄0 年龄1 年龄2 年龄3 年龄4 ...年龄N-1 年龄N
统计当年-0出生 [math]\displaystyle{ x_{0}d_{0} }[/math] 0 0 0 0 0 0
统计当年-1出生 [math]\displaystyle{ x_{-1}d_{0} }[/math] [math]\displaystyle{ x_{-1}\left(1-d_{0}\right)d_{1} }[/math] 0 0 0 0 0
统计当年-2出生 [math]\displaystyle{ x_{-2}d_{0} }[/math] [math]\displaystyle{ x_{-2}\left(1-d_{0}\right)d_{1} }[/math] [math]\displaystyle{ x_{-2}\left(1-d_{0}\right)\left(1-d_{1}\right)d_{2} }[/math] 0 0 0 0
统计当年-3出生 [math]\displaystyle{ x_{-3}d_{0} }[/math] [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)d_{1} }[/math] [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)\left(1-d_{1}\right)d_{2} }[/math] [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right)d_{3} }[/math] 0 0 0
统计当年-4出生 [math]\displaystyle{ x_{-4}d_{0} }[/math] ... ... ... [math]\displaystyle{ x_{-4}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right)\left(1-d_{3}\right)d_{4} }[/math] 0 0
...统计当年-(N-1)出生 [math]\displaystyle{ x_{-(N-1)}d_{0} }[/math] ... ... ... ... [math]\displaystyle{ x_{-(N-1)}\Pi_{l=0}^{l=N-2}\left(1-d_{l}\right)d_{N-1} }[/math] 0
...统计当年-N出生 [math]\displaystyle{ x_{-N}d_{0} }[/math] ... ... ... ... ... [math]\displaystyle{ x_{-N}\Pi_{l=0}^{l=N-1}\left(1-d_{l}\right)d_{N} }[/math]

如果数据是把好多年的联合起来统计,则要做相应的加和运算。如果仅仅考虑已经死掉的人,则也要做相应的人口时间序列。

人口动力学方程

或者更简单的符号来表示, 生存人口由年龄增长、死亡和出生决定, [math]\displaystyle{ \begin{bmatrix}x_{0}\left(t\right) \\ x_{1}\left(t\right) \\ x_{2}\left(t\right) \\ \cdots \\ x_{N}\left(t\right)\end{bmatrix} = \begin{bmatrix}0 &&&& \\ 1 & 0 &&& \\ 0 &1& 0 && \\ & & \cdots & & \\ & & 0 & 1 & 0\end{bmatrix}\begin{bmatrix}x_{0}\left(t-1\right) \\ x_{1}\left(t-1\right) \\ x_{2}\left(t-1\right) \\ \cdots \\ x_{N}\left(t-1\right)\end{bmatrix} - \begin{bmatrix}y_{0}\left(t\right) \\ y_{1}\left(t\right) \\ y_{2}\left(t\right) \\ \cdots \\ y_{N}\left(t\right)\end{bmatrix} + \begin{bmatrix}b_{t} \\ 0 \\ 0 \\ \cdots \\ 0\end{bmatrix}. }[/math] 其中死亡人口的动力学是, [math]\displaystyle{ \begin{bmatrix}y_{0}\left(t\right) \\ y_{1}\left(t\right) \\ y_{2}\left(t\right) \\ \cdots \\ y_{N}\left(t\right)\end{bmatrix} = \begin{bmatrix}d_{0} & 0&&& \\ 0 & d_{1} &0&& \\ 0 &0& d_{2} &0& \\ & & \cdots & & \\ & & 0 & 0 & d_{N}\end{bmatrix}\begin{bmatrix}x_{0}\left(t\right) \\ x_{1}\left(t\right) \\ x_{2}\left(t\right) \\ \cdots \\ x_{N}\left(t\right)\end{bmatrix}. }[/math] 出生人口的动力学是, [math]\displaystyle{ b\left(t\right)=\begin{bmatrix}b_{t} \\ 0 \\ 0 \\ \cdots \\ 0\end{bmatrix}. }[/math] 合起来就是, [math]\displaystyle{ x\left(t\right)=G\left[x\left(t-1\right)-y\left(t-1\right)\right]+b\left(t\right)=G\left(1-D\right)x\left(t-1\right)+b\left(t\right). }[/math]

从这个人口年龄动力学出发的参数估计可以参考Leslie模型以及相关的研究[6]

研究思路和下一步工作

  1. 收集科学家生命和学术生命数据(对一个论文集做姓名识别、学术年龄识别、性别识别、统计每个科学家的每年发表的论文数量和每年被引次数)
  2. 计算每一位科学家的半衰期(以及统计分布函数和平均值),和相应的学术年龄的一半作比较,和论文、期刊的半衰期作比较
  3. 对个体的半衰期做统计研究、相关性分析(例如,科学家的性别、总被引次数、总论文数量、领域等和半衰期的关系)

参考文献

  1. Philip M. Davis, Journal Usage Half-Life, Phil Davis Consulting https://publishers.org/sites/default/files/uploads/PSP/journalusagehalflife.pdf
  2. Poynard T, Munteanu M, Ratziu V, Benhamou Y, Martino VD, Taieb J, et al. (2002) Truth Survival in Clinical Research: An Evidence-Based Requiem?. Ann Intern Med., 136:888-895. http://doi.org/10.7326/0003-4819-136-12-200206180-00010
  3. Poynard, T., Thabut, D., Munteanu, M., Ratziu, V., Benhamou, Y., & Deckmyn, O. (2010). Hirsch Index and Truth Survival in Clinical Research. PLoS ONE, 5(8), e12044. http://doi.org/10.1371/journal.pone.0012044.
  4. Cristian Candia, C. Jara-Figueroa, Carlos Rodriguez-Sickert, Albert-László Barabási & César A. Hidalgo, The universal decay of collective memory and attention, Nature Human Behaviour (2018), https://doi.org/10.1038/s41562-018-0474-5
  5. Staša Milojević, Filippo Radicchi, and John P. Walsh Changing demographics of scientific careers: The rise of the temporary workforce, PNAS December 11, 2018 115 (50) 12616-12623; https://doi.org/10.1073/pnas.1800478115
  6. Sergei Aalto, G. E. (Buck) Newsome, Some Methods of Estimating the Parameters of the Leslie Matrix using Incomplete Population Data, Canadian Journal of Fisheries and Aquatic Sciences, 1980, 37:1140-1148, https://doi.org/10.1139/f80-146

本分类目前不含有任何页面或媒体文件。