分类:科学家的半衰期
研究背景和问题
科学家有生命(生死)、学术生命(发文章和不发了,可以定义10年没见新文章就是不发了之类的)、学术影响力生命(论文从被引用到不再被引用)。那么,能不能计算一下这些生命周期的半衰期:生死的角度来说,也就是真的生命的一半是多少;对于学术生命,就是一半数量的文章是什么学术年龄的时候发的;对于学术影响力生命,就是一半数量的引用是在什么学术年龄的时候得到的。
前人研究过文章被引半衰期、期刊被引半衰期[1]、知识的半衰期[2][3]。现在看看科学家的半衰期[4]。
除了生命期、学术生命期、论文数量半衰期、引用半衰期的分布函数[math]\displaystyle{ p_{y} }[/math],我们还可以研究这些年份的淘汰率。比如,对生命期来说,就是计算某一年龄结束生命的人,占所有生命大于等于这个年龄的人的数量[math]\displaystyle{ r_{y}=\frac{p_{y}}{\sum_{z\geq y}p_{z}} }[/math]。这相当于寿险行业中的分年龄死亡率。
同样,半衰期也可以做这样的计算。相当于算的是学术活动半活跃淘汰率,也就是对于这个学术年龄[math]\displaystyle{ y }[/math]的研究者来说,大约有[math]\displaystyle{ r_{y} }[/math]的概率进入学术活动后半期。
有了这个淘汰率(死亡率),就可以计算一个处于第[math]\displaystyle{ y }[/math]年的科学家,平均来看,还有[math]\displaystyle{ E_{y} }[/math]年才会从科学界退出、或者半退出(论文数量的角度、被引次数的角度),[math]\displaystyle{ E_{y}=\sum_{x=y+1}^{N}\left(x-y\right)\left[\Pi_{z=y}^{x-1}\left(1-r_{z}\right)\right]r_{x} }[/math]。其中[math]\displaystyle{ \left[\Pi_{z=y}^{x-1}\left(1-r_{z}\right)\right]r_{x} }[/math]表示从y年开始,这个科学家都没有退出,但是,到了第x年,退出了,的概率。
上面这几个量(死亡率,预期生命剩余),需要采用下面的人口动力学模型重新定义一下。
数据基础格式
活着的人口数量时间序列,记最长寿命为$N$。假设每个年龄的死亡率不依赖于出生时间。也可以进一步假设每年出生的人数不依赖于出生的时间。
年龄0 | 年龄1 | 年龄2 | 年龄3 | 年龄4 | ...年龄N-1 | 年龄N | |
---|---|---|---|---|---|---|---|
统计当年-0出生 | [math]\displaystyle{ x_{0} }[/math] | 0 | 0 | 0 | 0 | 0 | 0 |
统计当年-1出生 | 0 | [math]\displaystyle{ x_{-1}\left(1-d_{0}\right) }[/math] | 0 | 0 | 0 | 0 | 0 |
统计当年-2出生 | 0 | 0 | [math]\displaystyle{ x_{-2}\left(1-d_{0}\right)\left(1-d_{1}\right) }[/math] | 0 | 0 | 0 | 0 |
统计当年-3出生 | 0 | 0 | 0 | [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right) }[/math] | 0 | 0 | 0 |
统计当年-4出生 | 0 | 0 | 0 | 0 | [math]\displaystyle{ x_{-4}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right)\left(1-d_{3}\right) }[/math] | 0 | 0 |
...统计当年-(N-1)出生 | 0 | 0 | 0 | 0 | 0 | ...[math]\displaystyle{ x_{-(N-1)}\Pi_{l=0}^{l=N-2}\left(1-d_{l}\right) }[/math] | 0 |
...统计当年-N出生 | 0 | 0 | 0 | 0 | 0 | 0 | ...[math]\displaystyle{ x_{-N}\Pi_{l=0}^{l=N-1}\left(1-d_{l}\right) }[/math] |
可以算出来死亡人口数量:
年龄0 | 年龄1 | 年龄2 | 年龄3 | 年龄4 | ...年龄N-1 | 年龄N | |
---|---|---|---|---|---|---|---|
统计当年-0出生 | [math]\displaystyle{ x_{0}d_{0} }[/math] | 0 | 0 | 0 | 0 | 0 | 0 |
统计当年-1出生 | [math]\displaystyle{ x_{-1}d_{0} }[/math] | [math]\displaystyle{ x_{-1}\left(1-d_{0}\right)d_{1} }[/math] | 0 | 0 | 0 | 0 | 0 |
统计当年-2出生 | [math]\displaystyle{ x_{-2}d_{0} }[/math] | [math]\displaystyle{ x_{-2}\left(1-d_{0}\right)d_{1} }[/math] | [math]\displaystyle{ x_{-2}\left(1-d_{0}\right)\left(1-d_{1}\right)d_{2} }[/math] | 0 | 0 | 0 | 0 |
统计当年-3出生 | [math]\displaystyle{ x_{-3}d_{0} }[/math] | [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)d_{1} }[/math] | [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)\left(1-d_{1}\right)d_{2} }[/math] | [math]\displaystyle{ x_{-3}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right)d_{3} }[/math] | 0 | 0 | 0 |
统计当年-4出生 | [math]\displaystyle{ x_{-4}d_{0} }[/math] | ... | ... | ... | [math]\displaystyle{ x_{-4}\left(1-d_{0}\right)\left(1-d_{1}\right)\left(1-d_{2}\right)\left(1-d_{3}\right)d_{4} }[/math] | 0 | 0 |
...统计当年-(N-1)出生 | [math]\displaystyle{ x_{-(N-1)}d_{0} }[/math] | ... | ... | ... | ... | [math]\displaystyle{ x_{-(N-1)}\Pi_{l=0}^{l=N-2}\left(1-d_{l}\right)d_{N-1} }[/math] | 0 |
...统计当年-N出生 | [math]\displaystyle{ x_{-N}d_{0} }[/math] | ... | ... | ... | ... | ... | [math]\displaystyle{ x_{-N}\Pi_{l=0}^{l=N-1}\left(1-d_{l}\right)d_{N} }[/math] |
如果数据是把好多年的联合起来统计,则要做相应的加和运算。如果仅仅考虑已经死掉的人,则也要做相应的人口时间序列。
人口动力学方程
或者更简单的符号来表示, 生存人口由年龄增长、死亡和出生决定, [math]\displaystyle{ \begin{bmatrix}x_{0}\left(t\right) \\ x_{1}\left(t\right) \\ x_{2}\left(t\right) \\ \cdots \\ x_{N}\left(t\right)\end{bmatrix} = \begin{bmatrix}0 &&&& \\ 1 & 0 &&& \\ 0 &1& 0 && \\ & & \cdots & & \\ & & 0 & 1 & 0\end{bmatrix}\begin{bmatrix}x_{0}\left(t-1\right) \\ x_{1}\left(t-1\right) \\ x_{2}\left(t-1\right) \\ \cdots \\ x_{N}\left(t-1\right)\end{bmatrix} - \begin{bmatrix}y_{0}\left(t\right) \\ y_{1}\left(t\right) \\ y_{2}\left(t\right) \\ \cdots \\ y_{N}\left(t\right)\end{bmatrix} + \begin{bmatrix}b_{t} \\ 0 \\ 0 \\ \cdots \\ 0\end{bmatrix}. }[/math] 其中死亡人口的动力学是, [math]\displaystyle{ \begin{bmatrix}y_{0}\left(t\right) \\ y_{1}\left(t\right) \\ y_{2}\left(t\right) \\ \cdots \\ y_{N}\left(t\right)\end{bmatrix} = \begin{bmatrix}d_{0} & 0&&& \\ 0 & d_{1} &0&& \\ 0 &0& d_{2} &0& \\ & & \cdots & & \\ & & 0 & 0 & d_{N}\end{bmatrix}\begin{bmatrix}x_{0}\left(t\right) \\ x_{1}\left(t\right) \\ x_{2}\left(t\right) \\ \cdots \\ x_{N}\left(t\right)\end{bmatrix}. }[/math] 出生人口的动力学是, [math]\displaystyle{ b\left(t\right)=\begin{bmatrix}b_{t} \\ 0 \\ 0 \\ \cdots \\ 0\end{bmatrix}. }[/math] 合起来就是, [math]\displaystyle{ x\left(t\right)=G\left[x\left(t-1\right)-y\left(t-1\right)\right]+b\left(t\right)=G\left(1-D\right)x\left(t-1\right)+b\left(t\right). }[/math]
从这个人口年龄动力学出发的参数估计可以参考Leslie模型以及相关的研究[5]。
研究思路和下一步工作
- 收集科学家生命和学术生命数据(对一个论文集做姓名识别、学术年龄识别、性别识别、统计每个科学家的每年发表的论文数量和每年被引次数)
- 计算每一位科学家的半衰期(以及统计分布函数和平均值),和相应的学术年龄的一半作比较,和论文、期刊的半衰期作比较
- 对个体的半衰期做统计研究、相关性分析(例如,科学家的性别、总被引次数、总论文数量、领域等和半衰期的关系)
参考文献
- ↑ Philip M. Davis, Journal Usage Half-Life, Phil Davis Consulting https://publishers.org/sites/default/files/uploads/PSP/journalusagehalflife.pdf
- ↑ Poynard T, Munteanu M, Ratziu V, Benhamou Y, Martino VD, Taieb J, et al. (2002) Truth Survival in Clinical Research: An Evidence-Based Requiem?. Ann Intern Med., 136:888-895. http://doi.org/10.7326/0003-4819-136-12-200206180-00010
- ↑ Poynard, T., Thabut, D., Munteanu, M., Ratziu, V., Benhamou, Y., & Deckmyn, O. (2010). Hirsch Index and Truth Survival in Clinical Research. PLoS ONE, 5(8), e12044. http://doi.org/10.1371/journal.pone.0012044.
- ↑ Staša Milojević, Filippo Radicchi, and John P. Walsh Changing demographics of scientific careers: The rise of the temporary workforce, PNAS December 11, 2018 115 (50) 12616-12623; https://doi.org/10.1073/pnas.1800478115
- ↑ Sergei Aalto, G. E. (Buck) Newsome, Some Methods of Estimating the Parameters of the Leslie Matrix using Incomplete Population Data, Canadian Journal of Fisheries and Aquatic Sciences, 1980, 37:1140-1148, https://doi.org/10.1139/f80-146
引用错误:在<references>
中以“Barabási:Halflife”名字定义的<ref>
标签没有在先前的文字中使用。
本分类目前不含有任何页面或媒体文件。