分类:基金随机资助策略的研究

来自Big Physics
Jinshanw讨论 | 贡献2021年12月17日 (五) 01:28的版本 →‎模型设计


问题背景

在基金申请书评价、科学论文稿件评价、招生评价、招工评价等问题中,对于比较随大流的申请书、论文、学生和员工,一般来说,评价者给出的评价会相对来说比较准确(可以通过现有数据验证一下,看看方差之类的。或者把已经得到或者没有得到的项目,送出去再一次评审一下,看看稳定性)。但是,对于比较有个性(创新性比较高、和很多其他个体不太一样)的个体,评价者给出的评价往往会不太准确。这个不太准确可能表现为各个评价者给出的评分相差比较大(方差大),可能表现为有个性的个体的评价均值偏低(例如,论文挑战了比较有共性的认知)。可是,科学的进步往往很需要这些非同寻常的个体的贡献,不管是创新性高的研究项目、论文,还是特立独行的学生和员工。一个真正具有非凡创造性的个体发挥的作用远远大于一大群随大流的个体。

那么,有没有办法设计一个评审机制或者说资助策略能够把这样的个体更多地保留下来?


其他相关研究

其他研究者也已经注意到这个问题,甚至建议采用随机资助[1] [2] [3] 。在新西兰[4] [5] 以及德国的科研基金[6] 中,甚至做了实现(是否能够找到关于这个实验的数据,尤其是德国的数据?德国项目同时做了普通评审和底线评审)。[7]详细介绍了新西兰Explorer计划的情况。

[8] 以实际被立项的项目的各位评审人的评分为基础,对每一个项目做了Bootstrap抽样计算这个个项目的平均分的样本(Bootstrap的每一次抽样都会得到一个平均分),按照这个平均分再来看是否会得到支持。发现很大比例的项目处于“有的时候得到支持有的时候不会得到支持”的状态。[9] 用了两个基金机构的同一个项目的评审分数的比较,计算了Cohen's Kappa发现,其相互一致的情况和完全随机匹配的一致性相比高不了太多。[10] 从科技哲学的角度,提出来同行评议中低估高创新性研究的根源是“研究者自恋(researcher narcissism)”——不断地加强对自己或者他人已经选择的道路的信仰而忽略其他可能。 [11] 发现受支持项目的论文的各种表现指标和项目批准时候的评审分数基本没关系。如果加上没有被支持的项目的论文,以及其他的指标,例如创新性,就会更有意思了。

研究方法和内容

在这里,我们提出来一个可能的资助策略:直接资助非常少量的最优秀项目(记为Top[math]\displaystyle{ T\% }[/math],或者说集合[math]\displaystyle{ T }[/math])、直接剔除一定数量的最差项目(记为Down[math]\displaystyle{ D\% }[/math],或者说集合[math]\displaystyle{ D }[/math]),对剩下的项目实行随机分配(记为Random[math]\displaystyle{ R\% }[/math],或者说集合[math]\displaystyle{ R }[/math])。

我们想看看是否能够做一些研究来在做试验检验之前,从理论上检验一下这个资助策略。

除了不同策略的实验研究(虚拟再次评审)、已经尝试的不同资助策略的实证数据分析(统计方差、新西兰等的实证分析),我们还可以做建模分析。(在这里补充调研,例如静态分配模型[12][13],动力学——分配以后的成长模型[14]

模型设计

模型主体:

  1. 研究者群体[math]\displaystyle{ i=1,2,3,\cdots, N }[/math]
    1. 每一个研究者有两个内秉质量指标:Talent程度(才华、努力)[math]\displaystyle{ T }[/math]、特异性(离经叛道程度)[math]\displaystyle{ M }[/math]。可以取[math]\displaystyle{ T,M\in\left[0,1\right] }[/math],群体符合正态分布或者某个分布函数。注意,这个分布函数的假设可能会影响结论。
    2. [math]\displaystyle{ t }[/math]时刻一个内秉指标为[math]\displaystyle{ \left(T_{i},M_{i}\right) }[/math]的研究者以一定的概率[math]\displaystyle{ p\left(T_{i},M_{i}\right) }[/math]产生一个研究项目申请书[math]\displaystyle{ P\left(T_{i},M_{i},t\right) }[/math]
    3. 如果项目获得支持,则当期得到一个科学价值为[math]\displaystyle{ S_{i}(t)=T_{i}M_{i} }[/math]的研究成果,;如果项目没有获得支持,则得到一个科学价值为[math]\displaystyle{ S_{i}(t)=\lambda(=0.5) T_{i}M_{i} }[/math]的研究成果。
  2. 评审人虚拟群体——抽象为一个对每个项目申请书给出一个分数的评审人。多个评审人各自评审再综合的设置暂时不进入本模型。
    1. 对于项目申请书[math]\displaystyle{ P\left(T_{i},M_{i},t\right) }[/math]按照以下得分生成程序生成一个得分[math]\displaystyle{ V_{1}\left(P\left(T_{i},M_{i},t\right)\right) }[/math]
    2. 对于项目申请人[math]\displaystyle{ i }[/math]按照以下方式生成一个得分[math]\displaystyle{ V_{2}\left(\sum_{\tau\leq t}Q_{i}(t)\right) }[/math]
  3. 基金支持机制,分为没有基金支持,以随机方式、择优方式、底线评审方式分配固定比例的基金支持
    1. 没有基金支持
    2. 随机选择比例为[math]\displaystyle{ r }[/math]的项目来支持
    3. 择优评审:选择分数[math]\displaystyle{ V_{1}+V_{2} }[/math]最高的[math]\displaystyle{ rN }[/math]各项目来支持
    4. 底线评审1:去掉评分[math]\displaystyle{ V_{1} \lt V_{L} }[/math],剩下的选择凑齐整体比例为[math]\displaystyle{ r }[/math]的项目来支持
    5. 底线评审2:去掉评分[math]\displaystyle{ V_{1} \lt V_{L} }[/math],直接支持评分[math]\displaystyle{ V_{1}\geq V_{U} }[/math],剩下的选择凑齐整体比例为[math]\displaystyle{ r }[/math]的项目来支持
    6. 底线评审3:去掉评分[math]\displaystyle{ V_{1}+V_{2} \lt \bar{V}_{L} }[/math],剩下的选择凑齐整体比例为[math]\displaystyle{ r }[/math]的项目来支持
    7. 底线评审4:去掉评分[math]\displaystyle{ V_{1}+V_{2} \lt \bar{V}_{L} }[/math],直接支持评分[math]\displaystyle{ V_{1}+V_{2}\geq \bar{V}_{U} }[/math],剩下的选择凑齐整体比例为[math]\displaystyle{ r }[/math]的项目来支持

基本假设:

  1. 评价者对创新性比较高的被评价对象的评分偏低(均值小)。
  2. 评价者对创新性比较高的被评价对象的准确率偏低(方差大)。
  3. 不考虑创新性的条件下,评价者对最优秀和最差的被评价对象的识别准确率比较高(方差小),中间层次的准确率比较低(方差大)。
  4. 忽略每个项目的预算差别,项目受资助的比例[math]\displaystyle{ r }[/math]是一个确定值。
  5. 忽略每一个评价者的评价能力的差别。
  6. 每一个评价者对一个特定项目做出来的评价分数是一个高斯分布(或者其他特定的分布函数)。

效率指标:

  1. 总产出
  2. 产出-研究者内秉特征联合水平分布函数,或者说产出-研究者内秉特征关联性

变量选择:

  1. 每一个被评价对象的真实质量满足增函数[math]\displaystyle{ H=H\left(q,c\right) }[/math],例如[math]\displaystyle{ H=qc }[/math]或者[math]\displaystyle{ H=q+c }[/math]
  2. 每一个被评价对象的观测质量[math]\displaystyle{ Q=Q\left(q,c\right) }[/math][math]\displaystyle{ q }[/math]的增函数,[math]\displaystyle{ c }[/math]的减函数,例如[math]\displaystyle{ Q=\frac{q}{c} }[/math]或者[math]\displaystyle{ Q=max\left(q-c,0\right) }[/math]
  3. 观测(评价者评价)机制:评价者得到的评价数值是一个由被评价对象的质量[math]\displaystyle{ \left(c,q\right) }[/math]决定的概率分布函数,例如,[math]\displaystyle{ \rho\left(O\right)=\frac{1}{Z}e^{-\frac{\left(O-TM\right)^{2}}{2\sigma^{2}\left(T,M\right)}} }[/math],其中[math]\displaystyle{ \sigma^{2}\left(T,M\right)=\left(\frac{1}{TM-\left\langle TM\right\rangle+\epsilon}\right)^{2}+T^{2}M^{2} }[/math],或者更进一步把大[math]\displaystyle{ q }[/math]和小[math]\displaystyle{ q }[/math]的方差区分开。


目标:在固定支持比例下,选择合适的资助项目集合[math]\displaystyle{ S }[/math],使得这个集合的真实质量最大,[math]\displaystyle{ H_{S}=\sum_{s\in S} H_{s} }[/math]

资助策略:对于每一个被评价者,只有评价者给出的分数是可观测量,我们的资助策略必须只能按照这个客观测量来制定。对于给定的被评价者,计算所有评价者给出来的对这个评价者的评价分数的均值,还记为[math]\displaystyle{ O }[/math]。考虑以下几种资助策略,

  1. 传统Traditional:按照顺序从最优的开始资助,直到达到受资助比例[math]\displaystyle{ r }[/math],也就是[math]\displaystyle{ \left\{O\gt O_{r}\right\} }[/math]
  2. 随机Fully Random:所有项目完全随机。
  3. 中高端随机HM-Random:去掉一些评分最差的项目(例如,[math]\displaystyle{ \left\{O \lt O_{L}\right\} }[/math]),然后对剩下的随机。
  4. 中低端随机ML-Random:支持一些评分最高的优秀项目(例如,[math]\displaystyle{ \left\{O\gt O_{H}\right\} }[/math]),然后对剩下的随机。
  5. 中端随机M-Random:去掉一些评分最差的项目,支持一些评分最高的优秀项目,然后对剩下的随机。
  6. 更加复杂的,除了关注简单算术均值之外的其他排序方法的计算(见并行排序以及比较两个集合的方法),暂时不纳入本项目考量。
  7. 更加不靠谱的问题:是否可以试试用机器学习优化,得到一个从输入变量[math]\displaystyle{ \left\{O_{j}\right\}, r }[/math]得到输出变量[math]\displaystyle{ S }[/math],并能够得到[math]\displaystyle{ H_{S} }[/math]的极大值的一个“资助决策机”,还能从里面看出来点大概如何选择的策略?

以上各种函数形式都可以改,只要保持增减的趋势不变。

不过,具体函数的形式,而不仅仅是增减性,甚至还有所有被评价者的[math]\displaystyle{ q,c }[/math]取自于什么分布都会影响最终的定性结论。因此,结论的鲁棒性是一个要研究的很大的问题。

模型的定性分析

研究方法上,除了做模拟,是否还可以依靠上面的导数(增减性)假设,直接得到一个哪一种策略更好的结论呢?或者说,先做模拟,得到一些定性结果,然后想办法证明这些定性结果。

我们先忽略评价者的概率分布的事情,假设评价者完全能够把[math]\displaystyle{ Q\left(q,c\right) }[/math]判断准确,然后就按照这个[math]\displaystyle{ Q\left(q,c\right) }[/math]的值来从高到低资助。在这个条件下,我们看看是不是往往高[math]\displaystyle{ H\left(q,c\right) }[/math]的项目也会得到资助。

也就是说,我们希望计算某种[math]\displaystyle{ \frac{\partial H}{\partial Q} }[/math],例如[math]\displaystyle{ \left(\frac{\partial H}{\partial Q}\right)_{q} }[/math]在除掉创新性之外的质量度量不变的情况下,我们来看这个偏导数,也就是是否个[math]\displaystyle{ Q }[/math]的顺序和[math]\displaystyle{ H }[/math]的顺序一致。

于是,[math]\displaystyle{ \left(\frac{\partial H}{\partial Q}\right)_{q} = \left(\frac{\partial H\left(c\left(q,Q\right),q\right)}{\partial Q}\right)_{q} = \left(\frac{\partial H}{\partial c}\right)_{q} \left(\frac{\partial c\left(q,Q\right)}{\partial Q}\right)_{q} = \left(\frac{\partial H}{\partial c}\right)_{q} \frac{1}{\left(\frac{\partial Q\left(q,c\right)}{\partial c}\right)_{q}} }[/math]。其中第一项小于零,第二项大于零,于是整体小于零,也就是说,在同样[math]\displaystyle{ q }[/math]的情况下,[math]\displaystyle{ Q }[/math]的顺序和[math]\displaystyle{ H }[/math]的顺序相反。不依赖函数的具体形式,只依靠增减性就可以得到这个结论。

有了这个结论,那额外的随机性就是放大或者缩小这个不一致性的问题了。

参考文献

  1. Shahar Avin, Policy Considerations for Random Allocation of Research Funds, DOI: https://doi.org/10.13130/2282-5398/8626.
  2. Shahar Avin,(2019). Mavericks and lotteries, Studies in History and Philosophy of Science Part A, 76,13-23.
  3. Dorothy Bishop, Luck of the draw, https://www.natureindex.com/news-blog/luck-of-the-draw .
  4. New Zealand Health Research Council – Explorer Grants https://gateway.hrc.govt.nz/funding/researcher-initiated-proposals/2021-explorer-grants
  5. The Science for Technological Innovation National Science Challenge (SfTI) of New Zeeland, "Seed project fund" https://www.sftichallenge.govt.nz/for-researchers/funding-and-get-involved/seed-project-development-process/
  6. VolkswagenStiftung "Experiment! – In search of bold research ideas", https://www.volkswagenstiftung.de/en/funding/our-funding-portfolio-at-a-glance/experiment
  7. Liu, M., Choy, V., Clarke, P., Barnett, A., Blakely, T., & Pomeroy, L. (2020). The acceptability of using a lottery to allocate research funding: a survey of applicants. Research Integrity and Peer Review, 5(1), 3.
  8. Graves Nicholas, Barnett Adrian G, Clarke Philip. Funding grant proposals for scientific research: retrospective analysis of scores by members of grant review panel BMJ 2011; 343 :d4797
  9. Corinne Hodgson, (1997). How reliable is peer review? An examination of operating grant proposals simultaneously submitted to two similar peer review systems, Journal of Clinical Epidemiology, 50, Issue 11, 1189-1195.
  10. D. Gillies, (2014). Selecting applications for funding: why random choice is better than peer review, RT. A Journal on research policy and evaluation, 2(1).
  11. F.C. Fang, A. Bowen, A. Casadevall, (2016). Research: NIH peer review percentile scores are poorly predictive of grant productivity, eLife, 5, e13323.
  12. Shahar Avin, Centralized Funding and Epistemic Exploration, The British Journal for the Philosophy of Science, Volume 70, Issue 3, September 2019, Pages 629-656, https://doi.org/10.1093/bjps/axx059 .
  13. Elise S Brezis, Focal randomisation: An optimal mechanism for the evaluation of R&D projects, Science and Public Policy, Volume 34, Issue 10, December 2007, Pages 691–698, https://doi.org/10.3152/030234207X265394 .
  14. ALESSANDRO PLUCHINO, ALESSIO EMANUELE BIONDO and ANDREA RAPISARDA,TALENT VERSUS LUCK: THE ROLE OF RANDOMNESS IN SUCCESS AND FAILURE, Advances in Complex Systems Vol. 21, No. 03n04, 1850014 (2018), https://doi.org/10.1142/S0219525918500145

子分类

本分类只有以下子分类。