分类:基金机构影响力度量

来自Big Physics


以下的几个项目和基金机构的影响力和角色有关系,放在一起。具体研究方法上实际上依赖的是其他项目中发展起来的方法,尤其是间接联系和科学学多层网络的思想和方法。当然,随着研究的深入,也有可能可以提出我们目前的思想能够解决但是具体方法和框架不能解决的问题,这样还能反过来促进方法和框架的发展。

从我们科学学的两大核心理念——多层网络和投入产出分析——的角度来说,基金机构的角色就在于下面的这个关系网络:科学工作(论文、科学家、研究领域)促进科学技术(专利、产品)的发展,科学技术变成产品提高生活质量并在经济生产和消费中产生经济价值,经济系统把钱投入到基金机构,基金机构把钱投入到科学工作。当然,实际上,有可能会跳过其中的一些步骤,例如企业可以直接投入钱到基础研究或者技术开发中去。先不管这个跳步骤的事情。

那么,在这样一个关系网络中,哪些数据是现在比较容易获得并且可靠的呢?科学研究内部(论文引用、科学家写了哪些论文、论文的研究主题是什么)这个相对可靠。科学和技术的关系大概可以通过从专利文献识别研究论文,从研究论文识别专利找出来。科学技术转变成产品并且进入经济流通一定程度上可以通过专利授权和专利转化来计量不过目前没有集中的数据。经济到基金机构的投入应该很明确。经济通过企业研发进入到科学的,可能不是非常容易获得。基金机构到科学研究应该数据也可靠并且集中。例如NIH已经提供打包下载,NSFC也可以通过检索界面获得。

当然,作为一个案例,可以先对aps数据做研究。构造一个文章层面的引用网络,就可以做直接和间接影响力排序,并用于后续研究了。

这样一个数据整理起来就是这样一张投入产出表:

基金机构[math]\displaystyle{ f }[/math]  研究项目[math]\displaystyle{ pr }[/math] 研究者[math]\displaystyle{ r }[/math] 论文[math]\displaystyle{ pu }[/math] 专利[math]\displaystyle{ pa }[/math] 产品[math]\displaystyle{ prod }[/math] 生产和消费者[math]\displaystyle{ mc }[/math]
基金机构[math]\displaystyle{ f }[/math]  [math]\displaystyle{ X^{f}_{f} }[/math] [math]\displaystyle{ X^{f}_{pr} }[/math] [math]\displaystyle{ X^{f}_{r} }[/math] [math]\displaystyle{ X^{f}_{pu} }[/math] [math]\displaystyle{ X^{f}_{pa} }[/math] [math]\displaystyle{ X^{f}_{prod} }[/math] [math]\displaystyle{ X^{f}_{mc} }[/math]
研究项目[math]\displaystyle{ pr }[/math]  [math]\displaystyle{ X^{pr}_{f} }[/math] [math]\displaystyle{ X^{pr}_{pr} }[/math] [math]\displaystyle{ X^{pr}_{r} }[/math] [math]\displaystyle{ X^{pr}_{pu} }[/math] [math]\displaystyle{ X^{pr}_{pa} }[/math] [math]\displaystyle{ X^{pr}_{prod} }[/math] [math]\displaystyle{ X^{pr}_{mc} }[/math]
...  ... ... ... ... ... ... ...

当然,其中的某些可以在实际研究中去掉,例如研究者可以放到研究项目里面去,甚至研究项目和论文也可以合并。其中有一些元素应该是零,例如从基金机构到生产消费者,基金机构本身的购买消费对经济和科学技术的影响可以忽略不计。还比如从科学研究项目到基金机构的贡献也可以大概忽略(当然,也存在基金机构由于支持了某个研究特别出色然后获得了更多的可以分配的经费的情况,这个时候,就不是零了)。还有,其中应该有一个单独的政府部门,不过,在这里可以认为已经把基金单位的作用和政府合并。更重要的,实际上,这里的每一个主体都可以分的更细,例如[math]\displaystyle{ f }[/math]可以分成不同的国家基金机构。如果愿意,还可以在上面的表格里面加上“科学概念”和“技术代码”。前者表示论文工作的主题和学科领域,后者表示专利所在的技术部门。

下面,我们问,理论上,有了这个投入产出表,我们能够做什么,以及按照目前能够获得的数据,能够做什么?注意,有了这个表格,就表示我们的分析方法和思路主要就是多层网络和广义投入产出。当然,如果某些问题的分析需要其他的分析方法,也是可以的。


基金机构在科学和技术上的影响力的度量

首先,可以看一看对于科学发展——具体到论文的发表领域的发展——来说,基金机构的支持发挥了多大作用。最简单的方法,就是统计这个基金机构支持下的项目,在一段时间内(可以是基金支持期间、之前几年、之后几年)所发表的论文数量和被引次数。这就是直接统计的方法。

其次,简单统计的思路也可以用于基金机构对技术发展的作用。例如,统计和对比一下基金支持的基础性研究的论文产生的专利的数量、应用性研究的论文产生的专利的数量、没有得到基金支持的论文产生的专利的数量。具体计算的时候是反过来通过专利文献找到论文并且识别这些论文是受到国内、国外还是没有基金支持的,如果收到属于基础研究还是应用性研究,还是说大部分时候专利引用的是其他的专利文献。类似的研究可见[1][2][3] [4]

如果考虑间接影响,则有以下不同的方式来运用分类:广义投入产出分析[5]

例如,在文章的层次,可以把基金机构当做一个外生投入部门,先得到一个基金机构的投入向量(向量的每一个元素例如可以是——如果有支持就是1,没有就是零)。然后研究这个外生投入向量在整个文章通过引用关系构成的投入产出网路上的传播。投入产出网络如何构建,传播如何计算,可以参考分类:广义投入产出分析

例如,还可以在领域的层次,可以把基金机构当做一个外生投入部门,先得到一个基金机构的投入向量(向量的每一个元素例如可以是——如果有支持就是用所支持的项目经费,没有就是零)。然后研究这个外生投入向量在整个领域通过领域之间的引用关系构成的投入产出网路上的传播。投入产出网络如何构建,传播如何计算,可以参考分类:广义投入产出分析

我们还可以把基金机构当做一个内生部门,直接来分析上面的整个投入产出矩阵,算出来上面各个主体之间的综合(包含直接和间接以后的)相互关系,以及各个主体的重要性。具体计算参考分类:广义投入产出分析

在具体计算上,考虑到数据的可获得性,在合适(也是无奈)的地方,可以把上面的表格截断,例如把产品、生产和消费者暂时去掉,甚至把研究者和研究项目也去掉,主要依靠论文之间、论文专利之间的扩散机制来讨论基金机构的影响力。如果开展一下不同时期和不同国家之间的对比,还应该是一个有意思的又有可能有实际参考价值研究。甚至,在初始阶段,我们可以仅仅考虑论文之间的扩散机制来讨论基金机构的影响力,把专利那部分也去掉。也就是说,基金机构在科学和在技术上的影响力,一定程度上,可以分开来研究。当然,实际上是分不开的,仅仅是说,由于从科学到技术之间的联系应该来说比科学之间的联系要稀疏,因此,当仅仅考虑科学影响力的时候,大约可以先去掉专利那部分。我们提到暂时去掉产品和消费者等部门也是同样的理由。

热点追踪问题和基金机构行为或者政策之间的关联

分类:热点追踪研究[6] [7]中,我们发现科学家新发表的工作确实以更大的几率出现在目前已经发表了大量论文的领域中。这个几率和领域大小存在幂率关系。我们称这个幂率为热点追踪指数/程度。我们还发现,相比美国,中国的这个指数比较高,同时小领域的相对贡献率中国比较小,也就是主要集中在大领域里面。不是说大领域就不好,而是说这样的(相对于美国)太过集中地在大领域里面可能有一些政策上的原因。于是,我们想从不同的角度看一看这个有没有一些可能的原因。

其中一个可能的研究就是去看看,是不是,基金支持也存在类似的比较偏大领域的现象,而且是否相对于其他国家,也程度更高?还可以做一个这个程度的纵向对比,同时再把热点追踪程度的纵向发展趋势也画出来,看看是否有关联。

合作者还建议,是否可以考虑一下不同类型(例如不同地区,不同学科,不同性质的研究单位)的研究者,是否展现出来不同的热点追踪程度。没准也可以通过这个类型来了解更多的原因,同时对政策有一定的参考价值。

高质量工作中基金机构的作用

通过对热点追踪工作的研究,我们就能够注意到,中国所发表的文章大部分集中在大领域里面。于是,合作者就提出来这样一个问题:当考虑所有的中国学者发布的文章的时候,由于体量非常大,其中基金机构支持的比例有比较高,于是就显得基金机构的作用很大;是否可以考虑某种更加严格,于是也就相当于更有说服力的指标,例如考虑某种高质量论文?

简单来说,这个工作有非常直接的思路,甚至都不需要用多层网络和投入产出的思想和方法:定义某种重要性指标,然后看一看在这个指标线,中国论文有多少,其中基金机构支持的有多少。例如,取全球论文按照被引次数(可能要学科归一化)排名的[math]\displaystyle{ 1\% }[/math][math]\displaystyle{ 2\% }[/math][math]\displaystyle{ 5\% }[/math][math]\displaystyle{ 10\% }[/math][math]\displaystyle{ 20\% }[/math])来计算[8]。可以在这些百分比的论文中计算各个国家“论文数量”的百分比,也可以是相对贡献率(也就是拿着绝对贡献量除以这个国家在整个领域的平均贡献量)。也可以把“论文数量”换成“被引次数”。还可以讨论引用中多少是来自于前[math]\displaystyle{ 1\% }[/math][math]\displaystyle{ 2\% }[/math][math]\displaystyle{ 5\% }[/math][math]\displaystyle{ 10\% }[/math][math]\displaystyle{ 20\% }[/math])的文章的。

这个基于文章被引次数百分比的计算可以换一个角度,统计给定国家的前百分之多少的文章里面,全部文章排引用序中处于前百分之几的有多少。这就是上面那个先对所有文章排序,然后计算各个国家在其中的百分比的计算的对偶计算。

国家c的前5%  国家c的前10%  国家c的前15%  ... 国家d的前5%  国家d的前10%  其他
国家c的前5%  [math]\displaystyle{ X^{c5}_{c5} }[/math] [math]\displaystyle{ X^{c5}_{c10} }[/math] [math]\displaystyle{ X^{c5}_{c15} }[/math] ... [math]\displaystyle{ X^{c5}_{d5} }[/math] [math]\displaystyle{ X^{c5}_{d10} }[/math] ...
国家c的前10%  [math]\displaystyle{ X^{c10}_{c5} }[/math] [math]\displaystyle{ X^{c10}_{c10} }[/math] [math]\displaystyle{ X^{c10}_{c15} }[/math] ... [math]\displaystyle{ X^{c10}_{d5} }[/math] [math]\displaystyle{ X^{c10}_{d10} }[/math] ...
...  ... ... ... ... ... ... ...

稍微复杂一点来说,可以把“全球论文按照被引次数”改成考虑间接影响的论文影响力指数,例如通过在论文引用网络上通过广义投入产出分析计算得到的影响力。

更复杂一点来说,我们回到第一项研究,直接在整个投入产出网上计算基金机构的影响力。

基金机构的资助项目或者资助的论文出现在研究主题的早期还是晚期?

在某个领域或者主题上,统计出来每篇文章和每个引用的时间序列,看基金支持的项目或者文章,出现在哪个时间点上(用论文或者引用的时间点来看,例如某主题的第三篇文章是某基金支持下发表的,第四次引用是给基金支持的文章的,第一篇文章发表的时间点上某基金立项的)。

论文和申请书创新性、交叉性和是否受资助的关联分析

目前我们正在发展论文和申请书的创新性和交叉性计量指标。有了基金支持和没有支持的数据,我们就可以来讨论这个创新性高的申请书是否更加容易得到支持,得到基金支持之后创新性是否更高的问题。

学科领域之间相互关系、学科领域-专利部门之间相互关系的研究

分类:国家-学科的投入产出分析 对于决策者管理者来说,如果要支持目标学科领域或者目标专利部门的发展,如果有一个计算分析能够给出来和这个目标紧密相关的其他领域和部门,是有价值的。

赚人品的其他扩大基金影响力的事情

NIH 和 NSF 都提供基金支持数据的检索和下载。NSFC已经提供检索了。可以进一步提供下载。这样能够更好地方便研究者使用。

NIH开发了一个基金支持发表的文章和WoS库的对应,这个就更加方便研究者和基金申请者来使用这些数据。

同时,基金支持数据还可以用来做作者姓名识别和研究主题识别。这些数据的分享都会很大程度上促进科学计量学的研究,科学的传播和研究。

数据

直接用APS数据,或者其他学科的数据。当然,最好是wos或者scopus全部数据。另外,国家识别、基金资助数据如何得到也是一个问题。

参考文献

  1. DANIELLE LI, PIERRE AZOULAY, BHAVEN N. SAMPAT, The applied value of public investments in biomedical research, SCIENCE 356 (6333), 78-81(2017).
  2. Narin F, Hamilton K S, Olivastro D. Linkage between agency-supported research and patented industrial technology[J]. Research Evaluation, 5(3):183-187(1995).
  3. Narin F, Hamilton K S, Olivastro D. The increasing linkage between U.S. technology and public science[J]. Research Policy, 26(3):317-330(1997).
  4. Verbeek A, Debackere K, Luwel M, et al. Linking science to technology:Using bibliographic references in patents to build linkage schemes[J]. Scientometrics, 54(3), 399-420(2002).
  5. Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics 10, 82-97(2016). Doi:10.1016/j.joi.2015.11.002.
  6. Tian Wei, Menghui Li, Chensheng Wu, Xiao-Yong Yan, Ying Fan, Zengru Di & Jinshan Wu, Do scientists trace hot topics?, Scientific Reports 3, Article number: 2207 (2013), doi:10.1038/srep02207
  7. Menghui Li, Liying Yang, Huina Zhang, Zhesi Shen, Chensheng Wu, Jinshan W, Do Mathematicians, Economists and Biomedical Scientists Trace Large Topics More Strongly Than Physicists?,Journal of Informetrics,10.1016/j.joi.2017.04.004
  8. 美国National Science Board 做出的报告Science and Engineering Indicators (SEI)2016, https://www.nsf.gov/statistics/2016/nsb20161/#/report/chapter-5/outputs-of-s-e-research-publications-and-patents

子分类

本分类有以下3个子分类,共有3个子分类。