分类:国家-学科的投入产出分析

来自Big Physics


背景

在这个项目里面,通过对以国家[math]\displaystyle{ \times }[/math]学科为单位的投入产出矩阵的分析,我们来回答某个国家的某个领域对另外一个国家的另外一个领域的影响的问题,并且也能够讨论其某种意义上合起来的影响力。我们所用的方法就是广义投入产出分析[1]

数据已经具备,方法也已经成形。但是在具体问题上的结果提炼意义挖掘,都需要一定的具体问题背景。

除了国家[math]\displaystyle{ \times }[/math]学科,我们还可以讨论城市[math]\displaystyle{ \times }[/math]学科、学校[math]\displaystyle{ \times }[/math]学科等。顺便,如果要做主体为学校和城市的研究,则可以采用Dimensions数据库中的Grid整理的学术单位的地理信息数据。

同时,期刊、作者、论文层次的相互影响和相对地位的分析,也是可以开展的研究。

分析方法

给定一个投入产出系统,我们可以用广义投入产出分析方法(封闭系统HEM、开放系统B端投入产出分析、开放系统F端投入产出分析、开放系统PageRank、开放系统CheiRank),来分析这个系统中的一个部门在整体中的地位。

封闭系统的研究,例如,本征值和本征向量HEM,就是对比去掉这个部门之前之后的系统的矩阵的最大本征值和相应的本征向量(注意计算本征向量的时候,矩阵是否要重新归一化)。

封闭系统的研究,还可以是整个封闭系统的PageRank或者CheiRank值。这个时候,没有外界(可能信息不够,例如专利引用论文的数据没有),也可以像PageRank一样,直接把外界当作全同矢量[math]\displaystyle{ \left[1,1,\cdots,1\right]^{T} }[/math]

开放系统的研究,例如,把这个集合拿出去放到右边,就可以研究从被引(经济系统的供给端,F)的角度这个集合的论文被其他某个集合的论文的运用多大程度上促进了所有的施引,以及,从被引(经济系统的需求端,B)的角度来说,这个集合的论文对其他某个集合的论文的引用多大程度上使得所有的论文都得到了引用。

开放系统的研究,还可以是开放系统的PageRank。

甚至,是否可以通过对比分开去掉两个部门和同时去掉两个部门的逆矩阵来讨论这两个部门之间的联系?

除了在单层网络上,这个分析也可以在多层网络上开展。也就是讨论作者、论文、主题的重要性的时候,用相互影响来讨论:一个重要主题上的工作,就算引用不多,也是重要的,以及过来,一个引用很多的文章或者一个大牛科学家工作的主题,也是一个重要的主题。

除了顶点的直接和间接综合影响力,还可以看一看边的直接和间接影响力。也就是把边上的直接流量和用了PageRank之后的边上所传递的权重比较一下,看一下是否会出现直接流量和间接传递权重相差比较大的边。当然,其他能够得到边的某种量的算法,例如封闭系统HEM,也可以试试。

全学科相互支撑关系

把聚类以后的某个层级的全学科引用矩阵拿出来,做影响力和相互支撑关系的分析。可以考虑带国家(城市、学校)或者不带。

这个研究可以回答学科鄙视链是不是有道理。当然,更重要的在于人才培养(基础性的学科和应用性学科的区别)和学科以及研究规划。

关系分析方法,可以用PageRank或者HEM。


考虑某个集合的论文在整体中的地位

除了国家、学科、国家乘以学科,当做集合之外,我们还可以考虑其他集合,例如被引最高的钱百分之多少、参考文献最多的前百分之多少、国际合作(可以再细分哪几个国家的合作,几个国家的合作,国际合作乘以学科)的论文、是否受基金资助的论文。其实,任何一个集合抽取出来,我们都可以来用广义投入产出分析方法(封闭系统HEM、开放系统B端投入产出分析、开放系统F端投入产出分析、开放系统PageRank、开放系统CheiRank),来分析这个集合在整体中的地位。

理想情况下,国际合作对于某些国家可能是ideas的流入源,能起到推动本国科学研究的作用(从需求端本国科学研究很需要它,从供给端其很大程度上影响了本国科学研究)。正好可以用投入产出分析方法来研究一下这个问题。

类似地,理想情况下,受国家基金自助的论文也应该一定程度上起到推动本国甚至其他国家的科学研究。同样,可以把所有国家的论文分成受资助和不受资助,然后分别用投入产出分析。

甚至,还可以把各种因素乘积起来,来看交叉影响。例如受资助又是国际合作的,会起到怎样的作用。

用开放系统投入产出分析处理部分引用网络数据问题

有的时候,所需要排序的论文仅仅是整个数据库里面的一部分。原则上说,这样的数据不完整可能对结果是有很大的影响的,尤其是,如果我们仅仅考虑通过在这个子集之内的论文的引用网络来得到论文的影响力指标的话。那么,在所有论文的引用网络数据不能(不容易或者没必要)获得的情况下,有没有一个合理的方法来对基于这个子集的引用网络数据来处理这个问题呢?

有,开放系统的投入产出分析。把这个子集内的论文的被引情况分成两类:被集合内文章的引用、被集合外文章的引用。对于集合内引用,获取完整的引用网络数据[math]\displaystyle{ x^{i}_{j} }[/math]。对于集合外文章的引用,只需要获得被引次数。被引次数可以直接通过这些文章的总被引次数减去集合内被引次数来得到,记为[math]\displaystyle{ x^{i}_{e}=e^{i} }[/math]。这时候,[math]\displaystyle{ x^{i}_{j} }[/math]就是投入产出系统的内部,[math]\displaystyle{ x^{i}_{e}=e^{i} }[/math]就是这个投入产出系统的外界。见运用广义投入产出分析结合集合内引用关系和集合外被引次数

可能的检验

在文章的层面可以考虑用F1000人工论文影响力(f1000网站)评价数据来和考虑了间接影响(并且用开放系统投入产出处理部分数据问题的)的论文影响力作对比。

或者考虑用APS数据来做这个研究(数据——APS文章的引用网络、APS文章在WoS库内但是不在APS引用网络内的被引次数,比较——APS网络内的被引次数、APS网络内的广义投入产出、WoS总被引次数、APS网络加上网络外引用得到的开放系统投入产出),用奖励来检验之类的。

把F1000传开来

对于给出来部分文献的评价数据,可以利用引用网络来处理这个部分数据。见以种子和传递为基础的创新性可靠性追热点程度度量

参考文献

  1. Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics 10, 82-97(2016). Doi:10.1016/j.joi.2015.11.002.

本分类目前不含有任何页面或媒体文件。