分类:科学学大图景

来自Big Physics


这是一个建设“大科学学”的呼唤。 这是一个对科学学多层网络框架和科学计量学三层网络框架的介绍。 这是一个为了将来写网络科学和科学学的综述文章做的工作稿件。



基于网络科学的大科学学

摘要

在本文中,我们提出了一个基于网络科学的科学学研究框架,用于解决科学学的学科核心任务——从科学活动的数据中发现和理解规律促进科学的发展。这个框架提供了科学学研究对象和研究问题的统一的基于关系数据的描述、准备了网络科学的研究思想和分析方法,并且为把科学学拓展到学科的教和学、科学技术和经济的关系等其他研究中去提供了视角。


引言

人类经济的发展的最终动力是人类知识以及产生知识的方法的发展。科学技术的增长是经济增长背后真正的动力。经济的发展是人类社会结构、社会规法发展变化的底层原因。科学学是研究和促进科学发展的学科,那么,它是不是应该承担起来这个联系科学技术发展到经济发展、经济发展到社会结构变化,甚至从经济发展和社会结构变化再一次到科学技术发展,这几个方面的桥梁的作用?

科学学的核心任务是从科学活动和科学活动的记录中发现和理解规律,从而促进科学的发展。这里的科学家可以是广义的,包含科学研究者、技术发明者、以及相关的期刊出版参与和管理者、科技项目和基金管理者、传播科学的老师、接受传播的学生和大众等。这里的科学活动也是广义的,可以是研究者的研究学习和教学活动以及跟这些活动相关的这些记录的审稿、出版、传播以及科学研究项目和基金的管理等。促进科学发展,可以通过各种手段来实现,例如对最优发展前景和学术以及技术意义的问题、领域,甚至研究者的挖掘、推荐、传播和支持,也可以是找到最好的科学家的培养方式工作方式等等。

那么,科学学是如何来回答这样的问题的呢?这些问题之间的共性是不是允许我们找到比较一致的问题表述方式,甚至比较一致的问题解决方式呢?传统上,科学学的研究可以采用质性研究和基于数据的统计分析,或者说量化研究,或者基于逻辑方法或者从历史的角度对科技政策等问题做思辩性的研究。现在,在大数据和学科融合的时代,我们更多的基于数据,尤其是关系数据,来做超越简单统计的数据分析,来做新的科学计量学分析,例如社会网络分析或者跟一般地叫做网络科学的分析。

本文就从网络科学的角度来阐述什么是科学学,并且提供一个描述科学学基础数据的统一的角度——多层网络框架,并在这个统一的框架上重新描述或者提出新的科学学典型研究问题、典型思维方式和典型分析方法,从而让整个学科以数据的计量分析为主要研究手段,来架设起来从科学研究到技术研发,到产品生产经济发展,到产业和国家对科学技术的研发投入,到科学概念的教学和传播的桥梁。

网络科学的典型思维方式和分析方法

网络科学就是把研究对象看作网络——就是一堆相互之间通过“边”连在一起的“顶点”,然后通过网络分析方法来回答关于这个对象的问题。其中最关键的就是顶点之间的连边。用科学学的例子来说,我们可以把每一篇文章当作顶点。这个时候,一种自然的文章之间的连边就是引用关系。但是,如果我们的研究仅仅关注在数一数每篇被引次数,或者其他的基于引用次数的分析例如领域归一化,那么,实际上,我们就并没有用上文章之间的联系。反而,我们是把每一篇文章当作一个独立的个体来研究的,被引次数或者施引次数仅仅这个这个孤立个体的属性。也可以换一个角度来看被引和施引次数:我们把每一篇文章看作一个顶点,文章到文章之间的施引关系看作是有向连边,构成一个网络。于是施引次数就是这个网络的顶点的外向连边,被引次数就是这个网络的内向连边。

那么,是不是这样就是网络分析了呢?还不是。除了连边,网络分析的另一个重要特征是它的典型思维方式——系联性思考:必须综合考虑顶点之间的直接和间接联系,而不仅仅是直接联系,以及以这个典型思维方式为基础的典型分析方法。例如,我们可以考虑任意两篇文章之间如果要通过引用关系相连的话,需要多少步,也就是平均最短距离问题。这样的问题首先是需要通过计算间接联系来完成的,我们需要找到两篇没有直接引用关系的文章之间的引用路径才能回答需要经过多少步。然后,对所有的这样的文章对做平均才能回答典型需要多少步才能把文章相连的问题。那么,这样的计算有什么意义?从整个文章引用网络的角度来说,这个指标反映了文章之间引用关系的紧密程度。将来从引用集团的角度来说,这样的指标还可以验证是不是确实集团内部比集团外的联系更紧密。其实,这个平均最短距离指标 自己也可以很有意思。例如,有一个著名的社会学现象叫做六度分析:平均来看,只要传递六次,就可以让一个信件从一个人到达另一个人那里,就算每次传递只能通过熟人网络来进行。也就是说,就算人类的总数量很大很大,但是,相互之间基本上可以通过少数几个人就可以相互联系起来。另一个综合考虑了直接和间接联系的例子是Google的PageRank算法:如果我们要考虑每一篇文章的影响力,或者网页的排序问题,我们不仅仅应该关注每一篇文章的被引次数,或者每一个网页的被链接次数,还需要看到底被谁引用被谁链接。如果一个引用或者链接来自于更加有影响力的文章或者网页,则这个被引用和被链接的文章或者网页,其重要性增加的程度应该比受到一个没有什么影响力的文章或者网页来得小。通过这个描述就可以看出来,这个计算过程需要做某种反复迭代来确定某种不动点,也可以看见一个顶点的影响力不仅仅传播到了它的邻居还有到邻居的邻居,到邻居的邻居的邻居。为了更好地体现这个直接和间接联系的综合,我特意写下来下面的计算公式,

[math]\displaystyle{ P=\left(1-d\right)E+\left(1-d\right)\left(dA\right)E+\left(1-d\right)\left(dA\right)^{2}E+\cdots = \frac{\left(1-d\right)}{\left(1-dA\right)}E }[/math], (1)

[math]\displaystyle{ E=\left[\frac{1}{N}, \frac{1}{N}, \cdots\right]^{T} }[/math]. (2)

其中,[math]\displaystyle{ E }[/math]是一个初始的影响力矢量——假设每一个文章或者网页都一样重要;[math]\displaystyle{ A }[/math]代表了引用或者链接矩阵,称为网络的邻接矩阵——一篇文章[math]\displaystyle{ i }[/math]引用另一篇文章[math]\displaystyle{ j }[/math],则[math]\displaystyle{ A_{ij}=1 }[/math][math]\displaystyle{ d }[/math]是一个[math]\displaystyle{ \left[0,1\right) }[/math]之间的常数使得这个取和不发散。注意,矩阵的二次幂[math]\displaystyle{ A^{2} }[/math]实际上代表了长度为2的路径([math]\displaystyle{ i\rightarrow k \rightarrow j }[/math]),三次幂[math]\displaystyle{ A^{3} }[/math]就是长度为3的路径([math]\displaystyle{ i\rightarrow l\rightarrow m \rightarrow j }[/math])。于是,我们看到了直接([math]\displaystyle{ A }[/math])和间接联系([math]\displaystyle{ A^{2} }[/math][math]\displaystyle{ A^{3} }[/math]、...)的综合:[math]\displaystyle{ A+A^{2}+\cdots }[/math]。我们称这样的直接联系和间接联系的综合为系联,这样的思维方式叫做系联性思考,也就是

系联=联系1 + 联系2 + 联系3+... (3)

总结起来,系联性思考和系联性分析计算方法就是网络科学的典型思维方式和典型分析方法。 现在,我们要运用这个思维方式和分析方法来构建科学学的学科大图景的一致性描述——什么是科学学的典型对象、典型问题、典型思维方式、典型分析方法,这个学科和世界以及其他学科的关系。

科学学大图景和多层网络框架

我们先从科学学的重要分支科学计量学开始,建立一个大致统一的描述框架。科学计量学研究一般来说基于论文或者专利引用数据,或者论文专利混合引用数据。除了直接关系,从引用网络可以提炼被引论文或者施引论文的共现,也就是共施引或者共被引关系。这些关系可以用于论文自动分类的研究。有的时候,除了引用关系,科学计量学也讨论论文的其他形式数据。例如,论文的作者集合就可以用来提炼合作者关系,或者称为作者的共现关系,用来讨论科研合作的现象。例如论文的作者和关键词就可以提炼作者和关键词的共现关系,用来讨论作者的主要领域的问题。类似的还可以关注论文中的单位,用来讨论学术机构甚至地区国家之间的合作。最近有利用更丰富的作者信息,例如作者的年龄、学术年龄、性别、作者和导师的关系、工作时间、交稿时间等,和传统的科学计量学影响力和产出指标结合,来回答关于科学家的更好的工作模式的问题。 那么,是不是这样的研究问题就只能一个一个来问,看哪个研究者能想到什么就是什么,只要是有关科学活动的问题就可以,还是说,其实存在一定的能够表达出来的共性?更进一步,是不是这样的问题的研究方法和研究数据,也是只能一个问题一个问题来解决,而没有某种共性?

科学计量学三层网络框架

我们发现,其实这样的共性是存在的。上面提到的各种研究都可以表达为以下这个我们称为“科学计量学三层网络框架 ”(见图1)之下的问题,并且这个框架还为研究这些问题提供了大概一致的数据,为发展解决这些问题的方法提供了大概一致的基础。

三层科学图.png

图1:科学计量学三层网络框架:作者、论文和概念或者发明人、专利和技术;层内和层间都有连边也就是关系。

在图1中,顶点有三类:针对科学研究的作者、论文和概念,或者针对专利研究的发明人、专利和技术。其中,在作者层内,基础的关系是学术传承关系和科学家社会网络关系。其中,传承关系的数据在数学和一部分科学学科上已经可以获得。在文章层内,基础的关系是文章引用关系。作者到文章之间的关系就是作者——创作——文章的关系。注意,作者的合作关系不是一个基础关系,因为合作关系可以通过三层网络做投影来得到:先从一个作者沿着“创作”关系走到文章,再从同一篇文章出发,沿着“被创作”关系走到另一个作者,就得到和合作关系。在概念层内,概念之间有学科依赖关系,也就是这个学科内部的概念之间的内在关系,例如“减法”是“加法”的逆运算,“乘法”是重复多次的“加法”,“除法”是重复多次的“减法”,或者看作“乘法”的逆运算。在文章到概念的层间,就是一篇文章到底核心贡献或者核心问题是研究了哪些概念或者概念之间的联系。

除了这些表现为顶点之间的连边的关系之外,图1中的顶点上还可以带有其他的属性。例如,作者可以属于某个群体——学术机构、城市、国家、学派、性别、年龄等。其实,这些属性大部分可以看作是作者顶点到其他顶点的联系,例如作者到城市的联系,作者到国家的联系等等。不过,在某些时候,为了简单计,把关系数据当作属性数据来做研究是有必要的。例如,文章也可以有其他属性,例如属于什么期刊、国家、城市等等。类似的,概念也可以加上学科的属性,甚至概念的年龄的属性,也就是这个概念是什么时候出现的这个信息。

有了这个基本信息,我们说,原则上,像文章创新性的度量、文章属于哪一个学科领域、文章或者作者的影响力、概念在学科内以及跨学科的重要性、学科之间的相互影响、作者年龄学术传承合作等对科研产出和影响力的影响等等问题,都应该是通过合适的定义和算法在这个多层网络框架内计算出来。

于是,这个作者-文章-概念三层网络模型就给科学学提供了一个描述数据、表述问题、发展方法的基本框架。在具体研究中,只要把数据、问题描述成这样的形式,剩下的事情就是在这个框架下发展一个定义和算法,以及将来的对这个定义和算法的理论和实践检验的事情了。

大量的现在的研究也可以放到这个框架里面。除了前面提到的各种共现研究,文章的自动分类问题,实际上,也可以放到这个框架里面。首先,我们来看现在研究的比较多的基于共施引、共被引和直接引用的论文分类算法。前面已经提到,共施引和共被引网络实际上是直接引用网络的投影:只要在直接引用网络上,从一篇文章[math]\displaystyle{ i }[/math]开始跟踪它被谁([math]\displaystyle{ k }[/math])引用了,然后再看这篇施引文章[math]\displaystyle{ k }[/math]同时还引用了其他哪些文章([math]\displaystyle{ j }[/math]),这样就找到了[math]\displaystyle{ ij }[/math]之间的共被引关系。用数学的语言来说,就是引用网络的临接矩阵[math]\displaystyle{ A }[/math],经过[math]\displaystyle{ A^{T}A }[/math]的运算就得到了共被引关系矩阵。类似的,[math]\displaystyle{ AA^{T} }[/math]就给出来共施引关系矩阵。于是,我们发现,只要将来我们的聚类算法中允许同时出现包含[math]\displaystyle{ A }[/math][math]\displaystyle{ A^{T} }[/math]的乘法——也就是超过一步的路径,自然,这个算法本质上就包含了共被引分析和共施引分析。因此,只要我们从直接引用网络开始,采用合适的聚类算法,我们就可以统一基于直接引用、共被引、共施引的这三种文章分类研究。其次,更进一步,配合上作者层和概念层,有可能可以使得我们的聚类更加合理。两篇文章中的一篇研究的概念和另一篇的研究概念如果逻辑上是紧密联系在一起的,自然,更加应该被放在同一个分类下面。总结一下,用这样的框架来看研究工作,可以更好地把不同的研究工作统一起来并且往往是逻辑上更加简单的形式,尽管可能是算法的角度来说更加复杂的形式。这样,整个科学学的工作就成了在这个框架内找到个描述数据、提出问题、提出定义和算法、检验答案。

此外,在这个框架中,由于我们把概念层明确地放到了框架里面,实际上,可以起到把论文的一部分内容信息那里做科学学分析的作用。大多数的目前的科学学分析,都基于文章的形式数据,也就是题录和引用数据,很少能够把文章的内容数据纳入到科学学研究框架之中。在我们这个框架中,学科的概念和概念之间的联系,以及文章到概念的对应,是非常重要的一层信息。当然,目前阶段在我们自己的研究工作中,我们采用文章到学科词汇表的数据来获取这个信息。将来还需要直接从学科概念来构建这一层的网络。不过,不管如何,这一层关于文章内容的信息,总是能够纳入这个研究的一般框架了。有了概念层,这个框架还可以用来研究论文创新性,例如是否一个论文提出了一个全新的概念,还是第一次把两个概念联系起来了。

不过,如何才能获得概念这一层以及从论文到概念的联系的数据,是一个很大的问题。这个问题的解决可能还需要新的分析技术甚至大量的人工干预,例如给每一篇文章做一个由自然语言处理得到或者是人工绘制的概念地图,例如给每一个学科也算法或者人工产生一个学科概念地图。

这个框架还可能能够帮助提高科学学关系数据本身的可靠性。例如,在目前的研究中,我们大多数时候把一篇文章的每一个施引都当成等权的。但是,实际上,我们很清楚大多数文章的核心引文,也就是思想、问题、方法、数据、结论的主要参考对象,是很少的,经常集中在少数几篇上。因此,引用是要区分的。有了这个多层网络框架,我们就有可能通过考虑概念层、作者层,以及论文引用层内的关系,来研究一个区分这些引用的算法。当然,这个工作本身还在开展中,而且就算有了算法,还需要做一个实践检验,还有很长的路要走。但是,这毕竟也是这个框架的一个可能的应用。再例如,作者姓名识别的问题,有了内容数据,也可能可以得到更准确的结果:很容易想象两个同名的作者通过领域的差别区分开来。

实际上这个描述数据、表达问题和探索方法的框架不仅仅可以用在科学活动的研究中,在专利技术的研发中照样可以使用,只需要把每一层相应地换成:发明人、专利和技术。更一般地,我们还可以考虑两个三层网络的结合:通过专利引用科学论文、科学论文引用专利,以及,通过学科概念和专利背后对应着的应用学科的概念,也就是技术相互联系。甚至,还可以结合作者层和发明人层的联系。也就是说,实际上,科学计量学的基本框架应该是一个六层网络。

更一般地来说,科学学,实际上是把这个多层网络的思想和分析方法,拓展到更一般的相互联系的系统中去,包含学科概念以及学科的教和学、科学的传播、科学研究、专利研发、产品生产和流通、企业国家等对科学和技术研发的投入,以及这几个方面的联系中去。

沟通教和学、研究、技术开发、产品研发和流通、研发基金的大科学学

图2就是这样一个多层网络框架,而且是每一个层面都可以有关系数据支持的这样一个框架。例如,在学科概念层面,顶点就是概念和连边就是概念之间的关系。在那里,我们要解决一个学科到底哪些概念是最值得和有必要教的,哪一些是应该进入教材学习者可以在必要的时候自己学一下就行的,哪一些甚至都不需要进入教材的。同时,这一层也将通过前面的“科学计量学多层网络”进入到科学计量学的研究中去。在科学计量学本身,则主要包含上一节提到的科学和技术六层网络上的数据、问题和分析方法。从这个科学计量学系统延伸出去,则是产品的研发对科学和技术系统的依赖和运用。在产品系统内部,则是经济学的研究内容,包含产品之间的生产上的依赖关系,产品通过流通和消费给企业和国家以及所有人带来的需求的满足以及利润。最后,实际上,从企业国家甚至个人,我们还会通过对科学和技术的研发投入来推动科学研究,通过学习和传播科学来促进科学的发展。因此,整个人类的文明的系统,从这个角度来看,应该是广义的大科学学的研究范畴。当然,科学计量学可能目前以研究中间那个六层网络上的问题数据和方法为主。

在这样的一个大科学学的框架里面,我们能够获取数据、提出和解决问题、发展方法吗?有这个可能性。

例如,我们能不能沟通研究论文到学科概念的教和学呢?例如,我们统计好这个学科的文章中出现的每个概念的使用频率,然后,有了概念之间的逻辑关系地图,我们就可以通过类似PageRank的算法,或者我们称为广义投入产出分析的技术[1] ,来回答哪些概念最值得教并且应该先教的问题。甚至,是不是有可能反过来通过学科的概念地图来定位每一篇文章的内容从而得到更加准确的评价。甚至,我们还可以考虑,是不是存在一种算法能够帮我们动态地更新学科概念地图,甚至对这个地图做更加合理的划分,从而来设计和定位新的学科体系和学科课程体系,以及论文自动分类。这就是学科教和学这个子系统和科学论文和技术专利计量学这个子系统之间的联系,融合这两个能够问和回答的新问题。

我们还可以考虑融合科学论文和技术专利计量学这个子系统和产品的研发、生产和流通这个字系统的融合。实际上,产品本身的生产和流通,是经济学的研究对象。例如经济学的Leontief投入产出分析就把这样的产品和生产企业分成了一定数目的类别——称为部门,然后通过部门之间的产品和货币的流动来讨论部门的重要性(影响力)以及如果某个部门发生了供给或者需求上的变化会如何影响整个经济的问题。一旦我们有了把科学论文和技术专利计量学和产品研发生产流通相结合的数据,我们就可以研究这样的问题:对于满足消费者的产品消费需求来说,哪一个科学领域或者技术部门是最有影响力的;一旦某个科学领域或者技术部门发生了产出或者投入上的变化,整个经济将如何相应;或者反过来,一旦某个产品发生某个供给或者需求上的变化,其对科学和技术的依赖和贡献将如何影响科学和技术;对于给定的某个产品来说,什么样的科学和技术是最重要的。

如果我们把政府的科技政策、经济政策也通过合适的数据纳入到这个框架,则,我们还可以讨论,科技和经济政策对科学技术和经济的影响的问题。

因此,我们看到这样的一个大科学学的框架,是一个可以沟通教和学、研究、技术开发、产品研发和流通、研发基金的框架,并且是可以通过获取数据来具体化的框架,有典型思维方式——系联性思考——和分析方法——例如PageRank类的广义投入产出分析、多路经的传播和叠加的框架,在数据需求不满足的情况下能够在合适的部分子系统截断从而仅仅研究这些有数据的子系统的框架,而不仅仅是一个关于这个学科涉及哪些研究领域的文字论断。

下面,我们将用几个具体的例子,他人的和自己的工作,来更具体地展示这个科学计量学多层网络框架和大科学学多层网络框架。

BigScitometrics.jpg

图2:大科学学的多层网络框架,核心思维方式还是系联性思考及其指导下发展的计算分析方法。这个一般框架可以用具体的关系数据来填充。其中的关系包含学科概念到学科概念之间的逻辑关系,科学研究三层(作者、论文、概念)网络关系,技术研发三层(发明人、专利、技术)网路关系,科学研究和技术研发之间的关系,从科学和技术到产品研发的关系,产品之间的生产关系,从企业利润和国家税收到科学技术研发经费之间的关系,从科学研究到科学概念的发展的关系,并且把这样的关系用于的学习和传播。

多层框架下的一些具体研究

展望

有特定的学科研究对象,并且有研究对象的比较一致的描述框架,有比较一致的表达问题的框架、有典型思维方式及其指导下的分析方法,对于任何一个学科的发展来说,都是很重要的。只要有了这样的框架,那么研究者就可以要么获取和整理新数据,要么提出新问题,要么提出新的分析方法,要么做问题解答以及分析方法的实践检验,分工合作来促进学科的发展。在本文中,我们就企图提出来这样的一个框架。具体这个框架到底有没有促进学科发展的价值,还有待于进一步检验,依赖于后续在这个框架下开展具体工作。

不过,这个框架体现的三条核心思想,应该说,对这个学科的发展的意义是不用怀疑的:第一、来自于网络科学的从关系数据的角度来给现象建模;第二、来自于网络科学的综合直接和间接关系的分析技术和思路;第三、通过引入概念层以及概念和论文、专利的联系来把内容数据纳入到研究框架内,从而突破主要以形式数据为基础的科学学。

随着进入科学学这个领域的物理学、网络科学、计算机科学的研究者以及他们带来的研究思想和分析方法在这个领域内的发展,大科学学的成长指日可期。

参考文献

  1. Zhesi Shen, Liying Yang, Jiansuo Pei, Menghui Li, Chensheng Wu, Jianzhang Bao, Tian Wei, Zengru Di, Ronald Rousseau, Jinshan Wu, Interrelations among scientific fields and their relative influences revealed by an input–output analysis, Journal of Informetrics 10, 82-97(2016). Doi:10.1016/j.joi.2015.11.002.

本分类目前不含有任何页面或媒体文件。