分类:科研IdeaFlow平台

来自Big Physics


背景

科学学的根本任务是帮助科学家更好地做科学研究,帮助科技管理者做更好地促进科学发展的管理,帮助教师和学生作更好的科学学习和传播。为了这个目的,科学学需要研究科学家(广义地,包含研究者、编辑、科技管理者、科学传播者等等)的行为和结果,以及记录这些行为的数据中通过分析方法发现实现这个目的的模式。作为科学学这个学科,分析方法和分析发现的模式,以及把所发现的模式用来构建真正实现上面的目的的系统,三个方面的任何一方面,都是非常重要的。

在这里,我们提出一个构建这样一个论文的阅读、写作、知识数理、研究问题的产生和选择的综合平台的想法,以及讨论其实现原理和实现路径,甚至具体实现的计划。

功能模块

核心理念和组件

这个综合平台最核心的想法是学科概念网络,也就是一个学科的概念们,通过概念之间的相互联系,所形成的网络。其中概念包含习惯上成为概念的一个学科所定义的概念,以及学科分析方法、学科思维方式等更高层的内容。任何一个具有一定成熟程度的学科,概念之间都是紧密联系的:某一些最基本的定义和思维是其他概念的基础,更复杂的定义以及研究发现(定理定律等)通常是在这些最基本的概念的基础之上构建起来的,甚至学科分析方法和思维方式,也是在这个学科的专家在面对和解决这个学科的典型问题的过程中提炼出来的。

那么这个概念网络如何获得呢?依靠每一个研究者在阅读和使用文献过程中作标注和提交到系统(以及一个方面研究者这样做的系统和鼓励研究者这样做的制度设计),以及依靠算法来从研究论文等文档材料中构建这个概念网络。

文献阅读平台:概念网络的获得

直接来说,为了帮助研究者把参考文献管理——对文献的获得、评论、标注、分类、写作时的使用——做到网络上,方便任何时候都能够获得,我们会(可能的话,在开源系统的基础上,仍然保持开源)构建一个文献阅读平台。不过,具有这部分“对文献的获得、评论、标注、分类、写作时的使用”的功能的文献阅读平台,已经基本上有了。

我们的阅读平台,在现有软件基础上,增加一个其他读者看到同样的一个词、一句话、一段、一篇文章怎么看的功能。也就是说,读者可以选择分享自己所作的评论、标注、分类,然后,系统会在大量用户的这些标记的基础上,推送到正在阅读文章的有参考以下他人的标注信息的需求的读者。

但是,这个文献阅读平台更加重要的功能是通过收集这些用户同意提交的标注,我们来获得这些论文背后的概念(定义、公理)和概念联系(定理、定律、研究结果),以及将来供算法来自动发现论文背后的概念和概念联系的训练数据。例如,某读者在论文的某个地方(行号,行内第几个字到第几个字;或者用某种信息不依赖于特定断行格式的字词定位系统)点出来了这是一个概念(尤其是这篇文章的主要概念),或者标注出来了这句话是其主要结论。

对于读者来说,除了有了一个通常的参考文献管理平台,其所作的标注和分享,有助于其他人来更好地阅读这篇论文,同样地,也从其他人的标注中受益。当然,受启发提出的新的idea等敏感信息,用户可以选择不分享。

对于我们平台方来说,我们有了一个获取用户对论文的概念、概念关系、研究问题、研究方法、研究结论、整体质量等方面的标注的渠道,有了将来用于训练从论文识别出来概念网络的算法的数据。

当然,在没有这个从读者收集阅读过程数据的平台的条件下,我们的整个系统的其他模块仍然可以运行。

概念网络的可视化和高级功能

有了这个概念网络又如何帮助我们实现这个论文的阅读、写作、知识数理、研究问题的产生和选择的综合平台呢?

首先,我们会对这个概念网络作一个可视化,在概念网络的基础上,给概念和概念间联系配上相应的论文,给论文配上作者、工作单位、基金组织等信息。这就是我们提出的科学学作者-论文-概念三层网络[1]:概念之间有逻辑关系、论文之间有引用关系、作者之间有师承关系,作者写作论文呢、论文工作在概念上。有了这个科学学三层网络的视觉形式,我们就可以更好地来开展科学研究、科技管理、以及科学传播的工作。例如,科学家通过这个网络可能更容易看到知识洞,不管是这个学科概念体系内部的逻辑上的知识洞,还是从这个学科本来就应该面对和解决的问题到这个学科已有的概念方法思维等解决问题的手段之间的知识洞。同时,科学家在作文献调研的时候,可以非常方便地在论文引用网络中游走,往下到在论文背后的概念网络中游走,往上从论文走到研究者,再走到研究者的其他论文,再到其他的概念。对于科技管理者,如果其关注的对象是学术机构或者基金组织,则可以直接把学术机构、基金组织和概念网络联系起来,看到各个值得参考的学术机构和基金组织主要在哪些研究问题上做布局。对于教师和学生,可以看到哪些概念是最值得教和学的,应该按照什么样的顺序来教和学,甚至直接对原始论文做简化来做“创造体验式学习”——也就是在原始论文的启发下自己来发现和使用知识来解决问题从而学会这些知识。

接着,对于这个科学学三层网络,我们可以针对上面的科学家、科技管理者、科技传播者的个体层面的对科学学三层网络的典型应用,做问题的抽象化一般化,发展一些算法用于辅助科学家选择研究问题和研究方法,用于科技管理者做科技管理的决策,用于教师和学生来更好地教和学这个学科做科学传播。例如结构洞的定义和发现,个性化的三层网络的随即行走,提出可能的研究问题供科学家决策的研究机器人,辅助科学传播的学习顺序算法和检测算法等。

这个三层网络还可以用于帮助科学学实现从传统的基于引用关系这个形式数据的科学学都到基于内容的科学学的迁移。例如,目前关于论文的学科分类,以及基于分类的评价,还有基于分类的学科交叉性的研究,主要都基于对论文所发表的期刊的分类,或者基于引文网络的分类。期刊分类和引文实际代表了学术上的idea flow这两者的准确程度都不太高。因此,这种的基于形式数据的科学学天生就有很大的限制。如果我们要突破这个限制,我们只有知道每篇论文的研究内容,也就是研究问题、研究方法、研究结论、主要概念、主要结果(定理、定律)、创新性(知识增量),才能做真正帮助到科学家、科技管理者、科学传播者的科学学。

回到前面的论文阅读平台,论文写作

原理和技术线路

参考文献

  1. Jinshan Wu. "Infrastructure of Scientometrics:The Big and Network Picture." Journal of Data and Information Science, vol.4, no.4, 2019, pp.1-12. DOI: 10.2478/jdis-2019-0017

子分类

本分类只有以下子分类。

S