分类:科研IdeaFlow平台

来自Big Physics


背景

科学学的根本任务是帮助科学家更好地做科学研究,帮助科技管理者做更好地促进科学发展的管理,帮助教师和学生作更好的科学学习和传播。为了这个目的,科学学需要研究科学家(广义地,包含研究者、编辑、科技管理者、科学传播者等等)的行为和结果,以及记录这些行为的数据中通过分析方法发现实现这个目的的模式。作为科学学这个学科,分析方法和分析发现的模式,以及把所发现的模式用来构建真正实现上面的目的的系统,三个方面的任何一方面,都是非常重要的。

在这里,我们提出一个构建这样一个论文的阅读、写作、知识数理、研究问题的产生和选择的综合平台的想法,以及讨论其实现原理和实现路径,甚至具体实现的计划。

为什么叫科研IdeaFlow平台

研究者从教材、课程和老师那里学会基础知识,从前人的论文和现实中提出问题、解决问题,从而创造知识,分享知识成为供其他人进一步参考的知识,科技传播者辅助把这些知识做更好的传播,科技管理者辅助科学家和科技传播者把这些idea的创造和传播做得更好。因此,整个科学事业,在概念网络的生长、应用和传播的角度看来,正好就是idea的流。我们的平台旨在更好地促进这个流。

功能模块

核心理念和组件

这个综合平台最核心的想法是学科概念网络,也就是一个学科的概念们,通过概念之间的相互联系,所形成的网络。其中概念包含习惯上成为概念的一个学科所定义的概念,以及学科分析方法、学科思维方式等更高层的内容。任何一个具有一定成熟程度的学科,概念之间都是紧密联系的:某一些最基本的定义和思维是其他概念的基础,更复杂的定义以及研究发现(定理定律等)通常是在这些最基本的概念的基础之上构建起来的,甚至学科分析方法和思维方式,也是在这个学科的专家在面对和解决这个学科的典型问题的过程中提炼出来的。

那么这个概念网络如何获得呢?依靠每一个研究者在阅读和使用文献过程中作标注和提交到系统(以及一个方面研究者这样做的系统和鼓励研究者这样做的制度设计),以及依靠算法来从研究论文等文档材料中构建这个概念网络。

一旦有了这个学科概念网络,我们就可以把这个概念网络如何服务于科学、科技管理者、科技传播者做抽象和建模,变成这个网络上的算法问题。

有了相应的算法,我们就可以构建下面的几个具体应用平台,来发挥这个概念网络的力量,包含:论文阅读平台、论文写作平台、研究辅助平台、科技管理辅助决策平台、教和学辅助平台、论文评审和发表平台。

文献阅读平台:概念网络的获得

直接来说,为了帮助研究者把参考文献管理——对文献的获得、评论、标注、分类、写作时的使用——做到网络上,方便任何时候都能够获得,我们会(可能的话,在开源系统的基础上,仍然保持开源)构建一个文献阅读平台。不过,具有这部分“对文献的获得、评论、标注、分类、写作时的使用”的功能的文献阅读平台,已经基本上有了。

其中的点评数据,结合论文分类(在下面的作者-论文-概念三层网络模块会进一步讨论),我们可以提供一个论文上的“大众点评、Yelp”功能。尤其是对于综述文献,这个分类排序推荐功能对于初入门研究者或者开展交叉科学研究的研究者非常重要。

我们的阅读平台,在现有软件基础上,增加一个其他读者看到同样的一个词、一句话、一段、一篇文章怎么看的功能。也就是说,读者可以选择分享自己所作的评论、标注、分类,然后,系统会在大量用户的这些标记的基础上,推送到正在阅读文章的有参考以下他人的标注信息的需求的读者。

但是,这个文献阅读平台更加重要的功能是通过收集这些用户同意提交的标注,我们来获得这些论文背后的概念(定义、公理)和概念联系(定理、定律、研究结果),以及将来供算法来自动发现论文背后的概念和概念联系的训练数据。例如,某读者在论文的某个地方(行号,行内第几个字到第几个字;或者用某种信息不依赖于特定断行格式的字词定位系统)点出来了这是一个概念(尤其是这篇文章的主要概念),或者标注出来了这句话是其主要结论。

对于读者来说,除了有了一个通常的参考文献管理平台,其所作的标注和分享,有助于其他人来更好地阅读这篇论文,同样地,也从其他人的标注中受益。当然,受启发提出的新的idea等敏感信息,用户可以选择不分享。

对于我们平台方来说,我们有了一个获取用户对论文的概念、概念关系、研究问题、研究方法、研究结论、整体质量等方面的标注的渠道,有了将来用于训练从论文识别出来概念网络的算法的数据。

当然,在没有这个从读者收集阅读过程数据的平台的条件下,我们的整个系统的其他模块仍然可以运行。

概念网络的可视化和高级功能

有了这个概念网络又如何帮助我们实现这个论文的阅读、写作、知识数理、研究问题的产生和选择的综合平台呢?

首先,我们会对这个概念网络作一个可视化,在概念网络的基础上,给概念和概念间联系配上相应的论文,给论文配上作者、工作单位、基金组织等信息。这就是我们提出的科学学作者-论文-概念三层网络[1]:概念之间有逻辑关系、论文之间有引用关系、作者之间有师承关系,作者写作论文呢、论文工作在概念上。有了这个科学学三层网络的视觉形式,我们就可以更好地来开展科学研究、科技管理、以及科学传播的工作。例如,科学家通过这个网络可能更容易看到知识洞,不管是这个学科概念体系内部的逻辑上的知识洞,还是从这个学科本来就应该面对和解决的问题到这个学科已有的概念方法思维等解决问题的手段之间的知识洞。同时,科学家在作文献调研的时候,可以非常方便地在论文引用网络中游走,往下到在论文背后的概念网络中游走,往上从论文走到研究者,再走到研究者的其他论文,再到其他的概念。对于科技管理者,如果其关注的对象是学术机构或者基金组织,则可以直接把学术机构、基金组织和概念网络联系起来,看到各个值得参考的学术机构和基金组织主要在哪些研究问题上做布局。对于教师和学生,可以看到哪些概念是最值得教和学的,应该按照什么样的顺序来教和学,甚至直接对原始论文做简化来做“创造体验式学习”——也就是在原始论文的启发下自己来发现和使用知识来解决问题从而学会这些知识。

接着,对于这个科学学三层网络,我们可以针对上面的科学家、科技管理者、科技传播者的个体层面的对科学学三层网络的典型应用,做问题的抽象化一般化,发展一些算法用于辅助科学家选择研究问题和研究方法,用于科技管理者做科技管理的决策,用于教师和学生来更好地教和学这个学科做科学传播。例如结构洞的定义和发现,个性化的三层网络的随即行走,提出可能的研究问题供科学家决策的研究机器人,辅助科学传播的学习顺序算法和检测算法等。

这个三层网络还可以用于帮助科学学实现从传统的基于引用关系这个形式数据的科学学都到基于内容的科学学的迁移。例如,目前关于论文的学科分类,以及基于分类的评价,还有基于分类的学科交叉性的研究,主要都基于对论文所发表的期刊的分类,或者基于引文网络的分类。期刊分类和引文实际代表了学术上的idea flow这两者的准确程度都不太高。因此,这种的基于形式数据的科学学天生就有很大的限制。如果我们要突破这个限制,我们只有知道每篇论文的研究内容,也就是研究问题、研究方法、研究结论、主要概念、主要结果(定理、定律)、创新性(知识增量),才能做真正帮助到科学家、科技管理者、科学传播者的科学学。

回到前面的论文阅读平台,一旦我们把作者-论文-概念三层网络,在阅读到某个概念的时候,我们的系统可以推荐跟这个概念相关的基础性论文、开创性论文、综述性论文、重要进展论文、最新的论文等。因此,除了提供其他用户的点评数据,我们的作者-论文-概念三层网络还可以提供给前面的阅读平台论文分类数据。

论文写作平台

在这个平台上,我们基于学科概念网络来识别用户写作时候用到的概念,或者在用户主动提出相应的概念的要求的情况下,提供和这个概念相关的论文以及这个概念的解释。通过这样的写作,尤其是草稿阶段、项目计划书阶段的写作,甚至可以起到帮助用户更好地开展研究,尤其是在文献调研总结阶段,的作用。

论文评审和发表平台

基于我们的作者-论文-概念三层网络,我们可以把论文更准确地推荐给合适的审稿人,我们可以更加给论文的核心贡献(研究问题、研究方法、研究结果、应用案例,哪里有最大大的新意)做一个基于算法的推荐,甚至给这篇论文识别出来一个概念网络,把它放到整个知识网络的中间去看这篇文章的贡献,同时也就解决了论文的学科分类的问题。

原理和技术线路

为了实现这个系统,我们需要

  1. 构建作者-论文-概念三层网络的算法。当然,在发展算法的阶段,我们可以这样来构建和发展这个系统:
    1. 在小数据集上用人工标注
    2. 以及依赖草根用户的反馈数据
  2. 对论文按照概念网络做学科分类的算法
  3. 对论文做在某个给定概念上属于基础性论文、开创性论文、综述性论文、重要进展论文、还是最新论文的分类的算法
  4. 作者-论文-概念三层网络可视化以及用于辅助科学家、科技管理者、科学传播者的算法
    1. 发现知识洞的算法
    2. 用于辅助科技决策者决策的算法,例如呈现各个学术机构和基金单位的科研布局等
    3. 帮助科学传播者的学习顺序算法和检测算法
  5. 服务于论文阅读平台的整理聚合推荐用户点评、标注的算法
  6. 服务于论文写作平台的用户写作论文时推荐概念和论文的算法
  7. 基于概念网络的论文评审和发表体系
  8. 整体系统的设计和编程实现,以及推广

为什么可能做成功?

首先,这些事情,本来就是每个研究者、科技管理者、科技传播者本来就在做的,不过就是基于个人经验在做,并且做完了之后,其成果(论文点评、论文主要贡献标注、论文呢概念和概念关系的识别等)最多仅供其个人使用,或者其个人也仅仅在短时间内使用。因此,实际上,这里不增加每个使用者的负担,仅仅要求使用者把这些做的事情明确记录下来,选择其中的一部分来共享。

其次,这样的共享,结合我们的框架、算法和系统,可以大大促进科学家、科技管理者、科技传播者的工作效率。

接着,我们的系统的设计具有模块化特性,任何一个模块,都不完全依赖于其他模块的成熟程度。例如,如果我们仅仅做一个论文的点评系统,则这个点评系统也能够单独发挥作用。例如,如果我们仅仅发布学科概念网络,则至少在启发研究者选择研究问题,启发教师和学生来更好地做教和学上,也能起到很大的作用。当然,各个模块配合起来,会使得这个系统整体发挥更大的作用,以及更好地利用这个系统自身积累的数据。目前,我们计划把点评系统和学科概念地图结合的系统先做和发布出来,见Sci2100

最后,我们的团队成员都是有品位、愿意投入死力气、希望促进科学学这个学科的发展和促进整体科学的发展的人。

研究计划

参考文献

  1. Jinshan Wu. "Infrastructure of Scientometrics:The Big and Network Picture." Journal of Data and Information Science, vol.4, no.4, 2019, pp.1-12. DOI: 10.2478/jdis-2019-0017

子分类

本分类只有以下子分类。

S