分类:Sci2100

来自Big Physics


这个标题的含义是Top 100 papers in Science of Science,[math]\displaystyle{ Sci^{2}100 }[/math](找人设计个图标)。这是分类:科学计量学多层网络构建和应用的一个具体应用,具体产品。

很多年前的F1000[1]其实和这个系统有相似之处,目前正在建设的Semantic Scholar的文献图[2]和这个系统也有相似之处。


最终产品的目的

一个帮助科学学学习者、研究者和科技管理者的网站。这个网站包含科学学领域推荐阅读论文、每篇论文的概念网络和WHWM(研究问题、方法、结果、对学科和世界的意义)、科学学概念网络(学科大图景、概念和大图景的联系)、论文到概念的标注、作者识别和作者师承关系标注。

如何帮助学习者

建立科学学的学科大图景(典型研究对象、典型研究问题、典型思维方式、典型分析方法、和世界还有其他学科的关系,历史的和当前的以及可预见的未来的),抓住和科学学大图景紧密相关的主要概念,利用概念联系以及概念和学科大图景的联系来做有方向感甚至有学习路径的理解型学习,学习和研究紧密结合,创造体验式学习(从前人研究工作中体会学科大图景)。

如何帮助研究者

知识发展的脉络和现状,把论文放到整个学科的大图景之中,把概念和科学研究结合起来,更容易发现未解决的问题,尤其是和学科大图景紧密相关的问题,和解决问题、创造知识。

有了科学学三层网络之后,我们可以在这个网络上做一些分析工作,来帮助科学家开展更好的科学研究。例如,计算出来任意两篇文章的相似性。这样,当科学家输入任意一篇文章的信息,我们就可以给出来和这篇文章紧密相关的其他文章。

如何帮助科技管理者

科技管理者的目标是更好地促进科学技术的发展。在我们所建立的学科概念网络、论文概念地图、论文点评、作者-论文-概念三层网络的基础上,我们可以构建辅助科技决策者决策的系统。例如,如果科技决策者已经有一个关注的概念或者一群概念,我们可以找出来这群概念对应的论文,甚至结合论文的地址信息,在世界地图上按照一定的粒度来现实相应的研究者群体;如果科技决策者已经有几个关注的也有研究者群体,例如一个大学或者一个国家,我们可以在学科概念网络上现实这个研究者群体的研究方向布局。这些信息都可以进一步显示时间演化。

更进一步,通过对点评、学科概念网络中概念和联系的网络地位分析,可以尝试对应该从某个角度来关心哪些概念、哪些群体,也做一个分析。例如,从发文热点的角度、学科基础性的角度、创新性的角度、技术潜力的角度,等等。

一个副产品:论文分类体系

我们得到的作者-论文-概念三层网络实际上也可以看做是一个论文分类体系:在某一个级别把概念网络做一个聚类,相应地,在每个类别下面的所有概念相对应的论文就是这个类别的论文。

也可以专门再做一个基于作者-论文-概念三层网络,甚至加上摘要或者全文的自然语言处理之后,得到的论文相似性(例如,得到矢量表示,然后计算矢量相思性),进而做聚类分析,或者用类似cwts算法的聚类,得到论文分类系统。

得到论文分类系统之后,可以用于做更好的分领域的论文评价指标的计算,可以用于论文可视化等。

数据和理论基础

  1. 知识表示:用概念网络的形式来呈现四层知识(事实性程序性知识、学科概念、学科大图景、一般性人类思维),突出层内和层间知识的联系
  2. 人类知识高速公路上以高层知识生成器为目标的理解型学习
  3. 科学:建立对象的数学模型(概念网络),在这个数学模型下把教和学、研究的问题变成一个算法问题,设计算法,实验和实践检验,帮助教和学,帮助研究
  4. 对科学学这个学科本身的认识,其大图景、核心论文、基本概念
  5. 论文数据来自于:核心团队成员手动精选的论文、草根用户上传和点评的论文
  6. 概念和概念关系数据来自于:专家手动精选,论文通过自然语言处理算法自动获取
  7. 网络科学,尤其是作者-论文-概念三层网络。更多信息见[3]科学学多层网络

建设方案

从学科出发

  1. 学科大图景
  2. 学科概念集合
  3. 学科概念关系
  4. 学科概念和大图景的关系
  5. 体现学科概念和大图景的相应的论文

从文献出发

  1. 构建精选文献集合,采用算法为主
  2. 对每一篇论文建立概念地图,围绕WHWM(说了什么,怎么说的,为什么说这个为什么这样说,对我有什么意义;解决了什么问题,如何解决的,为什么解决这个问题为什么这样解决,对学科的理论和时间以及我自己来说都有什么意义)

整合学科概念网络和论文概念网络

以学科概念网络为纲,把来自于每一篇论文的概念网络整合起来

网站设计

主要功能:

  1. 对于每一篇论文,
    1. 按照作者、标题、DOI等检索推荐集合内的论文
    2. 展示WHWM、概念地图等形式的点评,可以沿着概念地图走到其他论文,可以沿着引用关系走到其他论文
    3. 在学科概念网络中定位和呈现这篇论文
    4. 追热点程度、创新性、学科地位等其他指标
    5. 按照综合计算(作者-论文-概念三层网络,再加上摘要或者全文)出来的论文相似性,直接呈现论文相似性网络
    6. 综合计算,呈现类似地作者、类似的概念等
  2. 对于每一个作者,
    1. 可以通过作者姓名、论文标题、论文DOI、作者OCRID等检索
    2. 做个推荐论文列表
    3. 从作者可以走到概念
  3. 学科概念地图导览
    1. 以概念网络的形式浏览学科概念地图,缩放、检索
    2. 概念检测
    3. 概念学习顺序推荐,并推荐和概念相对应的论文
    4. 局部放大以后呈现作者-论文-概念三层网络
  4. 用户系统
    1. 接收来自用户的文献题录、点评、概念网络等信息的上传
    2. 给用户推荐论文供其阅读
  5. 辅助科技决策
    1. 给定领域,在世界地图上显示这个领域内的各个国家的论文、作者、被引次数等数量
    2. 给定研究者群体,例如一个国家、一个学校等,显示这个群体在概念网络上的论文、作者、被引次数等数量
  6. 机器人研究员实验室
    1. 知识洞发现算法,推送给用户分析结果,收集反馈
    2. 最基础、最核心、最热的研究问题的发现算法,推送给用户分析结果,收集反馈

将来,还可以进一步成为这个领域的科研众包协作平台,也就是大家一起来做研究:一起来读文献、一起来提出问题、一起来解决问题(问题的形式化描述、解决方法、算法等)、一起来凑资源(数据、劳动力等)。

同时,我们不仅仅可以在科学学这个领域建设起来这样一个科研众包协作平台,还可以在其他学科上,数学、物理、生命科学,建立这样的平台,建立一个甚至交叉和融合学科的平台。信息的爆炸性增长和人类寿命和纯信息处理能力的有限增长之间的矛盾,学科的分化和精深和来自于现实世界或者人类思维的问题的多学科多因素之间的矛盾,使得这样的众包协作平台非常有必要。

工作计划

  1. 梳理科学学学科概念网络
    1. 吴金闪建立基本框架
    2. 其他成员修改学科概念网络,补充论文
  2. 精选科学学核心论文100篇并做标注
    1. 通过算法来选择合适时间的科学学精选论文
    2. 本系统核心初创成员一起来做精选论文的标注
      1. 吴金闪做标注范例,其他成员修改,确定范例
      2. 每篇论文至少完成一次交叉检查
  3. 算法等基础研究
    1. 从论文全文挖掘概念、概念联系从而构建概念网络的算法
    2. 基于作者-论文-概念三层网络,再结合摘要或者全文,采用网络分析或者全文全元素矢量表示等算法,计算每篇文章的相似性
  4. 网站设计
    1. 网站功能设计
    2. 网站程序设计
  5. 多渠道推广工作

人员

预算和经费

吴金闪团队、杨立英团队、系统科学学院、教育系统科学研究中心



参考文献

  1. F1000
  2. Waleed Ammar, Dirk Groeneveld, Chandra Bhagavatula, Iz Beltagy, Miles Crawford, Doug Downey, Jason Dunkelberger, Ahmed Elgohary, Sergey Feldman, Vu A. Ha, Rodney Michael Kinney, Sebastian Kohlmeier, Kyle Lo, Tyler C. Murray, Hsu-Han Ooi, Matthew E. Peters, Joanna L. Power, Sam Skjonsberg, Lucy Lu Wang, Christopher Wilhelm, Zheng Yuan, Madeleine van Zuylen, Oren Etzioni. Construction of the Literature Graph in Semantic Scholar. NAACL-HLT 2018
  3. Jinshan Wu. "Infrastructure of Scientometrics:The Big and Network Picture." Journal of Data and Information Science, vol.4, no.4, 2019, pp.1-12. DOI: 10.2478/jdis-2019-0017

子分类

本分类只有以下子分类。