分类:以种子和传递为基础的创新性可靠性追热点程度度量

来自Big Physics


研究背景

度量科学研究工作的创新性、可靠性和追热点程度,是科学学的重要任务。一般来说,我们希望在整个科学学多层网络结构之上,建立起来一个内生性的度量。例如,从一篇文章所研究的问题和所得到的结论以及所运用的方法是否创新的角度来看其创新性。因此,需要识别文章的研究问题、结论、研究方法,然后放到所有在这篇论文发表之前的其他论文的研究问题、结论、研究方法的背景上面来看其多大程度上是新的。不过,这个研究思路需要先构建好科学学多层网络,尤其是把论文和包含“研究问题、结论和研究方法”的概念层对上。也可以换一个角度,试试,是不是从论文引用网络的角度来试试度量创新性。不过目前,这方面没有特别好的指标。Disruptive指数——看一篇论文是不是终结了某个主题的引用流动,从这篇文论之后这个方面的研究基本引用这篇论文而不是这篇论文的参考文献——以及它的推广可以看做一定程度上有这个意思。不过,这个方法最多也是从侧面描述了创新性,而不是向第一个方法这样的直接解决。

类似的,论文的可靠性也难以度量。尽管论文评审原则上已经剔除了有错误的论文,但是,是不是能够发表的都比较可靠,就算都可靠能不能有一个可靠程度的区分?论文的追热点程度会是一个很有意思的指标,因为大多数的论文可能都是冲着某个最近兴起的热点问题、热点方法来研究的,而不是坚持研究者自身的兴趣和价值判断。甚至,在基金申请书上这个表现更强:一般来说,太过原创和超前的研究,很容易在审稿阶段被消灭。之前我们的追热点指数的计算方法只能用于一个集合的论文的追热点程度的计算,单篇文章是不能用的。

现在,我们来换一个全新的思路看上面的三个问题:我们不再寻求完全内生的度量,而是寻找一个从一批种子开始的度量;如果更进一步,我们有确定种子的方法或者有给定的可信的种子,那问题也同样能够解决。

研究思路

假设我们有了一批种子论文的创新性评分,例如所有Nobel奖的工作的论文。我们来从这批论文开始,向着其参考文献、参考文献的参考文献、参考文献的参考文献的参考文献、......传播起来,是不是就一定程度上得到了其他论文创新性呢?当然,传播可以有衰减系数。

假设我们有了一批种子论文的可靠性评分,例如所有Nobel奖的工作的论文。我们来从这批论文开始,向着其施引文献、施引文献的施引文献、施引文献的施引文献的施引文献、......传播起来,是不是就一定程度上得到了其他论文可靠性呢?当然,传播可以有衰减系数。

假设我们有了一批种子论文的热点程度评分,例如一段时间内最高被引的论文。我们来从这批论文开始,向着其施引文献、施引文献的施引文献、施引文献的施引文献的施引文献、......传播起来,是不是就一定程度上得到了其他论文追热点程度呢?当然,传播可以有衰减系数。

其实,这个从种子开始的思想在网站的可信赖程度评分算法[1]中就已经提出来了。其本质就是包含外界的PageRank、CheiRank、投入产出分析。

下一步工作

  1. 文献调研,
  2. 研究确定种子的方式
  3. 研究如何对算出来的结果做检验
  4. 结合基金申请数据(受资助人和不受资助人列表)[2]还可以对比受资助人和不受资助人的申请书和后期研究在创新性、可靠性、追热点程度上的对比
  5. 如果方法性研究取得成功,则将来还可以考虑用这些度量来做论文推荐:用户搜索关键词,或者基于用户兴趣画像,来给用户推荐相关度高的论文

参考文献

  1. Zoltan Gyoengyi, Hector Garcia-Molina, Jan Pedersen, Combating Web Spam with TrustRank, http://www.vldb.org/conf/2004/RS15P3.PDF
  2. Yang Wang, Benjamin F. Jones, Dashun Wang, Early-career setback and future career impact, Nature Communications volume 10, Article number: 4331 (2019). https://www.nature.com/articles/s41467-019-12189-3

本分类目前不含有任何页面或媒体文件。