分类:综述文献的作用

来自Big Physics


问题背景

综述文献是一类特殊的文献,它们从大量的具体研究工作中整理出来一些线索,启发下一步的研究。对于学科的发展和成熟,对于新入门的研究者的打开视野和初窥门径甚至问题选择都是非常有意义的。一方面,由于具体研究工作被综述文献收集、评述和整理了,可能可以促进这些文献得到更多的引用。但是,同时,另一方面,很多的引用,可能就仅仅引用综述文献而不是原来的具体研究工作了。因此,研究一下综述文献对领域发展的作用,对具体研究工作影响力扩散的作用,就是一个很有意思的问题。甚至,如果发现一些有意思的现象,甚至可以改进综述文献的某些形式,使得其好的作用得到更好的发挥,不好的作得到一定的抑制。

下面的具体计算指标都比较粗糙,但是,是沿着回答上面两个问题——综述文献对学科发展的影响、综述文献对具体研究工作影响力扩散的影响——的思路的。

具体指标

看一看综述文献的被引次数分布函数是否和普通文献的被引次数分布类似。看一看综述文献是否撑起来所在的期刊的影响因子——包含和去掉这些综述文献计算影响因子来比较。

看一看一个子学科的体量(论文数量、被引次数、作者数量)和这个子学科的综述文献体量(综述数量、被引次数)的相关性。

看一看在其他论文施引综述论文的时候,多大的比例,这篇综述论文是和它自己的参考文献一起被引用的;多大程度上,这篇综述论文是单独被引用的。这个同时还可以更加细分,考虑是不是在同一段话或者同一句话里面,还是整篇文章。一个可能存在大量误杀的统计指标是,只要一篇文章的参考文献列表里面同时出现综述论文和这边综述论文的参考文献,但是没有放到一起引用的,都算综述论文替代了综述论文的参考文献被引用。

看一看综述论文的参考文献列表中的论文,在进入综述论文之前和之后,有没有被引次数上的改变;进入之后,多大的比例其被引用的时候,是和综述文献放在一起被引用的。

看一看一篇文章被综述文献引用的时间和被其他一般文献引用的时间上有没有差别(也就是综述文献的参考文献的年龄分布、普通论文的参考文献的年龄分布)。

其实也就是做一个领域(综述文献所引用文章、综述文献所引用文章的作者、综述文献的作者)被引用次数(以及论文数量、作者数量)的时间演化曲线,然后在相应的时间点上标上这个领域(引用这个作者的、引用这篇文章的、这个综述文献的作者的)综述文献。这样就可以看到这个发表综述论文的事件,对领域大小、总数文献作者被引次数、综述文献所引用的论文的被引次数、综述文献所引用的论文的作者的被引次数和论文数量的影响。

甚至,有了这些影响的数据之后,可以考虑看看是否存在影响的统计规律。

综述文献在文献聚类上的作用

被综述文献引用的论文很可能是处于一个共同的小领域的。这样的论文之间被综述论文引用(同被——综述文章——引关系)带来的更加紧密的聚类关系是不是能够被某个算法自然低考虑进去,还是说,可以设计某个算法来用好这个信息。让随机行走一定程度上有返回,应该可以在这方面发挥一定的作用,顺便,有返回的随机行走也解决了综合考虑基于直接引用、共被引、共施引的聚类问题。

综述文献是否可以用于衡量普通文章的影响力

普通文章被综述文章引用的次数,是否很大程度上,和这篇文章的总被引次数相关?甚至可以在计算被综述文献引用的次数的时候一定程度上考虑间接效益(加权平均,被引次数高的综述文献权重高)。

综述文献的识别

为了研究综述文献的作用,首先,我们得能够把综述文献识别出来。当然,目前,WoS等数据库对综述文献已经有大概过得去的算法标注了。我们希望能够做到更准确。这个任务就是需要用机器学习,包括自然语言处理的技术,来完成了。目前,我们正在开展这个技术的研究。训练集数据已经准备好(见数据集),包含每一篇文章的标题、期刊、摘要、关键词、页码、参考文献数量、被引次数、是否被标注为综述等。不过,这个数据可能有不准确的地方,需要想办法做到:第一,把其中准确的选出来;第二,从中训练出来识别更多论文的机器。

本分类目前不含有任何页面或媒体文件。