分类:引用骨架挖掘

来自Big Physics
Jinshanw讨论 | 贡献2019年3月10日 (日) 11:47的版本


研究背景

引用骨架挖掘就是指从所有的引用关系中,发现,真正的基础性,代表知识传递、融合的那些引用。引用是科学学中最重要的关系之一(其他还有作者-论文“写作”关系、论文-主题“工作在”关系)。一篇文章的引用次数就好像是一个产品在经济系统里面的价格。但是,由于学科引用传统等差异,各个学科的并不能直接相比较,也就是需要一个汇率转换。另外,很多时候,引用表示“我已经看过这个文献”,而不一定是“它是我这个工作的基础”。因此,如何把引用骨架识别出来就成了一个科学学研究的基本问题。

引用骨架挖掘的问题可以表达成给每一条引用边一个权重的问题。从某一篇施引文献p开始,例如,目前常用的不区分的方式就是给它的引文同样的权重,也就是[math]\displaystyle{ \left[1,1,\cdots,1\right] }[/math]。施引方归一就是给它们这样的区中[math]\displaystyle{ \frac{1}{r_{p}}\left[1,1,\cdots,1\right] }[/math],其中[math]\displaystyle{ r_{p} }[/math]就是p的总参考文献数量。还有的研究者主张(缺参考文献)按照引文在文章中出现的总次数来给权重,例如,[math]\displaystyle{ \frac{1}{r_{p}}\left[c_1,c_2,\cdots,c_{r_{p}}\right] }[/math]。还有的研究者提出来需要考虑在哪里引用,以及施引文章和被引文章之间的某种相似性(见[1]的引文)。那么,问题来了,有没有一个综合考虑这些因素找出来哪些因素最管用,并且更进一步做好这样一个识别骨架的算法和产品的呢?[2]

可能的简化网络方法(希望保留“真”引用)

或者,能不能换一个思路,在给权重和不给权重的引文网络上,做一下边的某种权重算法,例如把[PageRank]放在边上,这样来进一步区别边呢?[3]就研究了PageRank和LDA等技术是否能够更好地区分真是真实的问题。

另一个方法是通过压缩引文网络的边,最好能够只保留有学术影响意义的引文。这样的保留方式有很多种,比如,如果两篇存在引用关系的论文,被第三篇引用,可以仅仅保留第三篇到最早的第一篇文献的引用(这个相当于[4]里面的Transitive Reduction(保连通性删边?)),或者仅仅保留第三篇到较晚的第二篇文献的引用,甚至考虑机器学习的自动特征提取[1]。更多的关于[1]可能的进一步研究,见Measuring academic influence: Not all citations are equal

甚至,可以考虑第二篇和第三篇文章,到底哪一篇的创新性(例如用disruptive指数)比较高,然后保留比较高的那个。

补充信息:Disruptive指数的矩阵形式和拓展

考虑当论文[math]\displaystyle{ i }[/math]在被论文[math]\displaystyle{ j }[/math]引用的时候多大程度上代表[math]\displaystyle{ j }[/math]是建立在[math]\displaystyle{ i }[/math]的基础上。这个时候,可以区分[math]\displaystyle{ j }[/math]是否引用了其他文章,尤其是[math]\displaystyle{ j }[/math]是否引用了[math]\displaystyle{ i }[/math]的参考文献([math]\displaystyle{ i }[/math]的父辈),甚至[math]\displaystyle{ j }[/math]的爷爷(参考文献的参考文献)。实际上,这就是Disruptive指数的含义,考虑参考文献的参考文献,则是对这个指数的推广。其数学形式如下:

[math]\displaystyle{ A^{i}_{j}A^{k}_{j}A^{k}_{i}=\lt i|AA^{\dag}A|i\gt }[/math] [math]\displaystyle{ A^{i}_{j}A^{i}_{l}A^{l}_{m}A^{m}_{j}=\lt i|AA^{\dag}AA|i\gt }[/math]


甚至可以考虑上面两段的结合,在最近保留和最远保留的网络上,以及原始的引用网络上试试广义投入产出,看看这几个网络下差别最大的那些顶点是哪些,是不是能够反映那些顶点的创新性,或者用来找到真引用?

另一个关键问题是,判断那种算法的结果最好的标准是什么?文献[1]收集了一个作者自己标注哪些引用是有实质学术影响的引用的数据,可以供进一步中暂时当做判断标准研究使用,见数据集

考虑依靠整个社区的力量,自己来构建一个基础数据集?把每一篇网络科学或者科学计量学的文章的引用做标记,例如直接问题基础、直接方法基础、直接结论基础(拓展、相反)、直接数据基础,间接文献等标记。

参考文献

  1. 1.0 1.1 1.2 1.3 Xiaodan Zhu, Peter Turney, Daniel Lemire & André Vellino, Measuring academic influence: Not all citations are equal, Journal of the Association for Information Science and Technology, 66(2), 408, DOI: http://doi.org/10.1002/asi.23179
  2. Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa
  3. Munui Kim Injun Baek Min Song, Topic diffusion analysis of a weighted citation network in biomedical literature, JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960
  4. James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, Transitive reduction of citation networks, J Complex Netw (2015) 3 (2): 189-203. DOI: https://doi.org/10.1093/comnet/cnu039