分类:引用骨架挖掘

研究背景

引用骨架挖掘就是指从所有的引用关系中，发现，真正的基础性，代表知识传递、融合的那些引用。引用是科学学中最重要的关系之一（其他还有作者-论文“写作”关系、论文-主题“工作在”关系）。一篇文章的引用次数就好像是一个产品在经济系统里面的价格。但是，由于学科引用传统等差异，各个学科的并不能直接相比较，也就是需要一个汇率转换。另外，很多时候，引用表示“我已经看过这个文献”，而不一定是“它是我这个工作的基础”。因此，如何把引用骨架识别出来就成了一个科学学研究的基本问题。

引用骨架挖掘的问题可以表达成给每一条引用边一个权重的问题。从某一篇施引文献p开始，例如，目前常用的不区分的方式就是给它的引文同样的权重，也就是[math]\displaystyle{ \left[1,1,\cdots,1\right] }[/math]。施引方归一就是给它们这样的区中[math]\displaystyle{ \frac{1}{r_{p}}\left[1,1,\cdots,1\right] }[/math]，其中[math]\displaystyle{ r_{p} }[/math]就是p的总参考文献数量。还有的研究者主张（缺参考文献）按照引文在文章中出现的总次数来给权重，例如，[math]\displaystyle{ \frac{1}{r_{p}}\left[c_1,c_2,\cdots,c_{r_{p}}\right] }[/math]。还有的研究者提出来需要考虑在哪里引用，以及施引文章和被引文章之间的某种相似性（见^[1]的引文）。那么，问题来了，有没有一个综合考虑这些因素找出来哪些因素最管用，并且更进一步做好这样一个识别骨架的算法和产品的呢？^[2]

可能的简化网络方法（希望保留“真”引用）

或者，能不能换一个思路，在给权重和不给权重的引文网络上，做一下边的某种权重算法，例如计算边的Betweenness或者把[PageRank]放在边上，这样来进一步区别边呢？^[3]就研究了PageRank和LDA等技术是否能够更好地区分真是真实的问题。

另一个方法是通过压缩引文网络的边，最好能够只保留有学术影响意义的引文。这样的保留方式有很多种，比如，如果两篇存在引用关系的论文，被第三篇引用，可以仅仅保留第三篇到最早的第一篇文献的引用（这个相当于^[4]里面的Transitive Reduction（保连通性删边?）），或者仅仅保留第三篇到较晚的第二篇文献的引用，甚至考虑机器学习的自动特征提取^[1]^[5]^[6]^[7] 。更多的关于^[1]可能的进一步研究，见Measuring academic influence: Not all citations are equal。

甚至，可以考虑第二篇和第三篇文章，到底哪一篇的创新性（例如用replaceability指数,disruptive指数）比较高，然后保留比较高的那个。

最近一篇网络简化方法的文章^[8]，可能也可以参考。

基于边重要性度量的去边

对边做betweenness计算或者PageRank边本征值计算，来区别引用，只保留某个值以上的边。甚至可以考虑augumented边介数，也就是给每一条最短路径一个权重，例如两个顶点的引用次数的乘积。这时候看看选择出来的边怎样，是不是和某个ground truth相符。

基于全文和引文word2vec构建引文推荐

这个技术来源于文章主题识别，就是通过全文的word2vec、或者全文和引文结合的word2vec，来计算每一篇文章的相似性，以及每篇文章的某种重要性，然后，对于给定篇章，推荐合适的参考文献。为什么可以用于骨架识别呢？那些出现在推荐列表中的论文是不是可以当做真引用？

甚至可以考虑上面两段的结合，在最近保留和最远保留的网络上，以及原始的引用网络上试试广义投入产出，看看这几个网络下差别最大的那些顶点是哪些，是不是能够反映那些顶点的创新性，或者用来找到真引用？

另一个关键问题是，判断那种算法的结果最好的标准是什么？文献^[1]收集了一个作者自己标注哪些引用是有实质学术影响的引用的数据，可以供进一步中暂时当做判断标准研究使用，见数据集。

考虑依靠整个社区的力量，自己来构建一个基础数据集？把每一篇网络科学或者科学计量学的文章的引用做标记，例如直接问题基础、直接方法基础、直接结论基础（拓展、相反）、直接数据基础，间接文献等标记。

参考文献

↑ ^1.0 ^1.1 ^1.2 ^1.3 Xiaodan Zhu, Peter Turney, Daniel Lemire & André Vellino, Measuring academic influence: Not all citations are equal, Journal of the Association for Information Science and Technology, 66(2), 408, DOI: http://doi.org/10.1002/asi.23179
↑ Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa
↑ Munui Kim Injun Baek Min Song， Topic diffusion analysis of a weighted citation network in biomedical literature， JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960
↑ James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, Transitive reduction of citation networks, J Complex Netw (2015) 3 (2): 189-203. DOI: https://doi.org/10.1093/comnet/cnu039
↑ Saeed-Ul Hassan, Mubashir Imran, Sehrish Iqbal, Naif Radi Aljohani and Raheel Nawaz. Deep context of citations using machine-learning models in scholarly full-text articles. SCIENTOMETRICS 117(3), 1645-1662(2018), 10.1007/s11192-018-2944-y
↑ D. Pride, and P. Knoth, Incidental or Influential? - Challenges in Automatically Detecting Citation Importance Using Publication Full Texts. https://arxiv.org/pdf/1707.04207.pdf
↑ X. Liu, Yingying Yu, C. Guo, Y. Sun and L. Gao, "Full-text based context-rich heterogeneous network mining approach for citation recommendation," IEEE/ACM Joint Conference on Digital Libraries, London, 2014, pp. 361-370.
↑ Riccardo Marcaccioli & Giacomo Livan, A Pólya urn approach to information filtering in complex networks, Nature Communications 10, 745 (2019)

子分类

本分类有以下4个子分类，共有4个子分类。

匿名

搜索

分类:引用骨架挖掘

名字空间

更多

页面选项

目录

研究背景

可能的简化网络方法（希望保留“真”引用）

基于边重要性度量的去边

基于全文和引文word2vec构建引文推荐

参考文献

子分类

I

M

S

T

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:引用骨架挖掘

研究背景

可能的简化网络方法（希望保留“真”引用）

基于边重要性度量的去边

基于全文和引文word2vec构建引文推荐

参考文献

子分类

I

M

S

T

导航

Wiki工具

页面工具

分类