“分类:引用骨架挖掘”的版本间的差异

来自Big Physics
 
(未显示同一用户的33个中间版本)
第11行: 第11行:
 
==可能的简化网络方法(希望保留“真”引用)==
 
==可能的简化网络方法(希望保留“真”引用)==
  
或者,能不能换一个思路,在给权重和不给权重的引文网络上,做一下边的某种权重算法,例如把[[https://en.wikipedia.org/wiki/PageRank PageRank]]放在边上,这样来进一步区别边呢?<ref name="Song:TopicCitation"/>就研究了PageRank和LDA等技术是否能够更好地区分真是真实的问题。
+
或者,能不能换一个思路,在给权重和不给权重的引文网络上,做一下边的某种权重算法,例如计算边的Betweenness或者把[[https://en.wikipedia.org/wiki/PageRank PageRank]]放在边上,这样来进一步区别边呢?<ref name="Song:TopicCitation"/>就研究了PageRank和LDA等技术是否能够更好地区分真是真实的问题。
  
另一个方法是通过压缩引文网络的边,最好能够只保留有学术影响意义的引文。这样的保留方式有很多种,比如,如果两篇存在引用关系的论文,被第三篇引用,可以仅仅保留第三篇到最早的第一篇文献的引用(这个相当于<ref name="Clough:TR" />里面的Transitive Reduction(保连通性删边?)),或者仅仅保留第三篇到较晚的第二篇文献的引用,甚至考虑机器学习的自动特征提取<ref name="Zhu:Data" />。更多的关于<ref name="Zhu:Data" />可能的进一步研究,见[[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]]。
+
另一个方法是通过压缩引文网络的边,最好能够只保留有学术影响意义的引文。这样的保留方式有很多种,比如,如果两篇存在引用关系的论文,被第三篇引用,可以仅仅保留第三篇到最早的第一篇文献的引用(这个相当于<ref name="Clough:TR" />里面的Transitive Reduction(保连通性删边?)),或者仅仅保留第三篇到较晚的第二篇文献的引用,甚至考虑机器学习的自动特征提取<ref name="Zhu:Data" /><ref name="Saeed-Ul:Influentialcitations"/><ref name="Pride:Influentialcitations"/><ref name="Liu:CitationRecommendation"/> 。更多的关于<ref name="Zhu:Data" />可能的进一步研究,见[[:Category:Measuring academic influence: Not all citations are equal|Measuring academic influence: Not all citations are equal]]。
  
甚至,可以考虑第二篇和第三篇文章,到底哪一篇的创新性(例如用disruptive指数)比较高,然后保留比较高的那个。
+
甚至,可以考虑第二篇和第三篇文章,到底哪一篇的创新性(例如用replaceability指数,disruptive指数)比较高,然后保留比较高的那个。
  
 
最近一篇网络简化方法的文章<ref name="Marcaccioli:SimplifyNetwork"/>,可能也可以参考。
 
最近一篇网络简化方法的文章<ref name="Marcaccioli:SimplifyNetwork"/>,可能也可以参考。
  
===补充信息:Disruptive指数的矩阵形式和拓展:不可替代指数(irreplaceability)===
+
===基于边重要性度量的去边===
考虑当论文<math>i</math>在被论文<math>j</math>引用的时候多大程度上代表<math>j</math>是建立在<math>i</math>的基础上。这个时候,可以区分<math>j</math>是否引用了其他文章,尤其是<math>j</math>是否引用了<math>i</math>的参考文献(<math>i</math>的父辈),甚至<math>j</math>的爷爷(参考文献的参考文献)。实际上,这就是Disruptive指数的含义<ref name="Funk:Disruptive"/><ref name="Wu:Disruptive"/>,考虑参考文献的参考文献,则是对这个指数的推广。其数学形式如下:
+
对边做betweenness计算或者PageRank边本征值计算,来区别引用,只保留某个值以上的边。甚至可以考虑augumented边介数,也就是给每一条最短路径一个权重,例如两个顶点的引用次数的乘积。这时候看看选择出来的边怎样,是不是和某个ground truth相符。
  
定义<math>x^{i}_{j}</math>表示<math>i</math>被<math>j</math>引用,也就是<math>i</math>的一部分进入了<math>j</math>,或者说,学术意义上,<math>i</math>支撑了<math>j</math>。
+
===基于全文和引文word2vec构建引文推荐===
 
+
这个技术来源于[[:分类:文章主题识别|文章主题识别]],就是通过全文的word2vec、或者全文和引文结合的word2vec,来计算每一篇文章的相似性,以及每篇文章的某种重要性,然后,对于给定篇章,推荐合适的参考文献。为什么可以用于骨架识别呢?那些出现在推荐列表中的论文是不是可以当做真引用?
定义<math>X_{j}=\sum_{i} x^{i}_{j}</math>为<math>j</math>的参考文献数量,并且在此基础上定义引用支撑关系矩阵:<math>A^{i}_{j}=\frac{x^{i}_{j}}{X_{j}}</math>。顺便,实际上,源归一化引用次数就是计算这个矩阵的行和,也就是:<math>S^{i}=\sum_{j}A^{i}_{j}</math>。PageRank算法实际上是计算这个矩阵的本征向量(或者说,给矩阵加上一个微扰以后的本征向量)。不过,现在,我们要换一个这个矩阵的用法。将来再考虑和PageRank的结合。
 
 
 
这个用法的思想如下:我们更加关注原创性,或者说参考文献的可替代性问题——一篇论文的真正的学术上的重要支撑来自于哪里。因此,在一篇论文引用的论文中,如果有两篇论文其存在引用关系,我们就把更多的权重给那篇较早的论文。同样地,如果被引用的两篇论文没有直接引用关系,但是有间接引用关系,例如其中一篇是另一篇的参考文献的参考文献,也需要做相应的权重调整。也就是说,我们希望把矩阵<math>A</math>变成一个更加代表原创性不可替代性的的引用关系矩阵<math>\mathcal{A}</math>。
 
 
 
第一项考虑<math>i</math>被<math>j</math>引用的度量,也就是<math>A^{i}_{j}</math>。
 
 
 
第二项,考虑考虑<math>i</math>被<math>j</math>引用,同时考虑<math>i</math>的父辈<math>k</math>也被<math>j</math>引用,也就是<math>A^{i}_{j}\sum_{k}A^{k}_{j}A^{k}_{i}=\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}A\left|i\right\rangle</math>。
 
 
 
第二项,考虑考虑<math>i</math>被<math>j</math>引用,同时考虑<math>i</math>的爷爷辈<math>m</math>(通过父辈<math>l</math>相联系)也被<math>j</math>引用,也就是<math>A^{i}_{j}\sum_{lm}A^{l}_{i}A^{m}_{l}A^{m}_{j}=\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}AA\left|i\right\rangle</math>。
 
 
 
以此类推,如下图。
 
 
 
[[文件:irreplaceability.png|200px]]
 
 
 
根据前面的原创性或者说不可替代性考量,我们应该把第一项算成正的,把后面的项都算成负的。因此,
 
<math>\mathcal{A}^{i}_{j}=A^{i}_{j}-\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}A\left|i\right\rangle-\left\langle i\right|A\left|j\right\rangle\left\langle j\right|A^{\dag}AA\left|i\right\rangle-\cdots</math>,合起来
 
 
 
<math>\mathcal{A}^{i}_{j}=A^{i}_{j}\left[1-\left\langle j\right|\left(A^{\dag}A+A^{\dag}A^{2}+\cdots\right)\left|i\right\rangle\right]=A^{i}_{j}\left[1-\left\langle j\right|\frac{A^{\dag}A}{1-A}\left|i\right\rangle\right]</math>。
 
 
 
更一般的情况,我们还可以考虑一个衰减系数<math>\gamma</math>,从而<math>\mathcal{A}^{i}_{j}\left(\gamma\right)=A^{i}_{j}\left[1-\gamma\left\langle j\right|\frac{A^{\dag}A}{1-\gamma A}\left|i\right\rangle\right]</math>。或者在第一阶截断,<math>\mathcal{A}^{\left(1\right),i}_{j}=A^{i}_{j}\left[1-\left\langle j\right|A^{\dag}A\left|i\right\rangle\right]</math>。
 
 
 
有了这个矩阵<math>\mathcal{A}</math>和<math>\mathcal{A}\left(\gamma\right)</math>、<math>A^{\left(1\right)}</math>我们再来计算网络指标。例如直接计算顶点权重,
 
<math>\mathcal{S}^{i}=\sum_{j}\mathcal{A}^{i}_{j}</math>(实际上,用<math>A^{\left(1\right)}</math>计算出来的就和<ref name="Funk:Disruptive"/><ref name="Wu:Disruptive"/>的disruptive指数相当)。或者把PageRank算法以及投入产出分析用到这个矩阵<math>\mathcal{A}</math>上(先把<math>\mathcal{A}</math>转化成概率转移矩阵,然后计算加了适当微扰的本征向量),就可以综合考虑间接影响力。
 
  
  
第61行: 第38行:
 
<ref name="Clough:TR">James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, [[:Category:Transitive reduction of citation networks|Transitive reduction of citation networks]], J Complex Netw (2015) 3 (2): 189-203.  DOI: https://doi.org/10.1093/comnet/cnu039 </ref>
 
<ref name="Clough:TR">James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, [[:Category:Transitive reduction of citation networks|Transitive reduction of citation networks]], J Complex Netw (2015) 3 (2): 189-203.  DOI: https://doi.org/10.1093/comnet/cnu039 </ref>
 
<ref name="Song:TopicCitation">Munui Kim  Injun Baek  Min Song, Topic diffusion analysis of a weighted citation network in biomedical literature, JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960 </ref>
 
<ref name="Song:TopicCitation">Munui Kim  Injun Baek  Min Song, Topic diffusion analysis of a weighted citation network in biomedical literature, JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960 </ref>
<ref name="Wu:Disruptive">Lingfei Wu, Dashun Wang & James A. Evans, Large teams develop and small teams disrupt science and technology, Nature 566, 378-382(2019). https://www.nature.com/articles/s41586-019-0941-9 </ref>
+
<ref name="Marcaccioli:SimplifyNetwork"> Riccardo Marcaccioli & Giacomo Livan, A Pólya urn approach to information filtering in complex networks, Nature Communications 10, 745 (2019) </ref>
<ref name="Funk:Disruptive">Funk, R. J. & Owen-Smith, J. A dynamic network measure of technological change. Manage. Sci. 63, 791-817(2017). https://pubsonline.informs.org/doi/10.1287/mnsc.2015.2366</ref>
+
<ref name="Saeed-Ul:Influentialcitations"> Saeed-Ul Hassan, Mubashir Imran, Sehrish Iqbal, Naif Radi Aljohani and Raheel Nawaz. Deep context of citations using machine-learning models in scholarly full-text articles. SCIENTOMETRICS 117(3), 1645-1662(2018), 10.1007/s11192-018-2944-y </ref>
 +
<ref name="Pride:Influentialcitations">D. Pride, and P. Knoth, Incidental or Influential? - Challenges in Automatically Detecting Citation Importance Using Publication Full Texts. https://arxiv.org/pdf/1707.04207.pdf  </ref>
 +
<ref name="Liu:CitationRecommendation"> X. Liu, Yingying Yu, C. Guo, Y. Sun and L. Gao, "Full-text based context-rich heterogeneous network mining approach for citation recommendation," IEEE/ACM Joint Conference on Digital Libraries, London, 2014, pp. 361-370. </ref>  
 
</references>
 
</references>

2020年3月28日 (六) 21:59的最新版本


研究背景

引用骨架挖掘就是指从所有的引用关系中,发现,真正的基础性,代表知识传递、融合的那些引用。引用是科学学中最重要的关系之一(其他还有作者-论文“写作”关系、论文-主题“工作在”关系)。一篇文章的引用次数就好像是一个产品在经济系统里面的价格。但是,由于学科引用传统等差异,各个学科的并不能直接相比较,也就是需要一个汇率转换。另外,很多时候,引用表示“我已经看过这个文献”,而不一定是“它是我这个工作的基础”。因此,如何把引用骨架识别出来就成了一个科学学研究的基本问题。

引用骨架挖掘的问题可以表达成给每一条引用边一个权重的问题。从某一篇施引文献p开始,例如,目前常用的不区分的方式就是给它的引文同样的权重,也就是[math]\displaystyle{ \left[1,1,\cdots,1\right] }[/math]。施引方归一就是给它们这样的区中[math]\displaystyle{ \frac{1}{r_{p}}\left[1,1,\cdots,1\right] }[/math],其中[math]\displaystyle{ r_{p} }[/math]就是p的总参考文献数量。还有的研究者主张(缺参考文献)按照引文在文章中出现的总次数来给权重,例如,[math]\displaystyle{ \frac{1}{r_{p}}\left[c_1,c_2,\cdots,c_{r_{p}}\right] }[/math]。还有的研究者提出来需要考虑在哪里引用,以及施引文章和被引文章之间的某种相似性(见[1]的引文)。那么,问题来了,有没有一个综合考虑这些因素找出来哪些因素最管用,并且更进一步做好这样一个识别骨架的算法和产品的呢?[2]

可能的简化网络方法(希望保留“真”引用)

或者,能不能换一个思路,在给权重和不给权重的引文网络上,做一下边的某种权重算法,例如计算边的Betweenness或者把[PageRank]放在边上,这样来进一步区别边呢?[3]就研究了PageRank和LDA等技术是否能够更好地区分真是真实的问题。

另一个方法是通过压缩引文网络的边,最好能够只保留有学术影响意义的引文。这样的保留方式有很多种,比如,如果两篇存在引用关系的论文,被第三篇引用,可以仅仅保留第三篇到最早的第一篇文献的引用(这个相当于[4]里面的Transitive Reduction(保连通性删边?)),或者仅仅保留第三篇到较晚的第二篇文献的引用,甚至考虑机器学习的自动特征提取[1][5][6][7] 。更多的关于[1]可能的进一步研究,见Measuring academic influence: Not all citations are equal

甚至,可以考虑第二篇和第三篇文章,到底哪一篇的创新性(例如用replaceability指数,disruptive指数)比较高,然后保留比较高的那个。

最近一篇网络简化方法的文章[8],可能也可以参考。

基于边重要性度量的去边

对边做betweenness计算或者PageRank边本征值计算,来区别引用,只保留某个值以上的边。甚至可以考虑augumented边介数,也就是给每一条最短路径一个权重,例如两个顶点的引用次数的乘积。这时候看看选择出来的边怎样,是不是和某个ground truth相符。

基于全文和引文word2vec构建引文推荐

这个技术来源于文章主题识别,就是通过全文的word2vec、或者全文和引文结合的word2vec,来计算每一篇文章的相似性,以及每篇文章的某种重要性,然后,对于给定篇章,推荐合适的参考文献。为什么可以用于骨架识别呢?那些出现在推荐列表中的论文是不是可以当做真引用?


甚至可以考虑上面两段的结合,在最近保留和最远保留的网络上,以及原始的引用网络上试试广义投入产出,看看这几个网络下差别最大的那些顶点是哪些,是不是能够反映那些顶点的创新性,或者用来找到真引用?

另一个关键问题是,判断那种算法的结果最好的标准是什么?文献[1]收集了一个作者自己标注哪些引用是有实质学术影响的引用的数据,可以供进一步中暂时当做判断标准研究使用,见数据集

考虑依靠整个社区的力量,自己来构建一个基础数据集?把每一篇网络科学或者科学计量学的文章的引用做标记,例如直接问题基础、直接方法基础、直接结论基础(拓展、相反)、直接数据基础,间接文献等标记。

参考文献

  1. 1.0 1.1 1.2 1.3 Xiaodan Zhu, Peter Turney, Daniel Lemire & André Vellino, Measuring academic influence: Not all citations are equal, Journal of the Association for Information Science and Technology, 66(2), 408, DOI: http://doi.org/10.1002/asi.23179
  2. Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa
  3. Munui Kim Injun Baek Min Song, Topic diffusion analysis of a weighted citation network in biomedical literature, JOURNAL OF THE ASSOCIATION FOR INFORMATION SCIENCE AND TECHNOLOGY 69(2)329-342(2018) https://doi.org/10.1002/asi.23960
  4. James R. Clough, Jamie Gollings, Tamar V. Loach & Tim S. Evans, Transitive reduction of citation networks, J Complex Netw (2015) 3 (2): 189-203. DOI: https://doi.org/10.1093/comnet/cnu039
  5. Saeed-Ul Hassan, Mubashir Imran, Sehrish Iqbal, Naif Radi Aljohani and Raheel Nawaz. Deep context of citations using machine-learning models in scholarly full-text articles. SCIENTOMETRICS 117(3), 1645-1662(2018), 10.1007/s11192-018-2944-y
  6. D. Pride, and P. Knoth, Incidental or Influential? - Challenges in Automatically Detecting Citation Importance Using Publication Full Texts. https://arxiv.org/pdf/1707.04207.pdf
  7. X. Liu, Yingying Yu, C. Guo, Y. Sun and L. Gao, "Full-text based context-rich heterogeneous network mining approach for citation recommendation," IEEE/ACM Joint Conference on Digital Libraries, London, 2014, pp. 361-370.
  8. Riccardo Marcaccioli & Giacomo Livan, A Pólya urn approach to information filtering in complex networks, Nature Communications 10, 745 (2019)