分类:Identifying Meaningful Citations

来自Big Physics


Marco Valenzuela, Vu Ha and Oren Etzioni, Identifying Meaningful Citations, http://go.nature.com/2th2voa

Abstract

We introduce the novel task of identifying important citations in scholarly literature, i.e., citations that indicate that the cited work is used or extended in the new effort. We believe this task is a crucial component in algorithms that detect and follow research topics and in methods that measure the quality of publications. We model this task as a supervised classification problem at two levels of detail: a coarse one with classes (important vs. non-important), and a more detailed one with four importance classes. We annotate a dataset of approximately 450 citations with this information, and release it publicly. We propose a supervised classification approach that addresses this task with a battery of features that range from citation counts to where the citation appears in the body of the paper, and show that, our approach achieves a precision of 65% for a recall of 90%.

总结和评论

这篇文章用机器学习的算法来解决关键引文的问题:有一些引文是真正的工作基础,有一些仅仅是大背景或者勉强的引用,如何区分它们。


引文作为科学学中的一个重要指标,对文章质量评价、研究主题的确定、文献检索等问题的研究都有重要的作用。但目前基于引文的一系列的指标与算法都是在“一篇文章的所有参考文献的权重都相等”的前提下进行的,但事实并非如此。在文章中,作者邀请专家对自己标注的465条引用进行“该被引文献是否对施引文献有重要作用”进行判断并标注,结果显示仅有约14.6%的被引文献被专家认为是重要的参考文献。因此可以看到,对参考文献的分类对的以引文为基础的相关工作的改进和发展有重要的意义。


本文以ACL数据库中提取的465条引用关系为基础,邀请专家为它们进行人工标注形成实验所需的数据集,主要进行了三项工作:施引文献特征指标的构建与计算、通过分类确定重要参考文献、计算与比较各个指标对确定重要参考文献的贡献。


具体来说,该文章用监督学习的一种分类方法——支持向量机(简称SVM)将所有被引文献分为两大类(重要和非重要),更进一步分为4个层次(相关、比较、使用、扩展)。考虑了包括直接引用与非显示引用(比如引用的算法名称、人名等)的数量特征、是否自引、相似性等12个特征指标,利用留一法(将每个数据个体当做测试集,其余数据当做训练集来构筑模型并最后对评价指标做期望,本文的评价指标为准确率和召回率)和SVM(基本模型是定义在特征空间上的间隔最大的线性分类器,具体原理还在看)综合考虑这12个指标对被引文献是否重要进行分类。最终得到的结果的准确率(模型认为有意义的引用中实际有意义的引用的比例)与召回率(所有有意义的引用被模型识别的比例)不仅远超过按照一定概率随机分配的结果,还可以在高召回率的前提下达到令人满意的准确率。


在得到整体的结果后,进而考虑单个单个因素的对重要文献识别的贡献。做法是单独考虑某一因素重复上述工作,发现每个指标的模型的在固定召回率下,准确率都高于随机分配的结果,从而证明每个指标都对重要文献识别有一定贡献。其中直接引用的数量是最有效的特征。


本文的创新点在于:解决了确定重要文献的问题并将其制作成了网页程序;提出了非显示引用的概念并给出了提取非显示引用的方法(虽然这部分作者自己说有改进的空间)。实际上,本文的工作与Measuring academic influence: Not all citations are equal类似,都是区分参考文献中的重要文献,区别在于数据集不同和考察指标不同。个人认为,这些特征指标几乎都只考虑语义方面的特征,如果可以加入引文网络的结构特征(比如根据参考文献之间是否有引用关系来增加权重),可能会得到更好的结果。

概念地图

Identifying Meaningful Citations文献.jpg

本分类目前不含有任何页面或媒体文件。