分类:Structural Scaffolds for Citation Intent Classification in Scientific Publications

来自Big Physics


Arman Cohan, Waleed Ammar, Madeleine van Zuylen, Field Cady. Structural Scaffolds for Citation Intent Classification in Scientific Publications

Abstract

Identifying the intent of a citation in scientific papers (e.g., background information, use of methods, comparing results) is critical for machine reading of individual publications and automated analysis of the scientific literature. We propose structural scaffolds, a multitask model to incorporate structural information of scientific papers into citations for effective classification of citation intents. Our model achieves a new state-of-the-art on an existing ACL anthology dataset (ACL-ARC) with a 13.3% absolute increase in F1 score, without relying on external linguistic resources or hand-engineered features as done in existing methods. In addition, we introduce a new dataset of citation intents (SciCite) which is more than five times larger and covers multiple scientific domains compared with existing datasets.

总结和评论

这篇文章对引用动机做了识别,也提供了一个用来训练引文动机识别模型的数据库。

首选,数据库是人工标注的,给出来了每一个引用的上下文和类别。

其次,文章用了上下文无关(Glove,word2vec)和上下文相关词(Elmo)矢量表示,BiLSTM语言模型,来得到每一个引用的上下文的矢量表示,接着把这个矢量表示接入一个分类器,来得到最终的这个引用的类别标记。

最后,文章还有一个小小的创新之处,把引用所在的小结标题也当做引用的上下文。从科学学来说,这个不算创新,但是从自然语言处理来说,算创新,并且考虑了科学学背景——例如,大多数在Introduction部分的引用可能是研究问题研究背景上的拓展性引用,不一定是直接的工作基础。

这篇论文对于后续的研究非常有参考价值,无论是从方法还是数据上来说。同样的道理可以用于引用骨架挖掘,也就是发现施引和被引文献之间的直接的紧密的联系。在引用骨架挖掘中,我们可以在引用动机识别的基础上,加上这个依赖性的强度,也就是是否确实被引文献是是引文献的工作基础,同样用人工标注和自然语言处理来解决。

最后的最后,AllenAI的执行力——说干就干、人工标注就标,技术能力——自然语言处理技术,是这个研究能够开展的原因。相应地,反过来,吴金闪这边为什么有这些idea很久了,但是实际工作进度落后,就非常值得进一步思考。

概念地图

AllenAI-引用动机分类论文.png

本分类目前不含有任何页面或媒体文件。