分类:GORC: A large contextual citation graph of academic papers

来自Big Physics
The printable version is no longer supported and may have rendering errors. Please update your browser bookmarks and please use the default browser print function instead.


Kyle Lo, Lucy Lu Wang, M. Neumann, Rodney Michael Kinney, Daniel S. GORC: A large contextual citation graph of academic papers. arXiv 1911.02782 (2019).

Abstract

We introduce the Semantic Scholar Graph of References in Context (GORC), a large contextual citation graph of 81.1M academic publications, including parsed full text for 8.1M open access papers, across broad domains of science. Each paper is represented with rich paper metadata (title, authors, abstract, etc.), and where available: cleaned full text, section headers, figure and table captions, and parsed bibliography entries. In-line citation mentions in full text are linked to their corresponding bibliography entries, which are in turn linked to in-corpus cited papers, forming the edges of a contextual citation graph. To our knowledge, this is the largest publicly available contextual citation graph; the full text alone is the largest parsed academic text corpus publicly available. We demonstrate the ability to identify similar papers using these citation contexts and propose several applications for language modeling and citation-related tasks.

总结和评论

传统的引文关系网络只能告诉我们文章引用了哪一篇其它文章,不能告诉我们为什么以及如何引用,因为仅仅通过引文关系网络,我们不知道在文章内部真正引用之处的上下文。

GORC是Graph of References in Context,有别于传统的引文关系网络,GORC深入到文章内容中,抽取出引用参看文献,图,表等的上下文,并与相关的参考文献,图,表等建立关系,这样,我们就可以得到文章中真正引用了参考文献,图,表之处的上下文,以及它们所指向的参考文献,图,表。

GORC的引用关系主要包括两种:in-line citation和in-line reference,前者是文章内部对参考文献引用之处的上下文,后者是文章内部对图表引用之处的上下文。

GORC数据集包括: 81.1M 文章,380.5M 引用关系,其中包括包含in-line citation的156.5M,其中PDF格式文章8.1M,Latex格式文章1.5M。

GORC数据集建立过程中用到的关键技术包括:

  1. 文章聚类,以剔除相同内容的文章,利用了AllenAI另外一篇论文的技术Literature Graph,最开始的原始数据来源广泛,并且格式多样,比如有些是PDF全文,有些是metadata (仅仅包含作者,标题等数据),这里面肯定有重复的文章,那就需要把其中重复的部分归到统一的cluster下面,最终得到的结果就是很多的paper clusters,每个cluster对应一篇文章,并且每个cluster下可能包含PDF全文,Latex全文,metadata;
  2. PDF格式文章过滤,以剔除非科研文献;
  3. PDF格式文章处理,利用GROBID来抽取metadata,包括:作者,标题,图表标题,in-line citation,解析参考文献,建立in-line citation与参考文献的关系;
  4. Latex格式文章处理,先转换成XML, Latex是比较规范的格式,所以处理起来很方便,准确率也很高;
  5. 语料聚集,以选择最优的文章格式来获得最终的metadata,因为在一个paper cluster中可能即包含PDF全文,又包含Latex全文,它们各自已经解析得到了metadata, 并且paper cluster中可能还包含一些原始的metadata, 这里,也利用了AllenAI另外一篇论文的技术Literature Graph
  6. 数据过滤,以剔除metadata不完整的文章数据, 比如没有标题,没有作者等;
  7. 参考文献关联,主要通过计算参考文献文章标题和实际文章标题的相似度,来判别一篇实际的文章是否正好是出现在参考文献列表中的文章。

GORC的潜在应用: 可用于引用关系相关的任务

  1. 文章相似性判别,直接在contextual citation上训练embedding,最终发现,虽然一些文章当初利用arXiv primary categories分类,属于不同领域的文章,但是经过在上下文引用关系中训练的词嵌入,发现,它们实际是在研究同一个theme,这里大概的意思是说,某一篇文章投稿出版时确定了一个arXiv分类,但是后来被其它论文引用,总是出现在某一种主题的语境中,所以经过NLP训练后,得出结论这篇文章是在研究某一个theme,如此,就可以把类似的文章归成一类。
  2. 预训练语言模型
  3. 参考文献推荐

GORC官网

概念地图

GORC citation cmap.png

本分类目前不含有任何页面或媒体文件。