分类:GORC: A large contextual citation graph of academic papers

来自Big Physics
Safin讨论 | 贡献2020年12月20日 (日) 19:53的版本 →‎总结和评论


Kyle Lo, Lucy Lu Wang, M. Neumann, Rodney Michael Kinney, Daniel S. GORC: A large contextual citation graph of academic papers. arXiv 1911.02782 (2019).

Abstract

We introduce the Semantic Scholar Graph of References in Context (GORC), a large contextual citation graph of 81.1M academic publications, including parsed full text for 8.1M open access papers, across broad domains of science. Each paper is represented with rich paper metadata (title, authors, abstract, etc.), and where available: cleaned full text, section headers, figure and table captions, and parsed bibliography entries. In-line citation mentions in full text are linked to their corresponding bibliography entries, which are in turn linked to in-corpus cited papers, forming the edges of a contextual citation graph. To our knowledge, this is the largest publicly available contextual citation graph; the full text alone is the largest parsed academic text corpus publicly available. We demonstrate the ability to identify similar papers using these citation contexts and propose several applications for language modeling and citation-related tasks.

总结和评论

GORC 传统的引文关系网络只能告诉我们文章引用了那篇其它文章,不能告诉我们为什么以及如何引用,因为仅仅通过引文关系网络,我们不知道在文章内部真正引用之处的上下文。

GORC是Graph of References in Context,有别于传统的引文关系网络,GORC深入到文章内容中,抽取出引用参看文献,图,表等的上下文,并与相关的参考文献,图,表等建立关系,这样,我们就可以得到文章中真正引用了参考文献,图,表之处的上下文,以及它们所指向的参考文献,图,表。

GORC的引用关系主要包括两种:in-line citation和in-line reference,前者是文章内部对参考文献引用之处的上下文,后者是文章内部对图表引用之处的上下文。

GORC数据集包括: 81.1M 文章,380.5M 引用关系,其中包括包含in-line citation的156.5M,其中PDF格式文章8.1M,Latex格式文章1.5M。

GORC数据集建立过程中用到的关键技术包括:

  1. 文章聚类,以剔除相同内容的文章;
  2. PDF格式文章过滤,以剔除非科研文献;
  3. PDF格式文章处理,利用 GROBID来抽取metadata,包括:作者,标题,图表标题,in-line citation,解析参考文献,建立in-line citation与参考文献的关系;
  4. Latex格式文章处理,先转换成XML;
  5. 语料聚类,以选择最优的文章格式来获得最终的metadata;
  6. 数据过滤,以剔除metadata不完整的文章数据;
  7. 参考文献关联,主要通过计算文章标题相似度,来判别是否是参考文献,如果是参考文献,就取出metadata。

GORC的潜在应用: 可用于引用关系相关的任务

  1. 文章相似性判别
  2. 训练神经网络模型
  3. 参考文献推荐

概念地图

GORC citation cmap.png

本分类目前不含有任何页面或媒体文件。