分类:S2ORC: The Semantic Scholar Open Research Corpus

来自Big Physics
Jinshanw讨论 | 贡献2020年12月2日 (三) 15:44的版本
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, Dan S. Weld. S2ORC: The Semantic Scholar Open Research Corpus. arXiv:1911.02782 [cs.CL]

Abstract

We introduce S2ORC, a large corpus of 81.1M English-language academic papers spanning many academic disciplines. The corpus consists of rich metadata, paper abstracts, resolved bibliographic references, as well as structured full text for 8.1M open access papers. Full text is annotated with automatically-detected inline mentions of citations, figures, and tables, each linked to their corresponding paper objects. In S2ORC, we aggregate papers from hundreds of academic publishers and digital archives into a unified source, and create the largest publicly-available collection of machine-readable academic text to date. We hope this resource will facilitate research and development of tools and tasks for text mining over academic text.

总结和评论

这个工作[1]做了两件事情:第一、对论文PDF等全文做识别处理得到了论文全文文本数据,并且这个文本数据包含了引文网络和引用的位置;第二、在这个全文数据库上用BERT模型得到了词的矢量表示。非常了不起,并且数据和程序都做分享。

Allan研究院的这个科学学研究团队之前也有把用于语言模型BERT迁移到学术论文的工作例如,SPECTER[2] ,SciBERT[3]

实际上,我们在做的研究,全文(篇章、词汇、参考文献当做词汇、作者当做词汇、学术机构当做词汇)结合参考文献网络上的表示,比这个研究在思路上要先进很多。更多这个研究的信息,可见用于文章主题识别等任务的自然语言处理技术。正好这个数据给我们的分析提供了材料。当然,传统的渠道,例如按照期刊获取全文数据,也还是需要去尝试的。


参考文献

  1. Kyle Lo, Lucy Lu Wang, Mark Neumann, Rodney Kinney, Dan S. Weld. S2ORC: The Semantic Scholar Open Research Corpus. arXiv:1911.02782 [cs.CL], https://github.com/allenai/s2orc, https://allenai.org/data/s2orc
  2. Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld, Document-level Representation Learning using Citation-informed Transformers. https://arxiv.org/abs/2004.07180v1
  3. Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. SciBERT: A Pretrained Language Model for Scientific Text. In EMNLP.

本分类目前不含有任何页面或媒体文件。