分类:SPECTER: Document-level Representation Learning using Citation-informed Transformers

来自Big Physics
Luohuiying讨论 | 贡献2020年12月19日 (六) 19:48的版本 →‎总结和评论


Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld, Document-level Representation Learning using Citation-informed Transformers. arXiv:2004.07180v1

Abstract

Abstract Representation learning is a critical ingredient for natural language processing systems. Recent Transformer language models like BERT learn powerful textual representations, but these models are targeted towards token- and sentence-level training objectives and do not leverage information on inter-document relatedness, which limits their document-level representation power. For applications on scientific documents, such as classification and recommendation, the embeddings power strong performance on end tasks. We propose SPECTER, a new method to generate document-level embedding of scientific documents based on pretraining a Transformer language model on a powerful signal of document-level relatedness: the citation graph. Unlike existing pretrained language models, SPECTER can be easily applied to downstream applications without task-specific fine-tuning. Additionally, to encourage further research on document-level models, we introduce SCIDOCS, a new evaluation benchmark consisting of seven document-level tasks ranging from citation prediction, to document classification and recommendation. We show that SPECTER outperforms a variety of competitive baselines on the benchmark.

总结和评论

这个工作[1]把用于词汇和篇章矢量的自然语言模型BERT(拓展之前也有一个把BERT迁移到学术论文的工作SciBERT[2])做了一个小小的拓展,用来包含论文引用关系意义上的相似性。其具体做法是,在矢量表示的目标函数上,引入一个Loss函数,而这个函数保证了具有施引关系的论文之间具有比较大的相似性,没有引用关系的论文之间具有比较小的相似性。

同时,这个论文用了几个数据集,做了几个用这个矢量来处理的后期任务,以及对后期任务做了评价。例如论文聚类、引用关系检验等等任务。除了上面这个词汇篇章和引用关系结合的思路,这篇论文还有数据、评价数据等多个可以参考的方面。更多资源可参考这篇论文的github站点[3]

这篇论文并没有直接用引文网络来训练论文之间的相似性,而是仅仅通过加入基于引用关系的相似性的目标函数的方式来调整从词汇篇章训练出来的论文矢量。这当然也可以说是一个优点——训练素材不需要引文网络,只需要词汇篇章。

实际上,我们在做的研究,全文(篇章、词汇、参考文献当做词汇、作者当做词汇、学术机构当做词汇)结合参考文献网络上的表示,比这个研究在思路上要先进很多。更多这个研究的信息,可见用于文章主题识别等任务的自然语言处理技术

[CLS] 标志放在第一个句子的首位,经过 BERT 得到的的表征向量 C 可以用于后续的分类任务。 [SEP] 标志用于分开两个输入句子,例如输入句子 A 和 B,要在句子 A,B 后面增加 [SEP] 标志。 ——————————————————————————————————————————————————————————————————————————————————————————————————————————- 该文章提出了一种引入了文档间相关性的进行文章矢量表示的方法,并使用NLP中的下游任务对模型的有效性进行评估。作者认为在现有的语言模型,如Bert等在进行矢量表示时都仅考虑了文档内上下文的信息而没有考虑文档间的相关性。文章指出,一篇文章引用了另一篇文章,则表示它们是相关的,并且设计了一个损失函数来表示这种相关,这个损失函数使得有引用关系的文章相关性更大,没有引用关系的文章之间的相关性较小。具体的模型图为文件:Specter模型.png

参考文献

  1. Arman Cohan, Sergey Feldman, Iz Beltagy, Doug Downey, Daniel S. Weld, Document-level Representation Learning using Citation-informed Transformers. https://arxiv.org/abs/2004.07180v1
  2. Iz Beltagy, Kyle Lo, and Arman Cohan. 2019. SciBERT: A Pretrained Language Model for Scientific Text. In EMNLP.
  3. https://github.com/allenai/specter.

本分类目前不含有任何页面或媒体文件。