分类:The AI2 system at SemEval-2017 Task 10 (ScienceIE): semi-supervised end-to-end entity and relation extraction

来自Big Physics
Qiaoxizi讨论 | 贡献2020年12月14日 (一) 20:37的版本 →‎总结和评论
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


Waleed Ammar, Matthew E. Peters, Chandra Bhagavatula, R. Power, The AI2 system at SemEval-2017 Task 10 (ScienceIE): semi-supervised end-to-end entity and relation extraction

Abstract

This paper describes our submission for the ScienceIE shared task (SemEval2017 Task 10) on entity and relation extraction from scientific papers. Our model is based on the end-to-end relation extraction model of Miwa and Bansal (2016) with several enhancements such as semi-supervised learning via neural language models, character-level encoding, gazetteers extracted from existing knowledge bases, and model ensembles. Our official submission ranked first in end-to-end entity and relation extraction (scenario 1), and second in the relation-only extraction (scenario 3).

总结和评论

  • 概述:这篇文章基于对经典的end-to-end 实体-关系联合抽取模型的改进,实现了一些科学论文中的概念和关系提取算法。原始模型采用了端到端的神经网络结构来进行建模,通过在双向序列LSTM-RNNs上叠加双向树型结构LSTM-RNNs来捕获单词序列和依存关系树的子结构信息。本文在以下几个方面进行了改进:通过神经网络语言模型进行半监督学习;表示词向量时利用CNN进行字符级编码;利用从现有知识库中提取的索引词典标记实体特征;通过模型集成优化模型。
  • 任务:从科研论文中识别实体类型(Task / Material / Process)以及抽取实体关系( Hyponym-of / Synonym-of)
  • Entity model

将预训练的GloVe词向量和利用CNN得到的字符级编码的词向量拼接起来,作为模型中输入的词向量。利用 BiLSTM 作为序列编码器来捕捉上下文的信息,得到的输出则是 BiLSTM 在同一个时刻两个方向上的输出 。将实体识别任务看作是一个序列标注任务,实体标签采用 BILOU(Begin, Inside, Last, Outside, Unit) 的标注方式,而实体类别接续在实体标签之后。BiLSTM层输出的分数将作为CRF层的输入,类别序列中分数最高的类别就是预测的最终结果。

  • Relation model

给定一对实体的跨径及其类型,该模型通过将关系的上下文相关表示传递到tanh层中,然后通过softmax层来预测标签,从而预测两个实体之间的关系。通过将实体类型嵌入和基于序列标记模型的隐藏层输出连接起来,以此表示左实体和右实体。使用双向BiLSTM层对依存关系树中左右实体head之间的最短路径进行编码,每个节点上LSTM层的输入由四部分拼接得到。同时对顺序路径(两个实体之间的单词)进行编码。对照Wikipedia和freebase两个公开知识库的索引,对实体的类别进行标注;对于给定的一对实体,通过计算输入的二进制特征,以标记实体对是否与每个索引词典匹配。

  • 缺点:考虑到模型的复杂度和计算效率,本文将两个模型单独训练,实体与关系的抽取还是存在先后性,两个任务并不是完全同步进行的。

Schematic diagram of the model.png

相关资料

概念地图

AI2-system 概念地图.png

本分类目前不含有任何页面或媒体文件。