分类:NER以及RE的负采样方法

负采样

自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。

采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。

比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。训练需要正样本和负样本同时存在。

NER的负采样

1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition

未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：

本分类目前不含有任何页面或媒体文件。

匿名

搜索

分类:NER以及RE的负采样方法

名字空间

更多

页面选项

负采样

NER的负采样

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:NER以及RE的负采样方法

负采样

NER的负采样

导航

Wiki工具

页面工具