<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh-Hans-CN">
	<id>https://www.bigphysics.org/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Luohuiying</id>
	<title>Big Physics - 用户贡献 [zh-cn]</title>
	<link rel="self" type="application/atom+xml" href="https://www.bigphysics.org/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Luohuiying"/>
	<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php/%E7%89%B9%E6%AE%8A:%E7%94%A8%E6%88%B7%E8%B4%A1%E7%8C%AE/Luohuiying"/>
	<updated>2026-05-01T09:20:53Z</updated>
	<subtitle>用户贡献</subtitle>
	<generator>MediaWiki 1.35.1</generator>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6731</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6731"/>
		<updated>2021-12-16T00:59:27Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
目前学界主流的命名实体识别方法有基于BIO序列标注的方法，以及近年来使用比较多的基于Span的方法。&lt;br /&gt;
*基于BIO/BILOU标注的命名实体识别：&lt;br /&gt;
**标注方式为对token进行标注：&lt;br /&gt;
e.g. 今年海钓比赛在厦门市与金门之间的海域举行。&lt;br /&gt;
&lt;br /&gt;
我们对这句话进行序列标注之后的结果：&lt;br /&gt;
&lt;br /&gt;
今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。&lt;br /&gt;
&lt;br /&gt;
**负采样方式为：&lt;br /&gt;
*基于Span的命名实体识别：用于解决一些类似于嵌套命名实体识别的问题。&lt;br /&gt;
**Span：可以理解为一个Ngram。将Ngram看成一个整体进行Ngram的类别分类。&lt;br /&gt;
**负采样方式为：对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样&amp;lt;ref name=Span-base/&amp;gt;，均匀抽样&amp;lt;ref name=Li-empirical/&amp;gt;,加权抽样&amp;lt;ref name=Li-rethinking/&amp;gt;。&lt;br /&gt;
'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&amp;lt;ref name=Li-empirical/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''基于Span-level'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过下述公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&amp;lt;ref name=Li-rethinking/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于'''加权抽样'''的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
&lt;br /&gt;
==Re负采样==&lt;br /&gt;
Relation Extraction任务的目的是输出（Entity1,Entity2,Relation）这样的三元组。&lt;br /&gt;
	&lt;br /&gt;
==参考文献==	&lt;br /&gt;
&amp;lt;references&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Span-base&amp;gt;Span-based Joint Entity and Relation Extraction with Transformer Pre-training https://arxiv.org/abs/1909.07755&amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Li-empirical&amp;gt;Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2012.05426&amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Li-rethinking&amp;gt;Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2108.11607 &amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6726</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6726"/>
		<updated>2021-12-15T02:09:07Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
目前学界主流的命名实体识别方法有基于BIO序列标注的方法，以及近年来使用比较多的基于Span的方法。&lt;br /&gt;
*基于BIO/BILOU标注的命名实体识别：&lt;br /&gt;
**标注方式为对token进行标注：&lt;br /&gt;
e.g. 今年海钓比赛在厦门市与金门之间的海域举行。&lt;br /&gt;
&lt;br /&gt;
我们对这句话进行序列标注之后的结果：&lt;br /&gt;
&lt;br /&gt;
今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。&lt;br /&gt;
&lt;br /&gt;
**负采样方式为：&lt;br /&gt;
*基于Span的命名实体识别：用于解决一些类似于嵌套命名实体识别的问题。&lt;br /&gt;
**Span：可以理解为一个Ngram。将Ngram看成一个整体进行Ngram的类别分类。&lt;br /&gt;
**负采样方式为：对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样&amp;lt;ref name=Span-base/&amp;gt;，均匀抽样&amp;lt;ref name=Li-empirical/&amp;gt;,加权抽样&amp;lt;ref name=Li-rethinking/&amp;gt;。&lt;br /&gt;
'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&amp;lt;ref name=Li-empirical/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过下述公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&amp;lt;ref name=Li-rethinking/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于'''加权抽样'''的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
	&lt;br /&gt;
==参考文献==	&lt;br /&gt;
&amp;lt;references&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Span-base&amp;gt;Span-based Joint Entity and Relation Extraction with Transformer Pre-training https://arxiv.org/abs/1909.07755&amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Li-empirical&amp;gt;Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2012.05426&amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Li-rethinking&amp;gt;Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2108.11607 &amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6725</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6725"/>
		<updated>2021-12-15T02:08:37Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
目前学界主流的命名实体识别方法有基于BIO序列标注的方法，以及近年来使用比较多的基于Span的方法。&lt;br /&gt;
*基于BIO/BILOU标注的命名实体识别：&lt;br /&gt;
**标注方式为对token进行标注，e.g. 今年海钓比赛在厦门市与金门之间的海域举行。&lt;br /&gt;
&lt;br /&gt;
我们对这句话进行序列标注之后的结果：&lt;br /&gt;
&lt;br /&gt;
今(O)年(O)海(O)钓(O)比(O)赛(O)在(O)厦(B-LOC)门(I-LOC)市(E-LOC)与(O)金(B-LOC)门(E-LOC)之(O)间(O)的(O)海(O)域(O)举(O)行(O)。&lt;br /&gt;
&lt;br /&gt;
**负采样方式为：&lt;br /&gt;
*基于Span的命名实体识别：用于解决一些类似于嵌套命名实体识别的问题。&lt;br /&gt;
**Span：可以理解为一个Ngram。将Ngram看成一个整体进行Ngram的类别分类。&lt;br /&gt;
**负采样方式为：对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样&amp;lt;ref name=Span-base/&amp;gt;，均匀抽样&amp;lt;ref name=Li-empirical/&amp;gt;,加权抽样&amp;lt;ref name=Li-rethinking/&amp;gt;。&lt;br /&gt;
'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&amp;lt;ref name=Li-empirical/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过下述公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&amp;lt;ref name=Li-rethinking/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于'''加权抽样'''的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
	&lt;br /&gt;
==参考文献==	&lt;br /&gt;
&amp;lt;references&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Span-base&amp;gt;Span-based Joint Entity and Relation Extraction with Transformer Pre-training https://arxiv.org/abs/1909.07755&amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Li-empirical&amp;gt;Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2012.05426&amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;ref name=Li-rethinking&amp;gt;Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2108.11607 &amp;lt;/ref&amp;gt;	&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6724</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6724"/>
		<updated>2021-12-14T07:43:09Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过下述公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于'''加权抽样'''的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6723</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6723"/>
		<updated>2021-12-14T07:23:02Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过下述公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于加权抽样的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6722</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6722"/>
		<updated>2021-12-14T07:22:35Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于加权抽样的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6721</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6721"/>
		<updated>2021-12-14T07:20:29Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————会导致'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于加权抽样的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。得到抽样结果之后，再和正样本一起加入模型进行训练。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
'''不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
'''非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; '''较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6720</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6720"/>
		<updated>2021-12-14T07:18:30Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是'''负采样'''。&lt;br /&gt;
本文 NER 框架使用了'''片段排列'''分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为'''y'''，则可以得到除y之外的其它实体集合'''S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;'''（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在'''一定程度上'''降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有'''一小部分'''负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————'''误采样率过高'''&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于加权抽样的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（'''span-level'''的数据标注，生成S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;的集合）的基础上，将'''均分分布抽样'''改成了'''加权抽样'''，这样可以使y'集合中的未标注实体进一步降低。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：'''u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(不确定性得分)  和 '''v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;'''(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6719</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6719"/>
		<updated>2021-12-14T07:15:50Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为y，则可以得到除y之外的其它实体集合S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在一定程度上降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有一小部分负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————误采样率过高&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于加权抽样的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（span-level的数据标注，生成S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;的集合）的基础上，将均分分布抽样改成了加权抽样，这样可以使y'集合中的未标注实体进一步降低。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
加权方法依赖于两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;(不确定性得分)  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;(非实体分数)&lt;br /&gt;
&lt;br /&gt;
公式如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
基于这两个参数，我们就可以在抽取的时候进行加权控制：&lt;br /&gt;
&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。&lt;br /&gt;
&lt;br /&gt;
需要注意的是，由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全，随着训练阶段的推进，T会降低，抽取权重也会发生变化。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6718</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6718"/>
		<updated>2021-12-14T06:46:37Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为y，则可以得到除y之外的其它实体集合S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
实验证明，第一篇论文中提到的负采样方法可以在一定程度上降低未标注实体对于模型性能的负面影响，但是仍存在一些问题：&lt;br /&gt;
&lt;br /&gt;
* 最终只有一小部分负实例被抽取用作模型训练&lt;br /&gt;
* 当未标记实体问题严重（未标记实体占比过大）时，这种方法并不能起到很好的效果————误采样率过高&lt;br /&gt;
&lt;br /&gt;
为了解决这些问题，本论文的研究人员基于上篇论文的负采样方法，提出了基于加权抽样的负采样方法。&lt;br /&gt;
&lt;br /&gt;
简单来说，就是在上述方法（span-level的数据标注，生成S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;的集合）的基础上，将均分分布抽样改成了加权抽样，这样可以使y'集合中的未标注实体进一步降低。&lt;br /&gt;
&lt;br /&gt;
具体加权抽样方法如下：&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6717</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6717"/>
		<updated>2021-12-14T05:53:24Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为y，则可以得到除y之外的其它实体集合S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行'''均匀分布'''采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6716</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6716"/>
		<updated>2021-12-14T03:34:16Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为y，则可以得到除y之外的其它实体集合S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
S&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从&amp;lt;sub&amp;gt;k&amp;lt;/sub&amp;gt;中进行均匀分布采样,得到y'={(3, 5, O),(7, 7, O)}，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6715</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6715"/>
		<updated>2021-12-14T03:31:41Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
负采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|700px]]&lt;br /&gt;
&lt;br /&gt;
我们将已标注实体集合记为y，则可以得到除y之外的其它实体集合y'（包括负实例和未标注实体）&lt;br /&gt;
&lt;br /&gt;
y'={(i, j) | 1 ≤ i ≤ j ≤ n;∃ l ∈ L; (i, j, l) ∈ y}&lt;br /&gt;
&lt;br /&gt;
y'中的所有span都会被标记成O，正如图中所表示那样,得到&lt;br /&gt;
&lt;br /&gt;
y'={(1, 1, O) (1, 3, O),……,(6, 7, O) (7, 7, O)}&lt;br /&gt;
&lt;br /&gt;
再从y'中进行均匀分布采样，作为负采样样本加入模型进行训练&lt;br /&gt;
&lt;br /&gt;
为了保证使用本方法进行负采样的结果能够有效降低未标注样本对于模型的影响，同时还需要进行loss函数的修改，损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6714</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6714"/>
		<updated>2021-12-14T03:04:45Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
----&lt;br /&gt;
'''Span-based model'''：这里的Span可以理解成Ngram，对Ngram进行分类进行的Named entity recognition.&lt;br /&gt;
&lt;br /&gt;
目前大多命名实体识别的负采样都是基于Span-level来进行的，具体做法有：&lt;br /&gt;
&lt;br /&gt;
*对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样&amp;lt;ref name=Span-base/&amp;gt;，均匀抽样&amp;lt;ref name=Li-empirical/&amp;gt;,加权抽样&amp;lt;ref name=Li-rethinking/&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
==RE负采样==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==参考文献==&lt;br /&gt;
&amp;lt;references&amp;gt;&lt;br /&gt;
&amp;lt;ref name=Span-base&amp;gt;Span-based Joint Entity and Relation Extraction with Transformer Pre-training https://arxiv.org/abs/1909.07755&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;ref name=Li-empirical&amp;gt;Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2012.05426&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;ref name=Li-rethinking&amp;gt;Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2108.11607 &amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6713</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6713"/>
		<updated>2021-12-14T02:59:59Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
----&lt;br /&gt;
'''Span-based model'''：这里的Span可以理解成Ngram，对Ngram进行分类进行的Named entity recognition.&lt;br /&gt;
&lt;br /&gt;
目前大多命名实体识别的负采样都是基于Span-level来进行的，具体做法有：&lt;br /&gt;
&lt;br /&gt;
*对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样&amp;lt;ref name=Span-base/&amp;gt;，均匀抽样&amp;lt;ref name=Li-empirical/&amp;gt;,加权抽样&amp;lt;ref name=Li-rethinking/&amp;gt;。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==参考文献==&lt;br /&gt;
&amp;lt;references&amp;gt;&lt;br /&gt;
&amp;lt;ref name=Span-base&amp;gt;Span-based Joint Entity and Relation Extraction with Transformer Pre-training https://arxiv.org/abs/1909.07755&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;ref name=Li-empirical&amp;gt;Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2012.05426&amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;ref name=Li-rethinking&amp;gt;Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition https://arxiv.org/abs/2108.11607 &amp;lt;/ref&amp;gt;&lt;br /&gt;
&amp;lt;/references&amp;gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6712</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6712"/>
		<updated>2021-12-14T02:49:36Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：/* NER的负采样 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
----&lt;br /&gt;
'''Span-based model'''：这里的Span可以理解成Ngram，对Ngram进行分类进行的Named entity recognition.&lt;br /&gt;
&lt;br /&gt;
目前大多命名实体识别的负采样都是基于Span-level来进行的，具体做法有：&lt;br /&gt;
&lt;br /&gt;
*对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样[1]，均匀抽样[2],加权抽样[3]。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6711</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6711"/>
		<updated>2021-12-14T02:46:33Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：/* NER的负采样 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;br /&gt;
----&lt;br /&gt;
'''Span-based model'''：这里的Span可以理解成Ngram，对Ngram进行分类进行的Named entity recognition.&lt;br /&gt;
目前大多命名实体识别的负采样都是基于Span-level来进行的，具体做法有：&lt;br /&gt;
*对每一个可能的Ngram进行分类，将所有被分类为None的Span作为负样本集合，在该集合中随机抽样&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6710</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6710"/>
		<updated>2021-12-14T02:37:10Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
采样过程如下图所示：&lt;br /&gt;
&lt;br /&gt;
[[Image:Negative_Sampling.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Negative_Sampling.jpg&amp;diff=6709</id>
		<title>文件:Negative Sampling.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Negative_Sampling.jpg&amp;diff=6709"/>
		<updated>2021-12-14T02:35:47Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6708</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6708"/>
		<updated>2021-12-13T08:08:38Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
所有非实体片段中，有一部分可能是真正的、但未标注的实体（也就是未标注实体），但我们把能把它们都当作“负样本”看待，因此需要对所有非实体片段进行负采样。&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6707</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6707"/>
		<updated>2021-12-13T08:07:22Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
所有非实体片段中，有一部分可能是真正的、但未标注的实体（也就是未标注实体），但我们把能把它们都当作“负样本”看待，因此需要对所有非实体片段进行负采样。&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
作者也通过实验给出了不同实体mask概率p下，将未标注实体当作负样本的比例。如下图所示：负采样将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;br /&gt;
&lt;br /&gt;
不确定性得分u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高表示模型对其预测的分数很低，表明候选(i,j,O)很可能是一个负实例;&lt;br /&gt;
非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 较高意味着候选(i,j,O)是未标记实体的可能性较低。&lt;br /&gt;
&lt;br /&gt;
在此基础上，研究人员设计了一个加权抽样分布来代替负抽样中使用的均匀抽样分布:&lt;br /&gt;
[[Image:Weighted.jpg|400px]]&lt;br /&gt;
&lt;br /&gt;
其中µ≥1放大非实体分数v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt; 的影响,T≥1控制抽样分布的平滑性。设置高的µ以确保对未标记实体具有良好的鲁棒性。T安排为√(C−c)，其中C为训练epoch的个数，0≤c&amp;lt;C为当前epoch的个数。由于NER模型在训练初期是不准确的，所以更均匀的抽样分布(即更高的T)更安全。&lt;br /&gt;
&lt;br /&gt;
理想情况下，这种加权的抽样分布为负实例设置高概率，为未标记实体设置低概率。前文中提到的问题就可以很好地解决。此外，两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;是通过NER模型自适应学习的，不需要借助外部资源。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Weighted.jpg&amp;diff=6706</id>
		<title>文件:Weighted.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Weighted.jpg&amp;diff=6706"/>
		<updated>2021-12-13T08:01:39Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6705</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6705"/>
		<updated>2021-12-13T07:57:14Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
所有非实体片段中，有一部分可能是真正的、但未标注的实体（也就是未标注实体），但我们把能把它们都当作“负样本”看待，因此需要对所有非实体片段进行负采样。&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
作者也通过实验给出了不同实体mask概率p下，将未标注实体当作负样本的比例。如下图所示：负采样将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;br /&gt;
&lt;br /&gt;
首先需要知道两个权重参数：u&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;  和 v&amp;lt;sub&amp;gt;ij&amp;lt;/sub&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Image:U_ij.jpg|300px]]    [[Image:V_ij.jpg|300px]]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:V_ij.jpg&amp;diff=6704</id>
		<title>文件:V ij.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:V_ij.jpg&amp;diff=6704"/>
		<updated>2021-12-13T07:56:11Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:U_ij.jpg&amp;diff=6703</id>
		<title>文件:U ij.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:U_ij.jpg&amp;diff=6703"/>
		<updated>2021-12-13T07:55:49Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6702</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6702"/>
		<updated>2021-12-13T07:30:36Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
&lt;br /&gt;
所有非实体片段中，有一部分可能是真正的、但未标注的实体（也就是未标注实体），但我们把能把它们都当作“负样本”看待，因此需要对所有非实体片段进行负采样。&lt;br /&gt;
&lt;br /&gt;
采样进行loss计算的非实体片段共有λn个，n为序列长度，λ为0.1,0.2...0.9.&lt;br /&gt;
&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
论文也通过公式证明：通过负采样，可以将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
[[Image:prove.jpg|600px]]&lt;br /&gt;
&lt;br /&gt;
上述公式表明：通过负采样，不将未标注实体作为负样本的概率大于 1-2/(n-5)，可以大幅缓解未标注实体导致NER指标下降。&lt;br /&gt;
&lt;br /&gt;
作者也通过实验给出了不同实体mask概率p下，将未标注实体当作负样本的比例。如下图所示：负采样将未标注实体当作负样本训练、维持在一个很低水平。&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Prove.jpg&amp;diff=6701</id>
		<title>文件:Prove.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Prove.jpg&amp;diff=6701"/>
		<updated>2021-12-13T07:29:21Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6700</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6700"/>
		<updated>2021-12-13T07:25:25Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。除此之外，在实验中，当无标签实体对于整个模型的性能影响较大时，误采样率是不可忽略的。为了解决这些问题，本论文的研究人员提出了负采样的加权抽样分布。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6699</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6699"/>
		<updated>2021-12-13T07:24:27Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
*'''''2. Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
负采样的一个性质是，对于一个句子，只有很小一部分的负采样用于训练。因此，有负采样实例并没有应用于NER模型。这会一定程度上导致模型的泛化能力的降低。此外，在实验中，当无标签实体问题变得非常严重时，误采样率是不可忽略的。为了解决这些问题，研究人员提出了负采样的加权抽样分布。&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:LOSS.jpg&amp;diff=6698</id>
		<title>文件:LOSS.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:LOSS.jpg&amp;diff=6698"/>
		<updated>2021-12-13T07:20:13Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：Luohuiying上传文件:LOSS.jpg的新版本&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6697</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6697"/>
		<updated>2021-12-13T07:20:00Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;br /&gt;
[[Image:LOSS.jpg|800px]]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:LOSS.jpg&amp;diff=6696</id>
		<title>文件:LOSS.jpg</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:LOSS.jpg&amp;diff=6696"/>
		<updated>2021-12-13T07:18:44Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6695</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6695"/>
		<updated>2021-12-13T07:17:28Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
*'''''1. Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition&lt;br /&gt;
&lt;br /&gt;
未标注会造成两类问题：1）降低正样本量。2）将未标注视为负样本。1 可以通过 adaptive pretrain 缓解，而 2 后果却更严重，会对于模型造成误导，怎么消除这种误导呢，那就是负采样。&lt;br /&gt;
本文 NER 框架使用了片段排列分类的框架，即每个片段都会有一个实体类型进行分类，也更适合负采样。&lt;br /&gt;
负采样对于所有非实体的片段组合使用下采样，因为非实体的片段组合中有可能存在正样本，所以负采样一定程度能够缓解未标注问题。注意是缓解不是解决。损失函数如下：&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6694</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6694"/>
		<updated>2021-12-13T07:13:42Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==负采样==&lt;br /&gt;
&lt;br /&gt;
自然语言处理领域中，判断两个单词是不是一对上下文词（context）与目标词（target），如果是一对，则是正样本，如果不是一对，则是负样本。&lt;br /&gt;
&lt;br /&gt;
采样得到一个上下文词和一个目标词，生成一个正样本（positive example），生成一个负样本（negative example），则是用与正样本相同的上下文词，再在字典中随机选择一个单词，这就是负采样（negative sampling）。&lt;br /&gt;
&lt;br /&gt;
比如给定一句话“这是去上学的班车”，则对这句话进行正采样，得到上下文“上”和目标词“学”，则这两个字就是正样本。&lt;br /&gt;
负样本的采样需要选定同样的“上”，然后在训练的字典中任意取另一个字，“梦”、“目”，这一对就构成负样本。&lt;br /&gt;
训练需要正样本和负样本同时存在。&lt;br /&gt;
&lt;br /&gt;
==NER的负采样==&lt;br /&gt;
===1.基于负采样的方法（Li）===&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6685</id>
		<title>分类:NER以及RE的负采样方法</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:NER%E4%BB%A5%E5%8F%8ARE%E7%9A%84%E8%B4%9F%E9%87%87%E6%A0%B7%E6%96%B9%E6%B3%95&amp;diff=6685"/>
		<updated>2021-12-06T02:50:17Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：建立内容为“=”的新页面&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;=&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6684</id>
		<title>分类:Bert相关材料</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6684"/>
		<updated>2021-12-06T02:31:45Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：/* 3.规模 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Bert==&lt;br /&gt;
基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。&lt;br /&gt;
&lt;br /&gt;
最初的英语BERT发布时提供两种类型的预训练模型：（1）BERTBASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERTLARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。&lt;br /&gt;
&lt;br /&gt;
==模型架构==&lt;br /&gt;
===1.总体架构===&lt;br /&gt;
利用Transformer的Encoder去训练双向语言模型BERT，再在BERT后面接上特定任务的分类器。&lt;br /&gt;
[[Image:Bert-transfer-learning.png|800px]]&lt;br /&gt;
&lt;br /&gt;
使用方法示例：&lt;br /&gt;
[[Image:BERT-classification-spam.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===2.输入与输出===&lt;br /&gt;
[[Image:Bert-input-output.png|800px]]&lt;br /&gt;
[[Image:Bert-encoders-input.png|800px]]&lt;br /&gt;
[[Image:Bert-output-vector.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===3.规模===&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;BASE&amp;lt;/sub&amp;gt; ：L=12,H=768,A=12。总参数为110M。和GPT一样&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;LARGE&amp;lt;/sub&amp;gt; ：L=24,H=1024,A=16。总参数为340M。最优模型&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-base-bert-large.png|800px]]&lt;br /&gt;
[[Image:Bert-base-bert-large-encoders.png|800px]]&lt;br /&gt;
&lt;br /&gt;
==单个位置的输入==&lt;br /&gt;
&lt;br /&gt;
每个位置输入三个部分相加而成：&lt;br /&gt;
&lt;br /&gt;
* wordpiece-token向量&lt;br /&gt;
* 位置向量：512个。训练&lt;br /&gt;
* 段向量：sentence A B两个向量。训练&lt;br /&gt;
&lt;br /&gt;
一些符号：&lt;br /&gt;
&lt;br /&gt;
* CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息&lt;br /&gt;
&lt;br /&gt;
* SEP：输入是QA或2个句子时，需添加SEP标记以示区别&lt;br /&gt;
&lt;br /&gt;
* E&amp;lt;sub&amp;gt;A&amp;lt;/sub&amp;gt;和E&amp;lt;sub&amp;gt;B&amp;lt;/sub&amp;gt;：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-input.png|800px]]&lt;br /&gt;
&lt;br /&gt;
==预训练语言模型==&lt;br /&gt;
单向语言模型的能力很差，单独训练两个方向的语言模型再把结果拼接起来也不好。那么怎么才能训练一个真正的双向语言模型呢？如何让一个单词is conditioned on both left and right context呢？答案就是Masked Language Model&lt;br /&gt;
&lt;br /&gt;
'''Masked LM'''&lt;br /&gt;
&lt;br /&gt;
在进行WordPiece之后，随机掩盖一些（15%）词汇，再去预测这些词汇。&lt;br /&gt;
&lt;br /&gt;
[[Image:BERT-language-modeling-masked-lm.png|800px]]&lt;br /&gt;
&lt;br /&gt;
但有两个缺点&lt;br /&gt;
&lt;br /&gt;
'''缺点1 大量mask标记，造成预训练和finetune时候的差距，因为finetune没有mask'''&lt;br /&gt;
&lt;br /&gt;
* 80%：替换为mask&lt;br /&gt;
* 10%：随机替换为其它词汇&lt;br /&gt;
* 10%：保留原来的词汇。这部分正确的保留，保证了语言能力。&lt;br /&gt;
&lt;br /&gt;
由于Transformer不知道要预测哪个词语，所以它会强制学习到所有单词的上下文表达。&lt;br /&gt;
&lt;br /&gt;
'''缺点2 收敛很慢，但是效果好'''&lt;br /&gt;
&lt;br /&gt;
比单向语言模型收敛较慢。&lt;br /&gt;
&lt;br /&gt;
==预训练NSP任务==&lt;br /&gt;
&lt;br /&gt;
对于像QA、NLI等需要理解多个句子之间关系的下游任务，只靠语言模型是不够的。'''还需要提前学习到句子之间的关系。'''&lt;br /&gt;
&lt;br /&gt;
'''Next Sentence Prediction'''&lt;br /&gt;
&lt;br /&gt;
NSP（Next Sentence Prediction），是一个二分类任务。输入是A和B两个句子，标记是IsNext或NotNext，用来判断B是否是A后面的句子。这样，就能从大规模预料中学习到一些句间关系。&lt;br /&gt;
[[Image:Bert-next-sentence-prediction.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
模型最终能达到97%-98%的准确率，对QA和NLI都很有效果。&lt;br /&gt;
&lt;br /&gt;
==预训练细节==&lt;br /&gt;
&lt;br /&gt;
'''数据组成'''&lt;br /&gt;
&lt;br /&gt;
语料是下面两个库，合计33亿词汇。采用文档级别的语料，有利于学习长依赖序列。&lt;br /&gt;
&lt;br /&gt;
* BooksCorpus：8亿个词。(800M)&lt;br /&gt;
* 英文维基百科：25亿个词。(2,500M)&lt;br /&gt;
&lt;br /&gt;
从语料库中随机选择2个片段(较长)作为两个AB句子，构成一条输入数据：&lt;br /&gt;
&lt;br /&gt;
* 0.5概率A-B两个句子连续，0.5概率随机选择B&lt;br /&gt;
* A使用A embedding，B使用B embedding&lt;br /&gt;
* A和B总长度最大为512 tokens&lt;br /&gt;
&lt;br /&gt;
WordPiece Tokenization 后再mask掉15%的词汇。&lt;br /&gt;
&lt;br /&gt;
'''训练参数'''&lt;br /&gt;
&lt;br /&gt;
* batch_size：256。每条数据长度：512&lt;br /&gt;
* 100万步，40个epoch。语料合计33亿词汇&lt;br /&gt;
* Adam ：β1=0.9,β2=0.999&lt;br /&gt;
* L2权值衰减为0.01。所有层的dropout为0.1&lt;br /&gt;
* 学习率的warmup的step为10000&lt;br /&gt;
* GELU激活函数&lt;br /&gt;
* 训练loss：LM和NSP的loss加起来&lt;br /&gt;
* BERT base 16个TPU，Large 64个TPU，训练4天&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==相关学习资料==&lt;br /&gt;
&lt;br /&gt;
'''CS224n'''&lt;br /&gt;
* 课程主页：[http://web.stanford.edu/class/cs224n/index.html  Stanford Winter cs224n]&lt;br /&gt;
* 课程视频：[https://www.youtube.com/playlist%3Flist%3DPLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z  YouTube]&lt;br /&gt;
* 课程笔记: [https://github.com/LooperXX/CS224n-2019  LooperXX/CS224n-2019]&lt;br /&gt;
* 国内视频资源：[https://www.bilibili.com/video/BV1pt411h7aT  CS224n 斯坦福深度自然语言处理课]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''论文推荐'''&lt;br /&gt;
&lt;br /&gt;
* 论文原文: [https://arxiv.org/abs/1810.04805   BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]&lt;br /&gt;
* 相关论文合集: [https://github.com/tomohideshibata/BERT-related-papers%23domain-specific   https://github.com/tomohideshibata/BERT-related-papers%23domain-specific]&lt;br /&gt;
&lt;br /&gt;
'''资源推荐'''&lt;br /&gt;
* 官方代码和预训练模型 [https://github.com/google-research/bert   Github：https://github.com/google-research/bert]&lt;br /&gt;
&lt;br /&gt;
* 第三方代码&lt;br /&gt;
  Google官方推荐的PyTorch BERB版本实现: [https://github.com/huggingface/pytorch-pretrained-BERT  pytorch-pretrained-BERT]&lt;br /&gt;
  另一个Pytorch版本实现：Google AI 2018 BERT pytorch implementation [https://github.com/codertimo/BERT-pytorch   BERT-pytorch]&lt;br /&gt;
  Tensorflow版本: [https://github.com/guotong1988/BERT-tensorflow   BERT-tensorflow]&lt;br /&gt;
  BERT实战:多标签文本分类:[https://github.com/brightmart/sentiment_analysis_fine_grain   sentiment_analysis_fine_grain]&lt;br /&gt;
  [https://python.ctolib.com/jessevig-bertviz.html   BertViz-一个用于可视化 BERT's attention 层的工具]&lt;br /&gt;
&lt;br /&gt;
'''博客推荐'''&lt;br /&gt;
&lt;br /&gt;
* [https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html   Google AI Blog：Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing]&lt;br /&gt;
* [https://zhuanlan.zhihu.com/p/51413773   NLP必读：十分钟读懂谷歌BERT模型]&lt;br /&gt;
* [https://blog.csdn.net/weixin_43320501/article/details/93894946   BERT源码注释 (run_classifier.py)]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6601</id>
		<title>分类:Bert相关材料</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6601"/>
		<updated>2021-11-15T08:56:04Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：/* 相关学习资料 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Bert==&lt;br /&gt;
基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。&lt;br /&gt;
&lt;br /&gt;
最初的英语BERT发布时提供两种类型的预训练模型：（1）BERTBASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERTLARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。&lt;br /&gt;
&lt;br /&gt;
==模型架构==&lt;br /&gt;
===1.总体架构===&lt;br /&gt;
利用Transformer的Encoder去训练双向语言模型BERT，再在BERT后面接上特定任务的分类器。&lt;br /&gt;
[[Image:Bert-transfer-learning.png|800px]]&lt;br /&gt;
&lt;br /&gt;
使用方法示例：&lt;br /&gt;
[[Image:BERT-classification-spam.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===2.输入与输出===&lt;br /&gt;
[[Image:Bert-input-output.png|800px]]&lt;br /&gt;
[[Image:Bert-encoders-input.png|800px]]&lt;br /&gt;
[[Image:Bert-output-vector.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===3.三种规模===&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;BASE&amp;lt;/sub&amp;gt; ：L=12,H=768,A=12。总参数为110M。和GPT一样&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;LARGE&amp;lt;/sub&amp;gt; ：L=24,H=1024,A=16。总参数为340M。最优模型&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-base-bert-large.png|800px]]&lt;br /&gt;
[[Image:Bert-base-bert-large-encoders.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==单个位置的输入==&lt;br /&gt;
&lt;br /&gt;
每个位置输入三个部分相加而成：&lt;br /&gt;
&lt;br /&gt;
* wordpiece-token向量&lt;br /&gt;
* 位置向量：512个。训练&lt;br /&gt;
* 段向量：sentence A B两个向量。训练&lt;br /&gt;
&lt;br /&gt;
一些符号：&lt;br /&gt;
&lt;br /&gt;
* CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息&lt;br /&gt;
&lt;br /&gt;
* SEP：输入是QA或2个句子时，需添加SEP标记以示区别&lt;br /&gt;
&lt;br /&gt;
* E&amp;lt;sub&amp;gt;A&amp;lt;/sub&amp;gt;和E&amp;lt;sub&amp;gt;B&amp;lt;/sub&amp;gt;：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-input.png|800px]]&lt;br /&gt;
&lt;br /&gt;
==预训练语言模型==&lt;br /&gt;
单向语言模型的能力很差，单独训练两个方向的语言模型再把结果拼接起来也不好。那么怎么才能训练一个真正的双向语言模型呢？如何让一个单词is conditioned on both left and right context呢？答案就是Masked Language Model&lt;br /&gt;
&lt;br /&gt;
'''Masked LM'''&lt;br /&gt;
&lt;br /&gt;
在进行WordPiece之后，随机掩盖一些（15%）词汇，再去预测这些词汇。&lt;br /&gt;
&lt;br /&gt;
[[Image:BERT-language-modeling-masked-lm.png|800px]]&lt;br /&gt;
&lt;br /&gt;
但有两个缺点&lt;br /&gt;
&lt;br /&gt;
'''缺点1 大量mask标记，造成预训练和finetune时候的差距，因为finetune没有mask'''&lt;br /&gt;
&lt;br /&gt;
* 80%：替换为mask&lt;br /&gt;
* 10%：随机替换为其它词汇&lt;br /&gt;
* 10%：保留原来的词汇。这部分正确的保留，保证了语言能力。&lt;br /&gt;
&lt;br /&gt;
由于Transformer不知道要预测哪个词语，所以它会强制学习到所有单词的上下文表达。&lt;br /&gt;
&lt;br /&gt;
'''缺点2 收敛很慢，但是效果好'''&lt;br /&gt;
&lt;br /&gt;
比单向语言模型收敛较慢。&lt;br /&gt;
&lt;br /&gt;
==预训练NSP任务==&lt;br /&gt;
&lt;br /&gt;
对于像QA、NLI等需要理解多个句子之间关系的下游任务，只靠语言模型是不够的。'''还需要提前学习到句子之间的关系。'''&lt;br /&gt;
&lt;br /&gt;
'''Next Sentence Prediction'''&lt;br /&gt;
&lt;br /&gt;
NSP（Next Sentence Prediction），是一个二分类任务。输入是A和B两个句子，标记是IsNext或NotNext，用来判断B是否是A后面的句子。这样，就能从大规模预料中学习到一些句间关系。&lt;br /&gt;
[[Image:Bert-next-sentence-prediction.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
模型最终能达到97%-98%的准确率，对QA和NLI都很有效果。&lt;br /&gt;
&lt;br /&gt;
==预训练细节==&lt;br /&gt;
&lt;br /&gt;
'''数据组成'''&lt;br /&gt;
&lt;br /&gt;
语料是下面两个库，合计33亿词汇。采用文档级别的语料，有利于学习长依赖序列。&lt;br /&gt;
&lt;br /&gt;
* BooksCorpus：8亿个词。(800M)&lt;br /&gt;
* 英文维基百科：25亿个词。(2,500M)&lt;br /&gt;
&lt;br /&gt;
从语料库中随机选择2个片段(较长)作为两个AB句子，构成一条输入数据：&lt;br /&gt;
&lt;br /&gt;
* 0.5概率A-B两个句子连续，0.5概率随机选择B&lt;br /&gt;
* A使用A embedding，B使用B embedding&lt;br /&gt;
* A和B总长度最大为512 tokens&lt;br /&gt;
&lt;br /&gt;
WordPiece Tokenization 后再mask掉15%的词汇。&lt;br /&gt;
&lt;br /&gt;
'''训练参数'''&lt;br /&gt;
&lt;br /&gt;
* batch_size：256。每条数据长度：512&lt;br /&gt;
* 100万步，40个epoch。语料合计33亿词汇&lt;br /&gt;
* Adam ：β1=0.9,β2=0.999&lt;br /&gt;
* L2权值衰减为0.01。所有层的dropout为0.1&lt;br /&gt;
* 学习率的warmup的step为10000&lt;br /&gt;
* GELU激活函数&lt;br /&gt;
* 训练loss：LM和NSP的loss加起来&lt;br /&gt;
* BERT base 16个TPU，Large 64个TPU，训练4天&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==相关学习资料==&lt;br /&gt;
&lt;br /&gt;
'''CS224n'''&lt;br /&gt;
* 课程主页：[http://web.stanford.edu/class/cs224n/index.html  Stanford Winter cs224n]&lt;br /&gt;
* 课程视频：[https://www.youtube.com/playlist%3Flist%3DPLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z  YouTube]&lt;br /&gt;
* 课程笔记: [https://github.com/LooperXX/CS224n-2019  LooperXX/CS224n-2019]&lt;br /&gt;
* 国内视频资源：[https://www.bilibili.com/video/BV1pt411h7aT  CS224n 斯坦福深度自然语言处理课]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''论文推荐'''&lt;br /&gt;
&lt;br /&gt;
* 论文原文: [https://arxiv.org/abs/1810.04805   BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]&lt;br /&gt;
* 相关论文合集: [https://github.com/tomohideshibata/BERT-related-papers%23domain-specific   https://github.com/tomohideshibata/BERT-related-papers%23domain-specific]&lt;br /&gt;
&lt;br /&gt;
'''资源推荐'''&lt;br /&gt;
* 官方代码和预训练模型 [https://github.com/google-research/bert   Github：https://github.com/google-research/bert]&lt;br /&gt;
&lt;br /&gt;
* 第三方代码&lt;br /&gt;
  Google官方推荐的PyTorch BERB版本实现: [https://github.com/huggingface/pytorch-pretrained-BERT  pytorch-pretrained-BERT]&lt;br /&gt;
  另一个Pytorch版本实现：Google AI 2018 BERT pytorch implementation [https://github.com/codertimo/BERT-pytorch   BERT-pytorch]&lt;br /&gt;
  Tensorflow版本: [https://github.com/guotong1988/BERT-tensorflow   BERT-tensorflow]&lt;br /&gt;
  BERT实战:多标签文本分类:[https://github.com/brightmart/sentiment_analysis_fine_grain   sentiment_analysis_fine_grain]&lt;br /&gt;
  [https://python.ctolib.com/jessevig-bertviz.html   BertViz-一个用于可视化 BERT's attention 层的工具]&lt;br /&gt;
&lt;br /&gt;
'''博客推荐'''&lt;br /&gt;
&lt;br /&gt;
* [https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html   Google AI Blog：Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing]&lt;br /&gt;
* [https://zhuanlan.zhihu.com/p/51413773   NLP必读：十分钟读懂谷歌BERT模型]&lt;br /&gt;
* [https://blog.csdn.net/weixin_43320501/article/details/93894946   BERT源码注释 (run_classifier.py)]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6599</id>
		<title>分类:Bert相关材料</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6599"/>
		<updated>2021-11-15T08:54:00Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：/* 预训练语言模型 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Bert==&lt;br /&gt;
基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。&lt;br /&gt;
&lt;br /&gt;
最初的英语BERT发布时提供两种类型的预训练模型：（1）BERTBASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERTLARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。&lt;br /&gt;
&lt;br /&gt;
==模型架构==&lt;br /&gt;
===1.总体架构===&lt;br /&gt;
利用Transformer的Encoder去训练双向语言模型BERT，再在BERT后面接上特定任务的分类器。&lt;br /&gt;
[[Image:Bert-transfer-learning.png|800px]]&lt;br /&gt;
&lt;br /&gt;
使用方法示例：&lt;br /&gt;
[[Image:BERT-classification-spam.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===2.输入与输出===&lt;br /&gt;
[[Image:Bert-input-output.png|800px]]&lt;br /&gt;
[[Image:Bert-encoders-input.png|800px]]&lt;br /&gt;
[[Image:Bert-output-vector.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===3.三种规模===&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;BASE&amp;lt;/sub&amp;gt; ：L=12,H=768,A=12。总参数为110M。和GPT一样&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;LARGE&amp;lt;/sub&amp;gt; ：L=24,H=1024,A=16。总参数为340M。最优模型&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-base-bert-large.png|800px]]&lt;br /&gt;
[[Image:Bert-base-bert-large-encoders.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==单个位置的输入==&lt;br /&gt;
&lt;br /&gt;
每个位置输入三个部分相加而成：&lt;br /&gt;
&lt;br /&gt;
* wordpiece-token向量&lt;br /&gt;
* 位置向量：512个。训练&lt;br /&gt;
* 段向量：sentence A B两个向量。训练&lt;br /&gt;
&lt;br /&gt;
一些符号：&lt;br /&gt;
&lt;br /&gt;
* CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息&lt;br /&gt;
&lt;br /&gt;
* SEP：输入是QA或2个句子时，需添加SEP标记以示区别&lt;br /&gt;
&lt;br /&gt;
* E&amp;lt;sub&amp;gt;A&amp;lt;/sub&amp;gt;和E&amp;lt;sub&amp;gt;B&amp;lt;/sub&amp;gt;：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-input.png|800px]]&lt;br /&gt;
&lt;br /&gt;
==预训练语言模型==&lt;br /&gt;
单向语言模型的能力很差，单独训练两个方向的语言模型再把结果拼接起来也不好。那么怎么才能训练一个真正的双向语言模型呢？如何让一个单词is conditioned on both left and right context呢？答案就是Masked Language Model&lt;br /&gt;
&lt;br /&gt;
'''Masked LM'''&lt;br /&gt;
&lt;br /&gt;
在进行WordPiece之后，随机掩盖一些（15%）词汇，再去预测这些词汇。&lt;br /&gt;
&lt;br /&gt;
[[Image:BERT-language-modeling-masked-lm.png|800px]]&lt;br /&gt;
&lt;br /&gt;
但有两个缺点&lt;br /&gt;
&lt;br /&gt;
'''缺点1 大量mask标记，造成预训练和finetune时候的差距，因为finetune没有mask'''&lt;br /&gt;
&lt;br /&gt;
* 80%：替换为mask&lt;br /&gt;
* 10%：随机替换为其它词汇&lt;br /&gt;
* 10%：保留原来的词汇。这部分正确的保留，保证了语言能力。&lt;br /&gt;
&lt;br /&gt;
由于Transformer不知道要预测哪个词语，所以它会强制学习到所有单词的上下文表达。&lt;br /&gt;
&lt;br /&gt;
'''缺点2 收敛很慢，但是效果好'''&lt;br /&gt;
&lt;br /&gt;
比单向语言模型收敛较慢。&lt;br /&gt;
&lt;br /&gt;
==预训练NSP任务==&lt;br /&gt;
&lt;br /&gt;
对于像QA、NLI等需要理解多个句子之间关系的下游任务，只靠语言模型是不够的。'''还需要提前学习到句子之间的关系。'''&lt;br /&gt;
&lt;br /&gt;
'''Next Sentence Prediction'''&lt;br /&gt;
&lt;br /&gt;
NSP（Next Sentence Prediction），是一个二分类任务。输入是A和B两个句子，标记是IsNext或NotNext，用来判断B是否是A后面的句子。这样，就能从大规模预料中学习到一些句间关系。&lt;br /&gt;
[[Image:Bert-next-sentence-prediction.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
模型最终能达到97%-98%的准确率，对QA和NLI都很有效果。&lt;br /&gt;
&lt;br /&gt;
==预训练细节==&lt;br /&gt;
&lt;br /&gt;
'''数据组成'''&lt;br /&gt;
&lt;br /&gt;
语料是下面两个库，合计33亿词汇。采用文档级别的语料，有利于学习长依赖序列。&lt;br /&gt;
&lt;br /&gt;
* BooksCorpus：8亿个词。(800M)&lt;br /&gt;
* 英文维基百科：25亿个词。(2,500M)&lt;br /&gt;
&lt;br /&gt;
从语料库中随机选择2个片段(较长)作为两个AB句子，构成一条输入数据：&lt;br /&gt;
&lt;br /&gt;
* 0.5概率A-B两个句子连续，0.5概率随机选择B&lt;br /&gt;
* A使用A embedding，B使用B embedding&lt;br /&gt;
* A和B总长度最大为512 tokens&lt;br /&gt;
&lt;br /&gt;
WordPiece Tokenization 后再mask掉15%的词汇。&lt;br /&gt;
&lt;br /&gt;
'''训练参数'''&lt;br /&gt;
&lt;br /&gt;
* batch_size：256。每条数据长度：512&lt;br /&gt;
* 100万步，40个epoch。语料合计33亿词汇&lt;br /&gt;
* Adam ：β1=0.9,β2=0.999&lt;br /&gt;
* L2权值衰减为0.01。所有层的dropout为0.1&lt;br /&gt;
* 学习率的warmup的step为10000&lt;br /&gt;
* GELU激活函数&lt;br /&gt;
* 训练loss：LM和NSP的loss加起来&lt;br /&gt;
* BERT base 16个TPU，Large 64个TPU，训练4天&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==相关学习资料==&lt;br /&gt;
&lt;br /&gt;
'''CS224n'''&lt;br /&gt;
* 课程主页：[http://web.stanford.edu/class/cs224n/index.html  Stanford Winter cs224n]&lt;br /&gt;
* 课程视频：[https://www.youtube.com/playlist%3Flist%3DPLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z  YouTube]&lt;br /&gt;
* 课程笔记: [https://github.com/LooperXX/CS224n-2019  LooperXX/CS224n-2019]&lt;br /&gt;
* 国内视频资源：[https://www.bilibili.com/video/BV1pt411h7aT  CS224n 斯坦福深度自然语言处理课]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''论文推荐'''&lt;br /&gt;
&lt;br /&gt;
* 论文原文: [https://arxiv.org/abs/1810.04805   BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]&lt;br /&gt;
* 相关论文合集: [https://github.com/tomohideshibata/BERT-related-papers%23domain-specific   https://github.com/tomohideshibata/BERT-related-papers%23domain-specific]&lt;br /&gt;
&lt;br /&gt;
'''资源推荐'''&lt;br /&gt;
* 官方代码和预训练模型 [https://github.com/google-research/bert   Github：https://github.com/google-research/bert]&lt;br /&gt;
&lt;br /&gt;
* 第三方代码&lt;br /&gt;
  Google官方推荐的PyTorch BERB版本实现: [https://github.com/huggingface/pytorch-pretrained-BERT  pytorch-pretrained-BERT]&lt;br /&gt;
  另一个Pytorch版本实现：Google AI 2018 BERT pytorch implementation[https://github.com/codertimo/BERT-pytorch   BERT-pytorch]&lt;br /&gt;
  Tensorflow版本: [https://github.com/guotong1988/BERT-tensorflow   BERT-tensorflow]&lt;br /&gt;
  BERT实战:多标签文本分类:[https://github.com/brightmart/sentiment_analysis_fine_grain   sentiment_analysis_fine_grain]&lt;br /&gt;
  [https://python.ctolib.com/jessevig-bertviz.html   BertViz-一个用于可视化 BERT's attention 层的工具]&lt;br /&gt;
&lt;br /&gt;
'''博客推荐'''&lt;br /&gt;
&lt;br /&gt;
* [https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html   Google AI Blog：Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing]&lt;br /&gt;
* [https://zhuanlan.zhihu.com/p/51413773   NLP必读：十分钟读懂谷歌BERT模型]&lt;br /&gt;
* [https://blog.csdn.net/weixin_43320501/article/details/93894946   BERT源码注释 (run_classifier.py)]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6598</id>
		<title>分类:Bert相关材料</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6598"/>
		<updated>2021-11-15T08:53:31Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Bert==&lt;br /&gt;
基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。&lt;br /&gt;
&lt;br /&gt;
最初的英语BERT发布时提供两种类型的预训练模型：（1）BERTBASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERTLARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。&lt;br /&gt;
&lt;br /&gt;
==模型架构==&lt;br /&gt;
===1.总体架构===&lt;br /&gt;
利用Transformer的Encoder去训练双向语言模型BERT，再在BERT后面接上特定任务的分类器。&lt;br /&gt;
[[Image:Bert-transfer-learning.png|800px]]&lt;br /&gt;
&lt;br /&gt;
使用方法示例：&lt;br /&gt;
[[Image:BERT-classification-spam.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===2.输入与输出===&lt;br /&gt;
[[Image:Bert-input-output.png|800px]]&lt;br /&gt;
[[Image:Bert-encoders-input.png|800px]]&lt;br /&gt;
[[Image:Bert-output-vector.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===3.三种规模===&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;BASE&amp;lt;/sub&amp;gt; ：L=12,H=768,A=12。总参数为110M。和GPT一样&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;LARGE&amp;lt;/sub&amp;gt; ：L=24,H=1024,A=16。总参数为340M。最优模型&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-base-bert-large.png|800px]]&lt;br /&gt;
[[Image:Bert-base-bert-large-encoders.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==单个位置的输入==&lt;br /&gt;
&lt;br /&gt;
每个位置输入三个部分相加而成：&lt;br /&gt;
&lt;br /&gt;
* wordpiece-token向量&lt;br /&gt;
* 位置向量：512个。训练&lt;br /&gt;
* 段向量：sentence A B两个向量。训练&lt;br /&gt;
&lt;br /&gt;
一些符号：&lt;br /&gt;
&lt;br /&gt;
* CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息&lt;br /&gt;
&lt;br /&gt;
* SEP：输入是QA或2个句子时，需添加SEP标记以示区别&lt;br /&gt;
&lt;br /&gt;
* E&amp;lt;sub&amp;gt;A&amp;lt;/sub&amp;gt;和E&amp;lt;sub&amp;gt;B&amp;lt;/sub&amp;gt;：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-input.png|800px]]&lt;br /&gt;
&lt;br /&gt;
==预训练语言模型==&lt;br /&gt;
单向语言模型的能力很差，单独训练两个方向的语言模型再把结果拼接起来也不好。那么怎么才能训练一个真正的双向语言模型呢？如何让一个单词is conditioned on both left and right context呢？答案就是Masked Language Model&lt;br /&gt;
&lt;br /&gt;
'''Masked LM'''&lt;br /&gt;
&lt;br /&gt;
在进行WordPiece之后，随机掩盖一些（15%）词汇，再去预测这些词汇。&lt;br /&gt;
&lt;br /&gt;
[[Image:BERT-language-modeling-masked-lm.png|800px]]&lt;br /&gt;
&lt;br /&gt;
但有两个缺点&lt;br /&gt;
&lt;br /&gt;
'''缺点1 大量mask标记，造成预训练和finetune时候的差距，因为finetune没有mask'''&lt;br /&gt;
&lt;br /&gt;
* 80%：替换为mask&lt;br /&gt;
* 10%：随机替换为其它词汇&lt;br /&gt;
* 10%：保留原来的词汇。这部分正确的保留，保证了语言能力。&lt;br /&gt;
&lt;br /&gt;
由于Transformer不知道要预测哪个词语，所以它会强制学习到所有单词的上下文表达。&lt;br /&gt;
&lt;br /&gt;
&amp;quot;&amp;quot;缺点2 收敛很慢，但是效果好&amp;quot;&amp;quot;&lt;br /&gt;
&lt;br /&gt;
比单向语言模型收敛较慢。&lt;br /&gt;
&lt;br /&gt;
==预训练NSP任务==&lt;br /&gt;
&lt;br /&gt;
对于像QA、NLI等需要理解多个句子之间关系的下游任务，只靠语言模型是不够的。'''还需要提前学习到句子之间的关系。'''&lt;br /&gt;
&lt;br /&gt;
'''Next Sentence Prediction'''&lt;br /&gt;
&lt;br /&gt;
NSP（Next Sentence Prediction），是一个二分类任务。输入是A和B两个句子，标记是IsNext或NotNext，用来判断B是否是A后面的句子。这样，就能从大规模预料中学习到一些句间关系。&lt;br /&gt;
[[Image:Bert-next-sentence-prediction.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
模型最终能达到97%-98%的准确率，对QA和NLI都很有效果。&lt;br /&gt;
&lt;br /&gt;
==预训练细节==&lt;br /&gt;
&lt;br /&gt;
'''数据组成'''&lt;br /&gt;
&lt;br /&gt;
语料是下面两个库，合计33亿词汇。采用文档级别的语料，有利于学习长依赖序列。&lt;br /&gt;
&lt;br /&gt;
* BooksCorpus：8亿个词。(800M)&lt;br /&gt;
* 英文维基百科：25亿个词。(2,500M)&lt;br /&gt;
&lt;br /&gt;
从语料库中随机选择2个片段(较长)作为两个AB句子，构成一条输入数据：&lt;br /&gt;
&lt;br /&gt;
* 0.5概率A-B两个句子连续，0.5概率随机选择B&lt;br /&gt;
* A使用A embedding，B使用B embedding&lt;br /&gt;
* A和B总长度最大为512 tokens&lt;br /&gt;
&lt;br /&gt;
WordPiece Tokenization 后再mask掉15%的词汇。&lt;br /&gt;
&lt;br /&gt;
'''训练参数'''&lt;br /&gt;
&lt;br /&gt;
* batch_size：256。每条数据长度：512&lt;br /&gt;
* 100万步，40个epoch。语料合计33亿词汇&lt;br /&gt;
* Adam ：β1=0.9,β2=0.999&lt;br /&gt;
* L2权值衰减为0.01。所有层的dropout为0.1&lt;br /&gt;
* 学习率的warmup的step为10000&lt;br /&gt;
* GELU激活函数&lt;br /&gt;
* 训练loss：LM和NSP的loss加起来&lt;br /&gt;
* BERT base 16个TPU，Large 64个TPU，训练4天&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==相关学习资料==&lt;br /&gt;
&lt;br /&gt;
'''CS224n'''&lt;br /&gt;
* 课程主页：[http://web.stanford.edu/class/cs224n/index.html  Stanford Winter cs224n]&lt;br /&gt;
* 课程视频：[https://www.youtube.com/playlist%3Flist%3DPLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z  YouTube]&lt;br /&gt;
* 课程笔记: [https://github.com/LooperXX/CS224n-2019  LooperXX/CS224n-2019]&lt;br /&gt;
* 国内视频资源：[https://www.bilibili.com/video/BV1pt411h7aT  CS224n 斯坦福深度自然语言处理课]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''论文推荐'''&lt;br /&gt;
&lt;br /&gt;
* 论文原文: [https://arxiv.org/abs/1810.04805   BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]&lt;br /&gt;
* 相关论文合集: [https://github.com/tomohideshibata/BERT-related-papers%23domain-specific   https://github.com/tomohideshibata/BERT-related-papers%23domain-specific]&lt;br /&gt;
&lt;br /&gt;
'''资源推荐'''&lt;br /&gt;
* 官方代码和预训练模型 [https://github.com/google-research/bert   Github：https://github.com/google-research/bert]&lt;br /&gt;
&lt;br /&gt;
* 第三方代码&lt;br /&gt;
  Google官方推荐的PyTorch BERB版本实现: [https://github.com/huggingface/pytorch-pretrained-BERT  pytorch-pretrained-BERT]&lt;br /&gt;
  另一个Pytorch版本实现：Google AI 2018 BERT pytorch implementation[https://github.com/codertimo/BERT-pytorch   BERT-pytorch]&lt;br /&gt;
  Tensorflow版本: [https://github.com/guotong1988/BERT-tensorflow   BERT-tensorflow]&lt;br /&gt;
  BERT实战:多标签文本分类:[https://github.com/brightmart/sentiment_analysis_fine_grain   sentiment_analysis_fine_grain]&lt;br /&gt;
  [https://python.ctolib.com/jessevig-bertviz.html   BertViz-一个用于可视化 BERT's attention 层的工具]&lt;br /&gt;
&lt;br /&gt;
'''博客推荐'''&lt;br /&gt;
&lt;br /&gt;
* [https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html   Google AI Blog：Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing]&lt;br /&gt;
* [https://zhuanlan.zhihu.com/p/51413773   NLP必读：十分钟读懂谷歌BERT模型]&lt;br /&gt;
* [https://blog.csdn.net/weixin_43320501/article/details/93894946   BERT源码注释 (run_classifier.py)]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6597</id>
		<title>分类:Bert相关材料</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6597"/>
		<updated>2021-11-15T08:50:59Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Bert==&lt;br /&gt;
基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。&lt;br /&gt;
&lt;br /&gt;
最初的英语BERT发布时提供两种类型的预训练模型：（1）BERTBASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERTLARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。&lt;br /&gt;
&lt;br /&gt;
===模型架构===&lt;br /&gt;
====1.总体架构====&lt;br /&gt;
利用Transformer的Encoder去训练双向语言模型BERT，再在BERT后面接上特定任务的分类器。&lt;br /&gt;
[[Image:Bert-transfer-learning.png|800px]]&lt;br /&gt;
&lt;br /&gt;
使用方法示例：&lt;br /&gt;
[[Image:BERT-classification-spam.png|800px]]&lt;br /&gt;
&lt;br /&gt;
====2.输入与输出====&lt;br /&gt;
[[Image:Bert-input-output.png|800px]]&lt;br /&gt;
[[Image:Bert-encoders-input.png|800px]]&lt;br /&gt;
[[Image:Bert-output-vector.png|800px]]&lt;br /&gt;
&lt;br /&gt;
====3.三种规模====&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;BASE&amp;lt;/sub&amp;gt; ：L=12,H=768,A=12。总参数为110M。和GPT一样&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;LARGE&amp;lt;/sub&amp;gt; ：L=24,H=1024,A=16。总参数为340M。最优模型&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-base-bert-large.png|800px]]&lt;br /&gt;
[[Image:Bert-base-bert-large-encoders.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===单个位置的输入===&lt;br /&gt;
&lt;br /&gt;
每个位置输入三个部分相加而成：&lt;br /&gt;
&lt;br /&gt;
* wordpiece-token向量&lt;br /&gt;
* 位置向量：512个。训练&lt;br /&gt;
* 段向量：sentence A B两个向量。训练&lt;br /&gt;
&lt;br /&gt;
一些符号：&lt;br /&gt;
&lt;br /&gt;
* CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息&lt;br /&gt;
&lt;br /&gt;
* SEP：输入是QA或2个句子时，需添加SEP标记以示区别&lt;br /&gt;
&lt;br /&gt;
* E&amp;lt;sub&amp;gt;A&amp;lt;/sub&amp;gt;和E&amp;lt;sub&amp;gt;B&amp;lt;/sub&amp;gt;：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-input.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===预训练语言模型===&lt;br /&gt;
单向语言模型的能力很差，单独训练两个方向的语言模型再把结果拼接起来也不好。那么怎么才能训练一个真正的双向语言模型呢？如何让一个单词is conditioned on both left and right context呢？答案就是Masked Language Model&lt;br /&gt;
&lt;br /&gt;
'''Masked LM'''&lt;br /&gt;
&lt;br /&gt;
在进行WordPiece之后，随机掩盖一些（15%）词汇，再去预测这些词汇。&lt;br /&gt;
&lt;br /&gt;
[[Image:BERT-language-modeling-masked-lm.png|800px]]&lt;br /&gt;
&lt;br /&gt;
但有两个缺点&lt;br /&gt;
&lt;br /&gt;
'''缺点1 大量mask标记，造成预训练和finetune时候的差距，因为finetune没有mask'''&lt;br /&gt;
&lt;br /&gt;
* 80%：替换为mask&lt;br /&gt;
* 10%：随机替换为其它词汇&lt;br /&gt;
* 10%：保留原来的词汇。这部分正确的保留，保证了语言能力。&lt;br /&gt;
&lt;br /&gt;
由于Transformer不知道要预测哪个词语，所以它会强制学习到所有单词的上下文表达。&lt;br /&gt;
&lt;br /&gt;
&amp;quot;&amp;quot;缺点2 收敛很慢，但是效果好&amp;quot;&amp;quot;&lt;br /&gt;
&lt;br /&gt;
比单向语言模型收敛较慢。&lt;br /&gt;
&lt;br /&gt;
===预训练NSP任务===&lt;br /&gt;
&lt;br /&gt;
对于像QA、NLI等需要理解多个句子之间关系的下游任务，只靠语言模型是不够的。'''还需要提前学习到句子之间的关系。'''&lt;br /&gt;
&lt;br /&gt;
'''Next Sentence Prediction'''&lt;br /&gt;
&lt;br /&gt;
NSP（Next Sentence Prediction），是一个二分类任务。输入是A和B两个句子，标记是IsNext或NotNext，用来判断B是否是A后面的句子。这样，就能从大规模预料中学习到一些句间关系。&lt;br /&gt;
[[Image:Bert-next-sentence-prediction.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
模型最终能达到97%-98%的准确率，对QA和NLI都很有效果。&lt;br /&gt;
&lt;br /&gt;
===预训练细节===&lt;br /&gt;
&lt;br /&gt;
'''数据组成'''&lt;br /&gt;
&lt;br /&gt;
语料是下面两个库，合计33亿词汇。采用文档级别的语料，有利于学习长依赖序列。&lt;br /&gt;
&lt;br /&gt;
* BooksCorpus：8亿个词。(800M)&lt;br /&gt;
* 英文维基百科：25亿个词。(2,500M)&lt;br /&gt;
&lt;br /&gt;
从语料库中随机选择2个片段(较长)作为两个AB句子，构成一条输入数据：&lt;br /&gt;
&lt;br /&gt;
* 0.5概率A-B两个句子连续，0.5概率随机选择B&lt;br /&gt;
* A使用A embedding，B使用B embedding&lt;br /&gt;
* A和B总长度最大为512 tokens&lt;br /&gt;
&lt;br /&gt;
WordPiece Tokenization 后再mask掉15%的词汇。&lt;br /&gt;
&lt;br /&gt;
'''训练参数'''&lt;br /&gt;
&lt;br /&gt;
* batch_size：256。每条数据长度：512&lt;br /&gt;
* 100万步，40个epoch。语料合计33亿词汇&lt;br /&gt;
* Adam ：β1=0.9,β2=0.999&lt;br /&gt;
* L2权值衰减为0.01。所有层的dropout为0.1&lt;br /&gt;
* 学习率的warmup的step为10000&lt;br /&gt;
* GELU激活函数&lt;br /&gt;
* 训练loss：LM和NSP的loss加起来&lt;br /&gt;
* BERT base 16个TPU，Large 64个TPU，训练4天&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===相关学习资料===&lt;br /&gt;
&lt;br /&gt;
'''CS224n'''&lt;br /&gt;
* 课程主页：[http://web.stanford.edu/class/cs224n/index.html  Stanford Winter cs224n]&lt;br /&gt;
* 课程视频：[https://www.youtube.com/playlist%3Flist%3DPLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z  YouTube]&lt;br /&gt;
* 课程笔记: [https://github.com/LooperXX/CS224n-2019  LooperXX/CS224n-2019]&lt;br /&gt;
* 国内视频资源：[https://www.bilibili.com/video/BV1pt411h7aT  CS224n 斯坦福深度自然语言处理课]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''论文推荐'''&lt;br /&gt;
&lt;br /&gt;
* 论文原文: [https://arxiv.org/abs/1810.04805   BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding]&lt;br /&gt;
* 相关论文合集: [https://github.com/tomohideshibata/BERT-related-papers%23domain-specific   https://github.com/tomohideshibata/BERT-related-papers%23domain-specific]&lt;br /&gt;
&lt;br /&gt;
'''资源推荐'''&lt;br /&gt;
* 官方代码和预训练模型 [https://github.com/google-research/bert   Github：https://github.com/google-research/bert]&lt;br /&gt;
&lt;br /&gt;
* 第三方代码&lt;br /&gt;
  1. Google官方推荐的PyTorch BERB版本实现: [https://github.com/huggingface/pytorch-pretrained-BERT  pytorch-pretrained-BERT]&lt;br /&gt;
  2. 另一个Pytorch版本实现：Google AI 2018 BERT pytorch implementation[https://github.com/codertimo/BERT-pytorch   BERT-pytorch]&lt;br /&gt;
  3. Tensorflow版本: [https://github.com/guotong1988/BERT-tensorflow   BERT-tensorflow]&lt;br /&gt;
  4. BERT实战:多标签文本分类:[https://github.com/brightmart/sentiment_analysis_fine_grain   sentiment_analysis_fine_grain]&lt;br /&gt;
   &lt;br /&gt;
* [https://python.ctolib.com/jessevig-bertviz.html   BertViz-一个用于可视化 BERT's attention 层的工具]&lt;br /&gt;
&lt;br /&gt;
'''博客推荐'''&lt;br /&gt;
&lt;br /&gt;
* [https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html   Google AI Blog：Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing]&lt;br /&gt;
* [https://zhuanlan.zhihu.com/p/51413773   NLP必读：十分钟读懂谷歌BERT模型]&lt;br /&gt;
* [https://blog.csdn.net/weixin_43320501/article/details/93894946   BERT源码注释 (run_classifier.py)]&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6596</id>
		<title>分类:Bert相关材料</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E5%88%86%E7%B1%BB:Bert%E7%9B%B8%E5%85%B3%E6%9D%90%E6%96%99&amp;diff=6596"/>
		<updated>2021-11-15T08:41:47Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;==Bert==&lt;br /&gt;
基于变换器的双向编码器表示技术（Bidirectional Encoder Representations from Transformers，BERT）是用于自然语言处理（NLP）的预训练技术，由Google提出。2018年，雅各布·德夫林和同事创建并发布了BERT。Google正在利用BERT来更好地理解用户搜索语句的语义。&lt;br /&gt;
&lt;br /&gt;
最初的英语BERT发布时提供两种类型的预训练模型：（1）BERTBASE模型，一个12层，768维，12个自注意头（self attention head），110M参数的神经网络结构；（2）BERTLARGE模型，一个24层，1024维，16个自注意头，340M参数的神经网络结构。两者的训练语料都是BooksCorpus以及英语维基百科语料，单词量分别是8亿以及25亿。&lt;br /&gt;
&lt;br /&gt;
===模型架构===&lt;br /&gt;
====1.总体架构====&lt;br /&gt;
利用Transformer的Encoder去训练双向语言模型BERT，再在BERT后面接上特定任务的分类器。&lt;br /&gt;
[[Image:Bert-transfer-learning.png|800px]]&lt;br /&gt;
&lt;br /&gt;
使用方法示例：&lt;br /&gt;
[[Image:BERT-classification-spam.png|800px]]&lt;br /&gt;
&lt;br /&gt;
====2.输入与输出====&lt;br /&gt;
[[Image:Bert-input-output.png|800px]]&lt;br /&gt;
[[Image:Bert-encoders-input.png|800px]]&lt;br /&gt;
[[Image:Bert-output-vector.png|800px]]&lt;br /&gt;
&lt;br /&gt;
====3.三种规模====&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;BASE&amp;lt;/sub&amp;gt; ：L=12,H=768,A=12。总参数为110M。和GPT一样&lt;br /&gt;
&lt;br /&gt;
* BERT&amp;lt;sub&amp;gt;LARGE&amp;lt;/sub&amp;gt; ：L=24,H=1024,A=16。总参数为340M。最优模型&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-base-bert-large.png|800px]]&lt;br /&gt;
[[Image:Bert-base-bert-large-encoders.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===单个位置的输入===&lt;br /&gt;
&lt;br /&gt;
每个位置输入三个部分相加而成：&lt;br /&gt;
&lt;br /&gt;
* wordpiece-token向量&lt;br /&gt;
* 位置向量：512个。训练&lt;br /&gt;
* 段向量：sentence A B两个向量。训练&lt;br /&gt;
&lt;br /&gt;
一些符号：&lt;br /&gt;
&lt;br /&gt;
* CLS：special classification embedding，用于分类的向量，会聚集所有的分类信息&lt;br /&gt;
&lt;br /&gt;
* SEP：输入是QA或2个句子时，需添加SEP标记以示区别&lt;br /&gt;
&lt;br /&gt;
* E&amp;lt;sub&amp;gt;A&amp;lt;/sub&amp;gt;和E&amp;lt;sub&amp;gt;B&amp;lt;/sub&amp;gt;：输入是QA或2个句子时，标记的sentence向量。如只有一个句子，则是sentence A向量&lt;br /&gt;
&lt;br /&gt;
[[Image:Bert-input.png|800px]]&lt;br /&gt;
&lt;br /&gt;
===预训练语言模型===&lt;br /&gt;
单向语言模型的能力很差，单独训练两个方向的语言模型再把结果拼接起来也不好。那么怎么才能训练一个真正的双向语言模型呢？如何让一个单词is conditioned on both left and right context呢？答案就是Masked Language Model&lt;br /&gt;
&lt;br /&gt;
'''Masked LM'''&lt;br /&gt;
&lt;br /&gt;
在进行WordPiece之后，随机掩盖一些（15%）词汇，再去预测这些词汇。&lt;br /&gt;
&lt;br /&gt;
[[Image:BERT-language-modeling-masked-lm.png|800px]]&lt;br /&gt;
&lt;br /&gt;
但有两个缺点&lt;br /&gt;
&lt;br /&gt;
'''缺点1 大量mask标记，造成预训练和finetune时候的差距，因为finetune没有mask'''&lt;br /&gt;
&lt;br /&gt;
* 80%：替换为mask&lt;br /&gt;
* 10%：随机替换为其它词汇&lt;br /&gt;
* 10%：保留原来的词汇。这部分正确的保留，保证了语言能力。&lt;br /&gt;
&lt;br /&gt;
由于Transformer不知道要预测哪个词语，所以它会强制学习到所有单词的上下文表达。&lt;br /&gt;
&lt;br /&gt;
&amp;quot;&amp;quot;缺点2 收敛很慢，但是效果好&amp;quot;&amp;quot;&lt;br /&gt;
&lt;br /&gt;
比单向语言模型收敛较慢。&lt;br /&gt;
&lt;br /&gt;
===预训练NSP任务===&lt;br /&gt;
&lt;br /&gt;
对于像QA、NLI等需要理解多个句子之间关系的下游任务，只靠语言模型是不够的。'''还需要提前学习到句子之间的关系。'''&lt;br /&gt;
&lt;br /&gt;
'''Next Sentence Prediction'''&lt;br /&gt;
&lt;br /&gt;
NSP（Next Sentence Prediction），是一个二分类任务。输入是A和B两个句子，标记是IsNext或NotNext，用来判断B是否是A后面的句子。这样，就能从大规模预料中学习到一些句间关系。&lt;br /&gt;
[[Image:Bert-next-sentence-prediction.png|800px]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
模型最终能达到97%-98%的准确率，对QA和NLI都很有效果。&lt;br /&gt;
&lt;br /&gt;
===预训练细节===&lt;br /&gt;
&lt;br /&gt;
'''数据组成'''&lt;br /&gt;
&lt;br /&gt;
语料是下面两个库，合计33亿词汇。采用文档级别的语料，有利于学习长依赖序列。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* BooksCorpus：8亿个词。(800M)&lt;br /&gt;
* 英文维基百科：25亿个词。(2,500M)&lt;br /&gt;
&lt;br /&gt;
从语料库中随机选择2个片段(较长)作为两个AB句子，构成一条输入数据：&lt;br /&gt;
&lt;br /&gt;
* 0.5概率A-B两个句子连续，0.5概率随机选择B&lt;br /&gt;
* A使用A embedding，B使用B embedding&lt;br /&gt;
* A和B总长度最大为512 tokens&lt;br /&gt;
&lt;br /&gt;
WordPiece Tokenization 后再mask掉15%的词汇。&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''训练参数'''&lt;br /&gt;
&lt;br /&gt;
* batch_size：256。每条数据长度：512&lt;br /&gt;
* 100万步，40个epoch。语料合计33亿词汇&lt;br /&gt;
* Adam ：β1=0.9,β2=0.999&lt;br /&gt;
* L2权值衰减为0.01。所有层的dropout为0.1&lt;br /&gt;
* 学习率的warmup的step为10000&lt;br /&gt;
* GELU激活函数&lt;br /&gt;
* 训练loss：LM和NSP的loss加起来&lt;br /&gt;
* BERT base 16个TPU，Large 64个TPU，训练4天&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===相关学习资料===&lt;br /&gt;
&lt;br /&gt;
'''CS224n'''&lt;br /&gt;
* 课程主页：[[Stanford / Winter cs224n|http://web.stanford.edu/class/cs224n/index.html]]&lt;br /&gt;
* 课程视频：[YouTube](https://www.youtube.com/playlist%3Flist%3DPLoROMvodv4rOhcuXMZkNm7j3fVwBBY42z)&lt;br /&gt;
* 课程笔记: [LooperXX/CS224n-2019](https://github.com/LooperXX/CS224n-2019)&lt;br /&gt;
* 国内视频资源：[CS224n 斯坦福深度自然语言处理课](https://www.bilibili.com/video/BV1pt411h7aT)&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-next-sentence-prediction.png&amp;diff=6595</id>
		<title>文件:Bert-next-sentence-prediction.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-next-sentence-prediction.png&amp;diff=6595"/>
		<updated>2021-11-15T08:16:02Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:BERT-language-modeling-masked-lm.png&amp;diff=6594</id>
		<title>文件:BERT-language-modeling-masked-lm.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:BERT-language-modeling-masked-lm.png&amp;diff=6594"/>
		<updated>2021-11-15T08:15:39Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-input.png&amp;diff=6593</id>
		<title>文件:Bert-input.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-input.png&amp;diff=6593"/>
		<updated>2021-11-15T08:15:19Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-base-bert-large-encoders.png&amp;diff=6592</id>
		<title>文件:Bert-base-bert-large-encoders.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-base-bert-large-encoders.png&amp;diff=6592"/>
		<updated>2021-11-15T08:15:01Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-base-bert-large.png&amp;diff=6591</id>
		<title>文件:Bert-base-bert-large.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-base-bert-large.png&amp;diff=6591"/>
		<updated>2021-11-15T08:14:52Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-output-vector.png&amp;diff=6590</id>
		<title>文件:Bert-output-vector.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-output-vector.png&amp;diff=6590"/>
		<updated>2021-11-15T08:14:32Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-encoders-input.png&amp;diff=6589</id>
		<title>文件:Bert-encoders-input.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-encoders-input.png&amp;diff=6589"/>
		<updated>2021-11-15T08:14:19Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-input-output.png&amp;diff=6588</id>
		<title>文件:Bert-input-output.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:Bert-input-output.png&amp;diff=6588"/>
		<updated>2021-11-15T08:14:06Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
	<entry>
		<id>https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:BERT-classification-spam.png&amp;diff=6587</id>
		<title>文件:BERT-classification-spam.png</title>
		<link rel="alternate" type="text/html" href="https://www.bigphysics.org/index.php?title=%E6%96%87%E4%BB%B6:BERT-classification-spam.png&amp;diff=6587"/>
		<updated>2021-11-15T08:13:08Z</updated>

		<summary type="html">&lt;p&gt;Luohuiying：&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Luohuiying</name></author>
	</entry>
</feed>