研究背景

我们希望得到科学计量学的概念集合、计算机生成一篇论文的概念地图。为了这个目的，我们需要有一个识别出来科学学概念的方法，以及找到概念间联系并且确定连词的方法。找到联系和确定连词的问题，见概念抽取和概念关系挖掘。在这里，我们仅仅关注概念的识别。

前人研究

命名实体识别算法，可以用于从研究论文或者书籍中识别出来科学计量学概念。命名实体识别算法通常需要一个标注准确和完备的训练集。准确的意思就是，标记为概念的确实是概念。完备的意思是没有被标记为概念的确实不是概念。

只要在这个前提下，则有大量的现有算法都可以得到比较高的概念识别的准确率。

研究问题

如果标注中，有漏标的，有标错的，还有不确定标注（本来就不太确定是否属于这个学科的概念的），那么，这个训练样本就可能会导致训练出来的模型的识别能力不够高。

于是，我们问，如何处理漏标、错标、不稳定标？

研究思路

漏标意味着，某些备有被标注的词可以是概念，因此，不能把所有的未标注词当做非概念来训练模型，而是采用负采样，也就是随机获取一部分未标注词当做非概念^[1]^[2]。

错标意味着，某些被标注为概念的其实不是概念。不稳定的意思是，这个词比较模糊，可以算也可以不算概念。这个可以采用系综学习的方法来处理。也就是说，盖住这个标注（以及同时一些其他标注，随机），对这些个标注多次做训练和推断，看是否每次都得到稳定的结果。如果不稳定或者经常得到相反的结果，则去掉这些标注。

其实，系综学习，也可以用于漏标，也就是对训练集本身做多次训练和推断，如果某些未标注为概念的词，多次被标注为概念，则可以把这部分加入训练集，或者人工确认以后再加入训练集。

最后这个提醒人工确认再加入训练集的步骤，其实叫做主动学习。

也就是说，我们可以用负采样、系综学习、主动学习来提高概念识别的准确率。

当然，更一般地来说，任何监督学习，都可以运用负采样、系综学习、主动学习来尝试提高准确率。更进一步，是不是任何一个只要标注准确率比随机好的标注，都可以通过负采样和系综学习的方式，构建一个比较可靠的训练集，从而提高模型准确率呢？

研究计划

收集整理科学计量学教材，从索引中获取概念，形成概念词典
收集科学计量学论文，通过概念词典对论文做标注，形成训练集
对训练集做概念识别训练，采用负采样、系综学习和主动学习
对比和评价

参考文献

↑ Li, Y., Liu, L., & Shi, S. (2021). Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2012.05426.
↑ Li, Y., Liu, L., & Shi, S. (2021). Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2108.11607.

本分类目前不含有任何页面或媒体文件。

[Li:NER1-1] Li, Y., Liu, L., & Shi, S. (2021). Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2012.05426.

[Li:NER2-2] Li, Y., Liu, L., & Shi, S. (2021). Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2108.11607.

[1]

[2]

匿名

搜索

分类:科学计量学概念识别

名字空间

更多

页面选项

目录

研究背景

前人研究

研究问题

研究思路

研究计划

参考文献

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:科学计量学概念识别

研究背景

前人研究

研究问题

研究思路

研究计划

参考文献

导航

Wiki工具

页面工具

分类