分类:科学计量学概念识别

来自Big Physics


研究背景

我们希望得到科学计量学的概念集合、计算机生成一篇论文的概念地图。为了这个目的,我们需要有一个识别出来科学学概念的方法,以及找到概念间联系并且确定连词的方法。找到联系和确定连词的问题,见概念抽取和概念关系挖掘。在这里,我们仅仅关注概念的识别。

前人研究

命名实体识别算法,可以用于从研究论文或者书籍中识别出来科学计量学概念。命名实体识别算法通常需要一个标注准确和完备的训练集。准确的意思就是,标记为概念的确实是概念。完备的意思是没有被标记为概念的确实不是概念。

只要在这个前提下,则有大量的现有算法都可以得到比较高的概念识别的准确率。

研究问题

如果标注中,有漏标的,有标错的,还有不确定标注(本来就不太确定是否属于这个学科的概念的),那么,这个训练样本就可能会导致训练出来的模型的识别能力不够高。

于是,我们问,如何处理漏标、错标、不稳定标?

研究思路

漏标意味着,某些备有被标注的词可以是概念,因此,不能把所有的未标注词当做非概念来训练模型,而是采用负采样,也就是随机获取一部分未标注词当做非概念[1][2]

错标意味着,某些被标注为概念的其实不是概念。不稳定的意思是,这个词比较模糊,可以算也可以不算概念。这个可以采用系综学习的方法来处理。也就是说,盖住这个标注(以及同时一些其他标注,随机),对这些个标注多次做训练和推断,看是否每次都得到稳定的结果。如果不稳定或者经常得到相反的结果,则去掉这些标注。

其实,系综学习,也可以用于漏标,也就是对训练集本身做多次训练和推断,如果某些未标注为概念的词,多次被标注为概念,则可以把这部分加入训练集,或者人工确认以后再加入训练集。

最后这个提醒人工确认再加入训练集的步骤,其实叫做主动学习。

也就是说,我们可以用负采样、系综学习、主动学习来提高概念识别的准确率。

当然,更一般地来说,任何监督学习,都可以运用负采样、系综学习、主动学习来尝试提高准确率。更进一步,是不是任何一个只要标注准确率比随机好的标注,都可以通过负采样和系综学习的方式,构建一个比较可靠的训练集,从而提高模型准确率呢?

研究计划

  1. 收集整理科学计量学教材,从索引中获取概念,形成概念词典
  2. 收集科学计量学论文,通过概念词典对论文做标注,形成训练集
  3. 对训练集做概念识别训练,采用负采样、系综学习和主动学习
  4. 对比和评价

参考文献

  1. Li, Y., Liu, L., & Shi, S. (2021). Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2012.05426.
  2. Li, Y., Liu, L., & Shi, S. (2021). Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2108.11607.

本分类目前不含有任何页面或媒体文件。