分类:科学计量学概念识别

来自Big Physics
Jinshanw讨论 | 贡献2021年11月7日 (日) 22:21的版本 (建立内容为“分类:概念抽取和概念关系挖掘 =研究背景= 我们希望得到科学计量学的概念集合、计算机生成一篇论文的概念地图。为…”的新页面)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)


研究背景

我们希望得到科学计量学的概念集合、计算机生成一篇论文的概念地图。为了这个目的,我们需要有一个识别出来科学学概念的方法,以及找到概念间联系并且确定连词的方法。找到联系和确定连词的问题,见概念抽取和概念关系挖掘。在这里,我们仅仅关注概念的识别。

前人研究

命名实体识别算法,可以用于从研究论文或者书籍中识别出来科学计量学概念。命名实体识别算法通常需要一个标注准确和完备的训练集。准确的意思就是,标记为概念的确实是概念。完备的意思是没有被标记为概念的确实不是概念。

只要在这个前提下,则有大量的现有算法都可以得到比较高的概念识别的准确率。

研究问题

如果标注中,有漏标的,有标错的,还有不确定标注(本来就不太确定是否属于这个学科的概念的),那么,这个训练样本就可能会导致训练出来的模型的识别能力不够高。

于是,我们问,如何处理漏标、错标、不稳定标?

研究思路

漏标意味着,某些备有被标注的词可以是概念,因此,不能把所有的未标注词当做非概念来训练模型,而是采用负采样,也就是随机获取一部分未标注词当做非概念[1][2]

研究计划

  1. 收集整理科学计量学教材,从索引中获取概念,形成概念词典
  2. 收集科学计量学论文,通过概念词典对论文做标注,形成训练集
  3. 对训练集做概念识别训练,采用负采样、系综学习和主动学习
  4. 对比和评价

参考文献

  1. Li, Y., Liu, L., & Shi, S. (2021). Empirical Analysis of Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2012.05426.
  2. Li, Y., Liu, L., & Shi, S. (2021). Rethinking Negative Sampling for Unlabeled Entity Problem in Named Entity Recognition. ArXiv, abs/2108.11607.

本分类目前不含有任何页面或媒体文件。