分类:科学计量学概念识别
研究背景
我们希望得到科学计量学的概念集合、计算机生成一篇论文的概念地图。为了这个目的,我们需要有一个识别出来科学学概念的方法,以及找到概念间联系并且确定连词的方法。找到联系和确定连词的问题,见概念抽取和概念关系挖掘。在这里,我们仅仅关注概念的识别。
前人研究
命名实体识别算法,可以用于从研究论文或者书籍中识别出来科学计量学概念。命名实体识别算法通常需要一个标注准确和完备的训练集。准确的意思就是,标记为概念的确实是概念。完备的意思是没有被标记为概念的确实不是概念。
只要在这个前提下,则有大量的现有算法都可以得到比较高的概念识别的准确率。
研究问题
如果标注中,有漏标的,有标错的,还有不确定标注(本来就不太确定是否属于这个学科的概念的),那么,这个训练样本就可能会导致训练出来的模型的识别能力不够高。
于是,我们问,如何处理漏标、错标、不稳定标?
研究思路
漏标意味着,某些备有被标注的词可以是概念,因此,不能把所有的未标注词当做非概念来训练模型,而是采用负采样,也就是随机获取一部分未标注词当做非概念[1][2]。
错标意味着,某些被标注为概念的其实不是概念。不稳定的意思是,这个词比较模糊,可以算也可以不算概念。这个可以采用系综学习的方法来处理。也就是说,盖住这个标注(以及同时一些其他标注,随机),对这些个标注多次做训练和推断,看是否每次都得到稳定的结果。如果不稳定或者经常得到相反的结果,则去掉这些标注。
其实,系综学习,也可以用于漏标,也就是对训练集本身做多次训练和推断,如果某些未标注为概念的词,多次被标注为概念,则可以把这部分加入训练集,或者人工确认以后再加入训练集。
最后这个提醒人工确认再加入训练集的步骤,其实叫做主动学习。
也就是说,我们可以用负采样、系综学习、主动学习来提高概念识别的准确率。
当然,更一般地来说,任何监督学习,都可以运用负采样、系综学习、主动学习来尝试提高准确率。更进一步,是不是任何一个只要标注准确率比随机好的标注,都可以通过负采样和系综学习的方式,构建一个比较可靠的训练集,从而提高模型准确率呢?
研究计划
- 收集整理科学计量学教材,从索引中获取概念,形成概念词典
- 收集科学计量学论文,通过概念词典对论文做标注,形成训练集
- 对训练集做概念识别训练,采用负采样、系综学习和主动学习
- 对比和评价
参考文献
本分类目前不含有任何页面或媒体文件。