分类:用不可靠标注训练可靠模型

来自Big Physics
Jinshanw讨论 | 贡献2020年7月8日 (三) 12:04的版本 →‎研究背景


研究背景

综述文献的识别工作中,我们需要训练一个分类器把论文识别为综述论文和普通论文,从一个做了标记但是标记本身可能有错的数据集出发。当然,第一部分属于工程问题,如果没有第二部分。于是,针对第二部分,也就是不可靠数据的问题,我们提出来(其实前人也比我们早几个月提出了[1])了交叉验证和数据补充的方法,来得到可靠的模型。

在那里,具体做法如下:

  1. 基于所有标记数据分成训练集和测试集,训练出来一个分类器,然后对测试集的样本运用分类器得到结果;
  2. 这个过程重复多次,保证每一个样本都得到多次的测试,记录测试结果中每一个分类结果的频率;
  3. 如果某个结果频率非常高(定一个阈值),并且这个结果和原始标记不同,则记为错误标记。同时,那些没个结果频率都差不多的,则记为不稳定标记

研究问题和步骤

结果

参考文献

  1. 补充一下

本分类目前不含有任何页面或媒体文件。