分类:用不可靠标注训练可靠模型
来自Big Physics
研究背景
在综述文献的识别工作中,我们需要训练一个分类器把论文识别为综述论文和普通论文,从一个做了标记但是标记本身可能有错的数据集出发。当然,第一部分属于工程问题,如果没有第二部分。于是,针对第二部分,也就是不可靠数据的问题,我们提出来(其实前人也比我们早几个月提出了[1])了交叉验证和数据补充的方法,来得到可靠的模型。
在那里,具体做法如下:
- 基于所有标记数据分成训练集和测试集,训练出来一个分类器,然后对测试集的样本运用分类器得到结果;
- 这个过程重复多次,保证每一个样本都得到多次的测试,记录测试结果中每一个分类结果的频率;
- 如果某个结果频率非常高(定一个阈值),并且这个结果和原始标记不同,则记为错误标记。同时,那些没个结果频率都差不多的,则记为不稳定标记
研究问题和步骤
结果
参考文献
- ↑ 补充一下
本分类目前不含有任何页面或媒体文件。