分类:用不可靠标注训练可靠模型

研究背景

在综述文献的识别工作中，我们需要训练一个分类器把论文识别为综述论文和普通论文，从一个做了标记但是标记本身可能有错的数据集出发。当然，第一部分属于工程问题，如果没有第二部分。于是，针对第二部分，也就是不可靠数据的问题，我们提出来（其实前人也比我们早几个月提出了^[1]）了交叉验证和数据补充的方法，来得到可靠的模型。

在那里，具体做法如下：

基于所有标记数据分成训练集和测试集，训练出来一个分类器，然后对测试集的样本运用分类器得到结果；
这个过程重复多次，保证每一个样本都得到多次的测试，记录测试结果中每一个分类结果的频率；
如果某个结果频率非常高（定一个阈值），并且这个结果和原始标记不同，则记为错误标记。同时，那些没个结果频率都差不多的，则记为不稳定标记

研究问题和步骤

结果

参考文献

↑ 补充一下

本分类目前不含有任何页面或媒体文件。

[.E4.BD.9C.E8.80.85:NoisyData-1] 补充一下

[1]

匿名

搜索

分类:用不可靠标注训练可靠模型

名字空间

更多

页面选项

目录

研究背景

研究问题和步骤

结果

参考文献

导航

导航

Wiki工具

Wiki工具

匿名

搜索

分类:用不可靠标注训练可靠模型

研究背景

研究问题和步骤

结果

参考文献

导航

Wiki工具

页面工具

分类