在综述文献的识别工作中,我们需要训练一个分类器把论文识别为综述论文和普通论文,从一个做了标记但是标记本身可能有错的数据集出发。当然,第一部分属于工程问题,如果没有第二部分。于是,针对第二部分,也就是不可靠数据的问题,我们提出来(其实前人也比我们早几个月提出了[1])了交叉验证和数据补充的方法,来得到可靠的模型。
具体做法如下:
本分类目前不含有任何页面或媒体文件。