分类:A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications

来自Big Physics
跳转至: 导航搜索


Dongyeop Kang, Waleed Ammar, Bhavana Dalvi, Madeleine van Zuylen, Sebastian Kohlmeier, E. Hovy, Roy Schwartz. A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications. NAACL-HLT 2018

Abstract

Peer reviewing is a central component in the scientific publishing process. We present the first public dataset of scientific peer reviews available for research purposes (PeerRead v1) providing an opportunity to study this important artifact. The dataset consists of 14.7K paper drafts and the corresponding accept/reject decisions in top-tier venues including ACL, NIPS and ICLR. The dataset also includes 10.7K textual peer reviews written by experts for a subset of the papers. We describe the data collection process and report interesting observed phenomena in the peer reviews. We also propose two novel NLP tasks based on this dataset and provide simple baseline models. In the first task, we show that simple models can predict whether a paper is accepted with up to 21% error reduction compared to the majority baseline. In the second task, we predict the numerical scores of review aspects and show that simple models can outperform the mean baseline for aspects with high variance such as 'originality' and 'impact'.

总结和评论

这篇文章构建了一个审稿意见数据库PeerRead,可以用来研究审稿行为。这篇文章和数据集还可以作为菜鸟作者和审稿人的入门教程(附录B详述了论文审稿时各项分数的评判标准)。

主要做了三个工作:构建数据集,统计分析数据,NLP分析数据。

文章详述了构建数据集的过程,主要有三种途径,某些会议投稿系统直接获得,爬取公开的全文和审稿意见,爬取arXiv的预印论文,并对其中的部分数据进行人工标注;数据主要包括:论文全文,论文被接收/拒绝,论文的各项分数(比如工作量,原创性等,详见附录B);其实,这个数据集还是不够完备,其中很多数据没有审稿意见,没有论文的各项分数,这主要是因为大部分审稿是不公开的,同时也没有一个统一的审稿流程和评判标准。可以看到构建数据集是一个艰苦的过程(数据从哪来,数据怎么来,数据怎么预处理,数据怎么判定有效等等),其中很多方法值得借鉴。

有了数据集之后,利用统计方法对数据进行定量分析:论文的分项分数与最终推荐分数的相关性,(这里的最终分数不是分项分数的简单求和或者平均,而是一个单独的分数),与最终推荐分数相关性最高的是论文工作量的得分,也就是说工作量大的论文更容易被接收;口头报告与海报的差异,口头报告在分项分数与最终推荐分数的均值上全面碾压海报;两个不同会议ACL 2017 vs. ICLR 2017,文章长度以及各项分数均值对比。可以看到,作者在分析数据时,每一个现象都会探究其原因或者给出一定结论,而不是罗列事实。


之后在数据集上实施两个NLP任务,根据论文内容预测其是否被接收,根据论文内容和审稿意见预测其各项分数。注意,根据任务的不同选择不同部分的数据(因为不是所有的数据都是完备的)。

NLP-1:根据论文内容预测其是否被接收,这里没用神经网络,而是用机器学习的各种分类器(logistic regression, SVM 等等),挨个去试,看看哪个效果最优,之所以不用neural,是因为它不便于解释(或者说不易理解)。因为是机器学习,所以feature是手工设计的模板,主要包括22个粗粒度的特征,比如标题长度,摘要是否包含特殊词,摘要的词嵌入矢量的均值(详见附录A)。与baseline majority相比,最优模型的预测准确率提高22%。接着利用ablation study,扣除特征的方法,来研究特征的重要性,(比较像投入产出的扣除一行一列看某个部门的重要性),发现,扣除论文有无附录这个特征,准确率下降最多,从而说明论文有附录,更容易评判其是否被接收,也在一定程度说明,如果论文有附录,更容易被接收?

NLP-2:根据论文内容和审稿意见预测其各项分数,(7个分项分数,详见附录B),挨个尝试了三种神经网络 CNN,LSTM, DAN,找到效果最好的;论文和评议内容太长,分别只取前1000和200个词的词嵌入矢量最为模型的输入;对比了只有论文内容,只有审稿意见,以及二者结合作为输入的预测效果。

还可以进行的NLP任务(更下游的):根据论文的内容来提炼其中的创新点,根据论文的内容来自动生成审稿意见。还可以分析国籍是否影响论文的接收等。

有了这个数据集之后,我们也可以做很多事情,比如统计分析论文的各个属性,作者的各个属性与最终论文接收与否的关系。研究审稿人打分的偏好,比如对比各个分段的偏差等。

一些有用的工具

  1. PDF论文转成JSON: science-parse
  2. 公开审稿意见: openreview

概念地图

PeerRead 概念地图

PeerRead.png

本分类目前不含有任何页面或媒体文件。