当前位置:首页 > 书籍文档 >

论文里的模型误差多少合适(论文中计量模型怎么看)

来源:原点资讯(www.yd166.com)时间:2023-11-23 16:48:34作者:YD166手机阅读>>

在人工智能领域,会议论文是证明研究人员学术水平的重要一环。是否存在一些「技巧」可以提高论文被大会接收的几率?人工智能是否可以帮助我们?近日,来自卡耐基梅隆大学(CMU)研究者们收集了上万篇 AI 顶级会议的接收/被拒论文,并使用机器学习工具进行分析,获得了一些有趣的结果。最后,当然……这一研究的论文已经被即将在 6 月 1 日于美国举行的自然语言处理顶会 NAACL 2018 接收。

项目地址:https://github.com/allenai/PeerRead

简介

权威的科学会议利用同行评审来决定要将哪些论文列入其期刊或会议记录。虽然这一过程似乎对科学出版物至关重要,但其往往也饱受争议。意识到同行评审的重要影响,一些研究人员研究了这一过程中的各个方面,包括一致性、偏差、作者回应和一般评审质量 (Greaves 等,2006;Greaves 等,2011;De Silva and Vance, 2017)。例如,NIPS 2014 会议的组织者将 10% 的会议提交论文分配给两组不同的审查人员,以衡量同行评审过程的一致性,并观察到两个委员会对超过四分之一的论文接受/拒绝决定意见不一样 (Langford and Guzdial, 2015)。

尽管已经有了这些努力,但是关于同行评审的定量研究还是有限的,很大程度上是由于只有很少的人能够接触到一个学术活动的同行评审(例如期刊编辑和程序主席)。本文的目的是通过首次引入一个用于研究目的的同行评审公共数据集: PeerRead,来降低科学界研究同行评审的障碍。

在此论文中,我们使用三种策略来构建数据集: ( i ) 与会议主席、会议管理系统协作,允许作者和评审人分别选择其论文草稿和同行评审。( ii ) 抓取公开的同行评审,并用数字评分对文本评审进行标注,如「清晰度」和「影响」。(iii) 对与重要会议提交日期一致的 arXiv 提交论文进行编目,并在以后的会议记录中检查是否出现类似论文。总的来说,该数据集由 14700 篇论文草稿和相应的「接受/拒稿」决定组成,其中 3000 篇论文包含专家撰写的 10700 条文本评论。此外,我们将定期发布 PeerRead,为每年新的学术活动增加更多的内容。

PeerRead 数据集可以以多种方式使用。对同行评审的定量分析可以提供见解,帮助更好地理解 (且可能改进) 评审过程的各种细微差别。例如,在该论文的第三部分中,我们分析了总体推荐分数与单个方面分数 (例如清晰度、影响和原创性) 之间的相关性,并量化了口头演示推荐评论与海报推荐评论有何不同。其他的样本可能包括匹配评论分数与作者,以揭示性别或国籍偏差。从教学角度来看,PeerRead 数据集还为经验不足的作者和首次审稿人提供了不同的同行评审实例。

论文里的模型误差多少合适,论文中计量模型怎么看(1)

表 1: PeerRead 数据集。Asp. 代表评审是否具有特定方面的得分(例如清晰度)。注意,ICLR 包括由标注者给出的不同方面的得分(详见 2.4 部分)。Acc/Rej 一列表示接受/拒绝的论文比例。需要注意,NIPS 仅仅提供了被接受的论文的评审意见。

作为一个自然语言处理资源,同行评审是个有趣的挑战,无论是从语义情感分析领域还是文本生成领域,前者前者预测被评审论文的不同属性,例如清晰度和原创性,后者则是在给定一篇论文的情况下,自动地生成它的评审意见。在被以足够高的质量解决时,这种类型的 NLP 任务也许会在评审过程中帮助审稿人、区域主席以及程序主席,例如,通过为某些论文投稿减少所需的审稿人数量。

在第四部分中,我们基于这个数据集引入了两个新的 NLP 任务:(i) 预测一篇论文是否会被某个学术会议接受,(ii)预测论文在某些方面的数字得分。我们的结果显示:在 PeerRead 的四个不同部分中,与大多数全部拒绝(reject-all) 基线相比,我们能够以误差减小 6--21? 的结果预测「接受/拒稿」决策结果。由于我们使用的基线模型相当简单,因此有足够的空间来开发更强的模型以做出更好的预测。

论文接受分类

论文接受分类是一个二分类任务:给定一篇论文草稿,预测在一组预定的学术会议中它将会被接受还是拒稿。

模型: 我们训练一个二值分类器来为一篇论文预测「接受/拒稿」的概率,也就是:P(accept=True | paper)。我们用不同类型的分类器做了实验:logistic 回归、使用线性核或者 RBF 核的 SVM、随机森林、最近邻、决策树、多层感知机、AdaBoost 以及朴素贝叶斯。我们使用了人工设计的特征,而不是神经网络模型,因为人工特征易于解释。

论文里的模型误差多少合适,论文中计量模型怎么看(2)

表 5: 接受分类的测试准确率。在所有的案例中,我们的最佳模型超越了大多数分类器。

我们使用了 22 个粗略的特征,例如标题长度,专门的术语(例如「深度」和「神经」)是否出现在摘要中,以及稀疏和密集的词汇特征。

实验设置:我们使用 PeerRead 数据集中的 ICLR 2017 和 arXiv 部分来做实验。我们为每一个 arXiv 类别训练了独立的模型:例如 cs.cl,cs.lg,以及 cs.ai。我们的所有模型都使用 python 的 sklearn 实现 (Pedregosa et al., 2011)。我们考虑了支持向量机和 logistic 回归的不同正则化参数(所有超参数的详细描述参见附录 A.1)。我们使用了标准的测试拆分,并且在训练集上使用了 5 重交叉验证。

结果: 表 5 展示了我们在论文接受准确率上的测试准确率。在所有的例子中,我们的最佳模型都以大于 22% 的误差率优势超过大部分分类器。不过,由于我们的模型在评价给定论文所做工作的质量方面缺乏成熟性,所以这可能意味着我们定义的一些特征与某些强有力的论文,或者有偏差的审稿人的判断相关。

我们对数据集中的 ICLR 和 arXiv 部分进行了控制变量研究。为了简化分析,我们为 arXiv 中的三种类别训练了一个模型。表 6 展示了当我们移除了其中的一个特征的时候,最佳模型的测试中准确率的绝对下降。该表显示,一些特征对分类决策有着很大的贡献:例如增加一个附录,大量的定理或公式,引文前的文本的平均长度,本文提交前五年内发表的论文数量,ICLR 的论文摘要中是否包含「最先进的技术(state of the art)」,或者 arXiv 的摘要中是否包含术语「神经(neural)」,以及标题的长度。

论文里的模型误差多少合适,论文中计量模型怎么看(3)

表 6: 当我们从完整的模型中仅仅移除一个特征的时候,论文接收预测任务的绝对准确率的差别。

图中具有较大负差别的特征更加显著,研究人员仅仅显示了每个部分最显著的 6 个特征。分别是:num_X:即 X 的数量(例如定理或者公式),avg_len_ref:引用前的文本平均长度,附录:文章是否包含附录,abstractX:摘要是否包含术语 X,num_uniq_words:唯一单词的数量,num_refmentions:提及的参考文献的数量,以及 #recent_refs:近五年内发表的参考文献的数量。

论文里的模型误差多少合适,论文中计量模型怎么看(4)

图 1:PeerRead 测试集上预测任务的均方差(RMSE, 越小越好):左侧-- ACL 2017,右侧:ICLR 2017。

结论

我们的实验表明,论文的某些属性与较高的接收率正相关,例如包含附录。我们希望其他研究人员能够发现新的我们还没有在这个数据集中的同行评审中探索到的机会。一个具体的例子就是,研究接受/拒绝的决定是否反映了对作者的人口偏见 (例如国籍) 将是有意义的。

论文:一个同行评审数据集(PeerRead):集合、洞见以及自然语言处理应用

论文里的模型误差多少合适,论文中计量模型怎么看(5)

论文链接:https://arxiv.org/abs/1804.09635

同行评审是科学文献出版过程中的重要组成部分。在本研究中,我们提出了第一个可用于研究目的的科学文献同行评审公共数据集 ( PeerRead v1 ),该数据集为研究这一重要的现象提供了机会。该数据集由 1 万 4 千 700 份论文草稿,以及包括 ACL、NIPS 和 ICLR 在内的顶级学术活动对应的接受/拒稿决定组成。数据集还包括专家为论文子集撰写的 1 万零 700 份文本同行评审。我们描述了数据收集过程,并提供了在同行评审中观察到的有趣现象。我们在此基础上提出了两个新颖的 NLP 任务,并给出了简单的基线模型。在第一个任务中,我们展示了简单的模型可以预测一篇论文是否被接受,与大多数基线模型相比,误差减少了 21 %。在第二个任务中,我们预测了评审方面的数值分数,结果表明,对于诸如「原创性」和「影响」的高方差方面,简单模型可以优于平均基线。

栏目热文

论文中为什么用置信区间来表示(论文里的p值和r值是什么意思)

论文中为什么用置信区间来表示(论文里的p值和r值是什么意思)

1. 定义在统计学中,一个样本的置信区间是对总体参数的一个区间估计。置信区间给出的是,声称总体参数的真实值在测量值的区间...

2023-11-23 16:24:15查看全文 >>

论文测量标准差有什么用(论文标准差怎么用文字阐述)

论文测量标准差有什么用(论文标准差怎么用文字阐述)

每个学生都想自己的论文重复率越低越好,但结果往往相反,很多人论文写作基本上都是复制粘贴过来的内容,那检测出来的重复率自然...

2023-11-23 16:38:19查看全文 >>

论文中样本量可以不同吗(论文样本大小标准是什么)

论文中样本量可以不同吗(论文样本大小标准是什么)

编辑导语:问卷因为有着低成本、高匿名、高效率的特点,所以在用户研究中被广泛地使用。那么如何做好问卷调查呢?本文从调查方式...

2023-11-23 17:01:10查看全文 >>

论文引用阈值是多少(本科论文的引用率怎么搞)

论文引用阈值是多少(本科论文的引用率怎么搞)

作者:新风学术网1、引用内容过多学校在进行论文查重时,会有专门的检测系统,一般检测引用的阈值控制在5%以内,如果我们的论...

2023-11-23 17:03:17查看全文 >>

论文题目用视域还是视域(论文题目视域是什么意思)

论文题目用视域还是视域(论文题目视域是什么意思)

申报很高级别的课题,与别的题目对比发现自己的题目看上去不深厚。除了关键词,其他的词逐渐切磋琢磨,我用了。。。视角下。。。...

2023-11-23 16:44:25查看全文 >>

视野与视域的区别(视角与视野区别)

视野与视域的区别(视角与视野区别)

觉悟者的视角与普通人的视角有许多区别。以下是举例说明。·超越自我,觉悟者能够超越个人的自我,以更高的视角看待世界和人类。...

2023-11-23 16:29:39查看全文 >>

论文视角和维度有啥区别(论文的维度是怎么来的)

论文视角和维度有啥区别(论文的维度是怎么来的)

本文由作者 七牛 发布于社区知彼知己,百战不殆。——《孙子兵法》产品经理的岗位职责之一是在市场中建立和维护产品的竞争优势...

2023-11-23 17:02:23查看全文 >>

论文数据误差允许范围(论文数据标准差范围多少合适)

论文数据误差允许范围(论文数据标准差范围多少合适)

随着高等教育的不断普及,论文撰写已经成为了学生和研究人员必经的一道坎。然而,因为抄袭、剽窃的现象屡见不鲜,提高论文的原创...

2023-11-23 16:55:30查看全文 >>

怎样正确使用腾讯导航(腾讯怎么使用离线导航)

怎样正确使用腾讯导航(腾讯怎么使用离线导航)

随着“小修小补”话题受到更广泛的关注全国首份“小修小补便民地图”3月23日已上线为了帮助修鞋、配钥匙等"小修小补"更好地...

2023-11-23 17:06:00查看全文 >>

腾讯导航多少年开始用的(腾讯导航要登录吗)

腾讯导航多少年开始用的(腾讯导航要登录吗)

IT之家 1 月 22 日消息,据腾讯发布,前天,工业和信息化部“互联网应用适老化及无障碍改造专项行动”,公布了首批通过...

2023-11-23 16:48:29查看全文 >>

文档排行