作者:东莞萍温江
编辑:困
【新支持指南】近年来,机器学习高峰会论文数量喷发,审稿压力巨大,其同行评审制度受到质疑。宾大教授就这一挑战提出了论文作者协助的新同行审查机制。
收到了NeurIPS、ICLR、ICML等会议的足够评论吗?
你有没有过最好的论文被拒绝,但相对较差的论文反而被接受的经验?
相信对于很多机器学习、人工智能领域的工作者来说,这种现象已经不会觉得奇怪了。
人工智能专家Ian Goodfellow在推特上抱怨同行评论(peer review)
机器学习的成功取决于大型会议,这个领域发展得很快。定期审查周期相对较长,因此大多数最新工作首先在会议上公布(例如,NeurIPS、ICLR、ICML等)。这对机器学习的发展起着重要的作用。
一般来说,学术会议邀请一个领域的专家审议者,即通过同行审查制度来决定是否值得发表论文。首脑会议目前的成功可以说是得益于同行审查制度。
相反,如果研究工作没有经过可靠的同事审查就发表的话,会出现很多问题。大多数人,也就是非专业人士,分不清研究结果的好坏。可能会给研究带来混乱,后人可能会引用错误的结果和结论,这无疑会阻碍机器学习领域研究的进步。
因此,随着研究人员和论文数量的翻倍,同行审查的可靠性在今天变得更加重要。对该制度可靠性的分析和相关改进方法也逐渐成为话题,引起学术界和业界的关注。
如何改进同行评审机制,提高评审过程的可信度?
最近宾夕法尼亚大学沃顿商学院和计算机系苏伟杰教授今年在NeurIPS发表的一篇文章为改进同行评审提供了新思路,并提出了统计和优化思想相结合的简单实用的方法。
根据这项研究,增加审稿人数或向各审稿人分配更多论文是不现实的,因此可以向投稿人请求有助于决策的信息,从而“人尽才能,充分利用东西”。但是要保证投稿人不会为了自己的利益提供虚假信息。那么,该如何设计这个机制呢?
论文地址:
苏伟杰教授提出了一个新的机制,即安全机制(Isotonic Mechanism),该机制激励参与者提供实际信息,提高了审查结果的可靠性。
背景
所谓的“省会搜狐、败道搜狐”,同行审查本来应该是高质量、影响力研究的过滤器。但是最近几年,由于人工智能和机器学习会的火灾,投稿人数激增,同行审查制度似乎发生了一些变化。
例如,在2014年著名的NeurIPS实验中,观察到审查分数惊人地任意。理论上,如果再次审查,NeurIPS 2014年招聘的文章中会有一半以上被拒绝!
在 2014NeurIPS试验中,第二条委员会审查了对第一条委员会的意见,
在随机挑选的第一组收到的论文中,50.9%被第二组拒绝
原因是由于大量的投稿,专业评委人数不足,不得不审问很多没有通过会议发送论文的新手。随着人均审议人数的增加,评委们花在每篇论文上的时间大大减少了,一篇论文往往在几分钟内被判死刑!
NeurIPS等机器学习高峰会议的投稿量从2014年的1673篇增加到今年的9122篇,很多研究者个人提交了10篇以上,但合格的评委数量不可能增长得这么快。
这导致同行审查质量急剧下降,受到指责,无法达到初衷。不改革同行审查制度,从长远来看,必然会削弱公众对机器学习的信任,阻碍人工智能的发展。
lq49k0/ab24f4558be140e6b35414fec1b9c1f3?_iz=31825&from=ar;x-expires=1707069369&x-signature=7xP9Q3pLCn3R0JWgSKRe59q7%2Bf8%3D&index=3" width="640" height="398"/>ML/AI会议论文的爆炸式增长
海报地址:
当然,学术界早已注意到同行评审制度的相关缺陷,也提出了一些改进的举措:从志愿审稿改为雇佣审稿,或者更加公开的评审(如ICLR在OpenReview上进行审稿),等等。然而,它们要么不切实际,要么会带来新的问题。
同行评审仍然是「可用的最差系统」。
保序机制(Isotonic Mechanism)简介
假设投稿人投出了n篇论文,其真实分数为R1, R2, …, Rn,假设投稿人知道这些真实分数的排序(数学上表示为1, 2, …, n的置换)。
那么,机制要求投稿人汇报自己对这n篇论文打分的排序π,再结合审稿人给出的原始平均分数y1, y2, …, yn,解一个凸问题并给出最终分数。
形式上,这个凸优化问题为:
另外,该机制还假设投稿人是理性的。即投稿人汇报排序π的最终目的是让自己的利益最大化。数学上,表现为投稿人希望机制得出的最终分数可以最大化如下效用函数:
这里假设U是一个不减凸函数。
保序机制的理论保证
我们先将对假设的介绍和对合理性的讨论稍稍后放,以便于突出文章的主要结果,也就是保序机制相对于原始分数在理论上的优越性:
1. 投稿人的最佳策略是如实报告他/她的论文原始分数的真实排序;甚至在投稿人不能完全确定所有真实分数排序时,报告所知道的所有真实信息也是其最优选择。
2. 机制所提供的调整后的最终分数确实严格地比审稿人提供的原始分数要准确。
仅仅是汇报分数的排序,就会提高准确度,其实用性不言而喻。不仅如此,文章作者还进一步对更一般的情况做了推广,文章对投稿人只知道真实分数的分块排序、机制的稳健性(鲁棒性)、效用函数不能表示成n个论文各自效用之和的三种情况进行拓展讨论,充分的展示了保序机制强大的校正功能,以及丰富的现实意义。
到这里,我们再回头看一下假设。除了对函数U的要求,还要求投稿人自己对真实信息必须有一定的了解(这样才能进行协助),以及审稿人打分相对真实分数的噪声在置换下的分布是不变的(可交换性)。这些假设也都是比较实际的。
需要格外注意函数U是凸的假设,对以上结论的成立是至关重要的。这似乎与传统经济学理论中的边际效益递减矛盾。但这里效用衡量的不是「量」的大小,而是决定了论文是否会被作为海报、口头报告,甚至是全会报告的分数。对很多研究者,追求会议论文更大的影响力反映了他们真实的需求,因此效用函数的凸性有其合理性。
保序机制的提出背景
保序机制(Isotonic Mechanism)命名的由来是因为对应的凸问题正是统计学中「保序回归(Isotonic Regression)」的问题形式。
保序回归在观念上是寻找一组非递减的片段连续线性函数,即保序函数,使其与样本尽可能的接近。
保序回归:
另一方面,这篇文章写完提交NeurlPS后不久,大会组织者要求所有作者对他们的文章做一个质量排序,这与保序机制不谋而合。这篇文章非常「及时」,尽管最后并没有用它在今年NeurIPS来做决定。
文章与NeurIPS 2021会议的巧合
值得注意的是,提出该机制的苏炜杰教授差不多有半数文章发表在统计、优化和信息论等领域的期刊,也有大量论文发表在机器学习顶会上,对二者的审稿质量以及录用文章质量的差异深有体会。
一般来说,拥有巨量投稿数量的机器学习顶会的录用文章平均质量要比期刊差很多。同时机器学习的一个特点是一个作者或研究组经常一次提交多篇论文,比如强化学习研究员Sergey Levine向ICLR 2020一次就提交了32篇论文!而保序机制的理论也表明文章数目n越大,提升也越大。
值得注意的是,保序机制的理论证明用到了凸函数和优超不等式等不少数学技巧,熟悉数学竞赛的同学想必不会陌生。
总结与展望
本文提出了通过利用投稿人提供的信息改进同行评审制度的「保序机制」,即激励投稿人报告真实的排序,从而获得更好的决策。
该机制便于实施,且具有理论的最优性保证,如果能在现实中使用该机制,很有希望在一定程度上缓解当前的机器学习顶会的低质量评审问题。
然而,利用额外的作者信息来改善同行评审是一个新型的研究方向,在投入实际应用前还需要一定的努力。对保序机制而言,未来还有一些工作需要完成:
- 虽然效用函数为凸一定程度上符合研究者的偏好,但是对于一些追求中稿数量的研究者,效用函数可能是一些特殊的非凸函数(例如阶梯状的函数)。如何改进技巧应用到这种问题上?
- 当前改进同行评审已经有一些初见成效的工作,如何将他们结合进来?
- 保序机制的准确性是使用L2误差来衡量的。有没有更符合实际情况的误差函数?
- 如何应对投稿人策略性地利用保序机制,例如故意提交低质量论文变相抬高分数?
- 在跨学科评审和多个审稿人多个作者的情况下,如何保证噪声的可交换性,如何对应修改保序机制?
- 保序机制要求提供论文质量的排序是否有附带好处?比如要求作者对自身论文质量有更清楚的认识,或许会减少会议论文常见的「guest authorship」。
无论如何,该机制针对的是一个有关机器学习领域前途的重大问题。如果该问题能解决,将产生巨大的影响力,甚至可以将这种评级制度出圈应用到各种评价环节,具有十分重大的现实意义。
作者简介
文章作者苏炜杰是宾夕法尼亚大学沃顿商学院统计与数据科学系和工学院计算机系助理教授。任宾大机器学习研究中心联合主任。分别于北京大学和斯坦福大学获得本科和博士学位。曾获得NSF CAREER Award和斯隆研究奖。
参考资料:
;app=news_article&group_id=7039916197835506209&use_new_style=1&req_id=2021121022490762754C599&wid=1639647590857