雷锋网 AI科技评论按:7月、8月接二连三的机器学习会议的论文评选中,论文的作者往往会被评委的一个问题激怒——评委在评选论文时,往往会说论文里引用的参考论文只是arXiv上的预印本。究其原因,目前arXiv上论文的水平参差不齐,很多论文都没有结果,或者引用别人错误的。在这种情况下,到底该不该引用arXiv上只是预印版的论文?如果你的方法中真的用到了别人的观点和方法,那就大大方方引用吧!
Zachary C. Lipton在APProximately Correct上的一篇文章中发表了对在arXiv上引用论文的看法。他是大学分校计算机科学与工程系的博士生,即将成为卡内基梅隆大学的助理教授,对机器学习的理论基础和应用感兴趣。雷锋网(号:雷锋网) AI科技评论编译整理如下:
在刚刚过去的机器学习会议的论文提交高峰,许多业内人士对同行评审机制有了印象。一个特别热门的话题是arXiv预印服务。计算机科学家经常在正式发表论文前,将论文发表在arXiv上,以分享他们的想法并扩大影响。
尽管arXiv很受欢迎,许多论文作者还是被评审员的说法所激怒,产生很强烈的不满情绪,因为评审员说他们引用的论文只是arXiv上的预印本。
让他们不满的源头是由于一些很幼稚的人越来越多的使用arXiv(文献)。现在,深度学习的工具已经变得很强大,很容易复制一个repo,在新的数据集上运行它,改动一些超参数,然后就可以开始写论文的草稿了。那些只懂跟风的人会上传一些低质量的论文到arXiv上,现在那种低质量的论文太多,搞得会议上都像完全着由论文搬运工提交的低质量论文。
尤其令人担忧的是当研究人员预测一个研究领域将会成为热点,他们会先在这个领域占个坑。为了避免被人抢先一步,作者们可能会匆忙地把一份还没有完成研究的论文传到arXiv上,以保住他们的地盘:我们是第一个在X上工作的人,所有后续的研究者都得引用我们的论文。
他严厉地了MILA研究小组的一篇论文,该论文中声称他们已经将生成对抗网络的方法运用到语言上。
他谈到论文里产生语言的方法是可笑的,比现在的任何技术都要糟糕得多。他推测他们是想先在那个领域占个坑,这样无论谁先研究出来,都需要引用他们这篇论文,因为他们这个想法在这个领域是开创性的。
在这种混乱的情况下,一些人对引用预印本论文的企业提出了质疑。所以,如果arXiv被得这么严重,还要引用那些只出现在arXiv上的论文吗?
不管什么时候,当我们知道自己的是遵循、复制或借鉴他人的想法时,我们就应该引用之前相关的研究。
有很多影响深远的研究都从未出版过,例如目前最伟大的数学论文。arXiv上的每一篇论文并不是都需要写出参考文献,但很多都会需要。断然地引用未出版的论文,这种想法有点儿。我们太过于相信会议组织者和过度工作的审稿专家了,这些审稿专家中大约有30%的人甚至无解论文的基本概要。
如果在回顾文献的时候想到了与自己的研究相类似的方法,就应该引用;如果我们明知自己的研究是建立在别人的工作之上,我们也应该引用;如果我们把别人分享的一个不太明显的想法发展成一篇论文,也应该提及到;如果有人临死前在餐巾纸上写了一个理论,这个理论了对机器学习的新的子领域的科学探索,我们应该把这个人写下的理论发表出来,转换成pdf传到arXiv上,然后再引用它。
当然,无稽之谈肯定不应该引用。许多评审员都在arXiv系统,并的要求将论文与最近发布的预印本论文进行比较。的占坑行为不值得励。评审不应该我们没有将自己的研究与两周前发表的不知道是否有用的算法进行比较。
我们不需要引用arXiv上的论文——这种观点太过于看重科研论文产生的过程,而对论文中想法本身的关注太少了。
推荐: