作为历史最悠久、知名度最高的预印本平台,arXiv每月都会收到全球作者提交的两万余篇科学稿件。如今,向该平台上传研究成果的作者迎来了一项新要求:自2月11日起,所有投稿要么直接以英文撰写,要么附上完整的英文翻译版本。
图片来源:Sharaf Maksumov/Alamy
在此之前,作者仅需提交英文摘要即可。arXiv工作人员表示,这项英语使用规定将为平台审稿员减轻工作负担,同时维持广泛的读者群。“如果论文不以英文撰写,我们就无法对其进行公正的评审。”arXiv编辑咨询委员会主席、荷兰阿姆斯特丹大学的Ralph Wijers表示。
arXiv位于美国康奈尔大学,约300名志愿审稿员会对提交的稿件进行审核,确认“内容恰当且贴合主题”。arXiv涵盖8个学科领域,收录了近300万篇预印本论文,其中绝大多数集中在计算机科学、物理学和数学领域。目前仅有1%的投稿使用非英语语言。
这项修订后的政策引发了不少公开反对的声音。有观点认为,这一规定带来的额外负担可能会让研究者不愿将博士论文、教材章节等的预印本内容公之于众。作者或许觉得,为这类内容做翻译实在得不偿失。
意大利米兰理工大学的Angelo Lucia表示:“这对我们的科研社群而言是一种损失。”几位法国数学家在arXiv的政策公告下留言称,他们或许会将稿件转投法国预印本服务器HAL。该平台支持英语、法语、西班牙语等多种语言的稿件提交,且不要求作者提供翻译版本。
arXiv的这项政策明确规定,只要翻译内容忠实于原文,由人工智能(AI)聊天机器人等工具完成的自动翻译版本均为可接受的形式。
不过,arXiv的编辑对AI的翻译能力仍存有一定顾虑。Wijers说:“我们的建议是作者务必对翻译结果进行核查。就我们的实际体验而言,AI翻译的效果尚可,但仍有不小的提升空间。”
人们普遍认为,大语言模型在生成日常对话文本方面表现出色。但对于大语言模型翻译科技论文的能力,相关研究寥寥无几。
美国斯坦福大学的James Zou、Hannah Kleidermacher研究了OpenAI公司2024年推出的大语言模型GPT-4o将英文学术文本翻译成其他语言的能力,结果发现测试平均正确率达95.9%。Kleidermacher表示:“即便是斯瓦希里语这类小众语言,模型也能准确传达论文的核心科学内容与研究发现。”目前,这项研究尚未经过同行评审。
他们还邀请了15名精通多种语言的研究人员,对GPT-4o翻译成其母语的文本进行评估。研究人员对翻译质量“感到十分惊讶”。不过最常见的问题是,模型对部分专业术语进行了“过度翻译”,而受访者更希望这些术语保留英文原词。
Wijers强调,向arXiv提交稿件的作者需对稿件内容(包括翻译)全权负责,且应对翻译错误保持警惕。当让大语言模型“翻译或润色某段文字时,得到的文本读起来十分流畅,但模型偶尔会曲解原句含义,也可能因为选错近义词而出现明显错误”。“不过,AI领域的发展速度极快,现在表现欠佳的地方,或许半年后就尽善尽美了。”
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。