文|卜金婷 田瑞颖
《自然》近日发文警告,对人工智能(AI)的不当使用或将催生大量不可靠或无用的研究,导致可重复性危机。而基于AI的科学文献中的错误,是否已经在实际临床中造成真正的危险尚不清楚。
在2020年底新冠疫情大流行期间,由于一些国家病毒感染检测试剂短缺,利用胸部X射线诊断的方法备受关注,但人眼很难准确分辨感染与非感染个体之间的差异。一个印度团队的报告称,AI可以利用机器学习分析X射线图像。这篇论文被引用了900多次。
次年9月,美国堪萨斯州立大学的计算机科学家Sanchari Dhar和Lior Shamir进行了更深入的研究。他们使用与印度团队相同的图像数据集来训练机器学习算法,但只分析其中不显示任何身体部位的空白背景部分,结果显示,AI仍然能够在远高于随机水平的情况下识别出感染病例。
这意味着,AI系统可以利用这些图像数据成功完成诊断任务,却无法学习到任何与临床相关的特征——这可能使得它在医学上毫无用处。
Shamir和Dhar还发现其他几个案例,AI从图像的空白处或无意义部分得到了类似的结果,其中一些论文被引用了数百次。这也让Shamir担忧道:“这些例子很有趣,但在生物医学领域可能是致命的。”
2021年的一项研究,回顾检查了62项使用机器学习从胸部X射线或计算机断层扫描中诊断是否感染新冠,结论指出,由于方法论缺陷或图像数据集中的偏见,没有一个AI模型在临床上是有用的。
“AI允许研究人员‘玩弄’数据和参数,直到结果与期望一致。”Shamir说。
机器学习算法利用数据集训练,直到它们能产生正确的输出,随后研究人员在训练数据集的基础上对其性能进行评估。虽然专家强调必须保持训练集与测试集分开,但一些研究人员显然没有意识到这一点。
这之间的关系很微妙:如果在训练数据集中取一个随机子集作为测试数据,很可能导致数据泄漏;如果数据集来自同一患者或同一科学仪器,AI可能会学习识别与该患者或该仪器相关的特征,而不是解决特定的医学问题。
美国普林斯顿大学计算机科学家Sayash Kapoor和Arvind Narayanan在今年作报告时也指出,这种数据泄露问题已在他们研究的17个领域中造成了可重复性问题,影响了数百篇论文。
纠正测试数据集也可能导致问题。如果数据不平衡,研究人员可能会采用重新平衡算法,例如合成少数群体过度采样技术(SMOTE),该技术可以为采样不足的区域合成数据。事实上,SMOTE并没有平衡数据集,而是制造了与原始数据固有偏见相同的数据集。
即使是专家也很难避免这些问题。2022年,法国数字科学与技术研究所的数据科学家Ga?l Varoquaux和同事在巴黎发起了一个挑战,要求参赛团队开发出一种算法,能够通过磁共振成像获得的大脑结构数据对自闭症谱系障碍作出准确诊断。
该挑战共收到了来自61个团队的589份算法,表现最佳的10个算法主要使用了机器学习,但是,这些算法并不能很好地推广到另一个数据集上,该数据集与提供给参赛团队用于训练和测试其模型的公共数据是保密的。
Varoquaux认为,本质上是因为在小数据集上开发和测试算法,即使试图避免数据泄露,最终也会因为与数据中的特定模式保持一致,从而使方法失去通用性。
解决问题
今年8月,Kapoor、Narayanan及其同事提出了一种解决问题的方法,即制定了一个基于AI的科学报告标准清单,包含涉及数据质量、建模细节和数据泄漏风险等32个问题。他们表示,该清单为基于机器学习的研究提供了跨学科的标杆。
很多人认为,使用AI的研究论文应该完全公开方法和数据。分析公司Booz Allen Hamilton的数据科学家Edward Raff在2019年进行的一项研究发现,255篇使用AI的论文中只有63.5%能够复现,但加拿大蒙特利尔麦吉尔大学的计算机科学家Joelle Pineau等人表示,如果原始作者积极提供数据和代码,那么重复率会高达85%。
基于此,Pineau和同事提出了一份基于AI的论文协议,规定提交时必须包含源代码,并根据机器学习可重复性清单进行评估。但研究人员注意到,在计算科学领域进行完全可重复性都是困难的,更不用说在AI中了。
实际上,可重复性并不能保证AI能提供正确的结果,只是保证提供自洽的结果。荷兰埃因霍温科技大学的计算机科学家Joaquin Vanschoren就警告说:“很多影响力高的AI是由大公司创建的,他们很少立即公开代码。有时也不愿意发布代码,因为他们认为还没有准备好接受公众的审查。”
“如果没有足够的数据集,研究人员就无法正确评估模型,最终只会发表能显示很好性能的低质量结果。”美国非营利机构可重复研究协会的主管Joseph Cohen强调,这个问题在医学研究中十分严重。
生成式AI潜在的风险更大,它们可以从其训练数据集中生成新的数据。例如,研究人员可以使用这些算法提高图像的分辨率,除非十分小心,否则可能会引入人为痕迹。谷歌科学家Viren Jain表示,虽然自己致力于开发用于可视化和操作数据集的AI,但他也担心研究人员滥用生成式AI。
另外,一些研究人员认为,必须改变有关数据呈现和报告的文化规范,才能让问题真正得到解决。
加拿大多伦多大学的计算机科学家Benjamin Haibe-Kains对此并不乐观。2020年,他和同事就批评了一项关于机器学习检测乳腺癌的研究:“由于缺乏支持该研究的计算代码,该研究并没有科学价值。”
对此,该研究作者表示,由于部分数据来自医院,他们有隐私顾虑,无权分享全部信息。
Haibe-Kains还指出,作者并不总是遵守数据透明度准则,期刊编辑在该方面通常没有进行强有力的反击。他认为问题不在于编辑放弃透明度的原则,而是编辑和审稿人可能对拒绝分享数据、代码等的真实理由了解不足,因此往往满足于一些不合理的理由。
事实上,作者可能并不了解确保其工作的可靠性和可重复性需要什么。
今年Nature进行的一项调查就询问了1600多名研究人员关于对AI论文的同行评审是否足够的看法。对于使用AI进行工作的科学家,有四分之一认为评审是足够的,四分之一认为不够,大约有一半表示不知道。
“我还没有看到AI导致无法重复的结果增加。事实上,如果谨慎使用,AI可以帮助消除研究人员工作中的认知偏差。”神经科学家Lucas Stetzik说。
虽然人们普遍担心许多已发表AI研究结果的有效性或可靠性,但目前还不清楚这些结果是否会导致临床实践中误诊。“如果这种情况已经发生,我也不会感到震惊。”芝加哥德保罗大学的Casey Bennett说。
在Cohen看来,问题可能会自行解决,就像其他新科学方法的初期一样,“发表劣质论文的作者今后也不会再有工作机会,接受这些文章的期刊也会被认为不可信,优秀的作者也不会愿意在这些期刊上发表论文”。
Bennett认为,再过十几年,研究人员将对AI能提供什么以及如何使用AI有更深入的认知,就像生物学家花了很长时间才更好地理解如何将基因分析与复杂疾病联系起来一样。
“人们越来越多地向基础模型靠拢,例如OpenAI的GPT-3和GPT-4。这比内部训练的定制模型更有可能产生可重复的结果。”谷歌公司的科学家Viren Jain认为,对于生成式AI,当所使用的模型差不多时,可重复性可能会提高。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。