从图灵奖得主“卷入”骂战看AI “偏见”—新闻

作者：卜叶来源：中国科学报发布时间：2020/7/9 18:13:57

选择字号：小中大

从图灵奖得主“卷入”骂战看AI “偏见”

当我们还在谈论人类的刻板印象时，人工智能（AI）的“偏见”已经开始刺痛公众的心。近日，2018 年图灵奖得主Yann LeCun“卷入”了一场骂战。起因是Yann发表了一种AI算法PULSE，能依据被识别图片生成一张真实却并不存在的人脸。“换脸”过程中，网友发现PULSE“偏心”，生成的图像很单一，不能依据不同人群“量体裁衣”，导致有些人适配准确，有些人出现偏差的结果。Yann在推特上指出，这是训练使用的数据集的局限性导致的，但公众并不买账，冲突愈演愈烈，而Yann因此退出推特。

偏见究竟是如何影响AI的？公众应如何对待不完美的研究？消除偏见最终是否可以实现？《中国科学报》特别邀请了业界多位专家就此进行了讨论。

讨论嘉宾

邓伟洪北京邮电大学教授

雷震中科院自动化所研究员

张军平复旦大学教授

李甲北京航空航天大学教授

躲不过的偏见

《中国科学报》：AI偏见是个常说常新的话题。在你们看来，究竟什么是AI偏见？AI偏见有哪些表现形式？

邓伟洪：对于AI偏见，目前尚无明确定义。随着AI技术水平的提高和广泛应用，偏见等伦理和道德问题会凸显出来。世界领先的AI公司普遍受到该问题困扰，AI领域是偏见的高危地带。

雷震：此前，亚马逊用AI代替人事部门筛选简历，后来发现筛选出来的简历均为男性，对女性求职者表现出偏见。这是因为AI根据过去简历的关键词来识别，而这些简历中，大部分求职者为男性，女性相关的数据太少，从而导致AI误以为没有这类关键词的女性简历不那么重要。

张军平：把人类、大熊猫识别成大猩猩，在阿拉斯加犬和哈士奇的识别中，只识别照片的背景，有雪地就是阿拉斯加犬，这些都是AI偏见的案例。

《中国科学报》：公众是否对AI偏见反应过激？AI偏见会导致哪些问题？

李甲：AI偏见是自然存在的问题，也是常见的现象。

雷震：一个算法模型在不同数据集、不同场景应用的结果有差别，这是正常的。

张军平：AI偏见可能带来严重后果。比如，智能医疗影像诊断领域，就诊患者的诊断结果通过其他病人的数据训练而来。一旦出现偏差，这些患者的诊疗就会受影响。

《中国科学报》：AI偏见能否避免？

邓伟洪：当前人脸识别主流的训练集是在互联网随机下载名人图片，这种貌似公平的随机下载，“无意中”把互联网的数据偏见传导给人脸识别算法。比如，目前不少训练集中的亚洲人脸数量不足10%。

为了避免造成巨大偏见，建立公平的测试集是避免算法偏见的最有效手段。今年国际计算机视觉和模式识别会议（CVPR）上，我的研究小组发布了一个更均衡的数据集。目前，已有数十个国家和地区的研究小组申请使用。

雷震：从技术角度看，AI能回答所有问题，但要考虑后果。一些可能触发“偏见”的研究要尽量避免，比如用人脸预测犯罪倾向。

张军平：数据集不可能覆盖所有的可能性，算法偏见也许会持续存在。有些偏见不见得能马上被发现，目前依靠机构去纠偏并不现实。比较现实的做法是，科研人员在做情感识别、微表情识别、心理状态判断、AI看相这些类型的研究时要谨慎，避免形成“以面识人心”的偏见。

杀不死的偏见

《中国科学报》：追本溯源，哪些原因导致了AI偏见？

邓伟洪：数据集和算法都会导致偏见。数据集偏见比较容易检测和理解，通过平衡和丰富数据可以有效消除。从技术角度，可以通过人工标注并统计训练数据的某个属性，从数量均衡的标准来确定数据集是否有偏差。算法偏差则更隐蔽，人们无法直接感知算法会偏爱某一群组的用户对象，需要建立专门的测试集来检测，并且要面向公平的测试集来设计和优化模型，才有可能检测和避免算法偏见。

雷震：目前，主流的AI技术都是数据驱动的，多数偏见是由数据集的局限性导致的。此外，物理上的客观局限也会导致偏见。比如，儿童的相貌差距小，其人脸识别比成年人难，识别准确率低，这是客观原因导致的，并非对儿童有偏见。

李甲：通过反推，可以分析出AI偏见源自哪里。而往往，AI偏见不是某一个原因导致的，而是多个问题，比如数据、技术、客观原因等共同作用的结果。

《中国科学报》：能否通过优化算法或更新数据集等技术手段消除AI偏见？

邓伟洪：规避偏见是一个系统方案，需要在数据集和算法上同时着手。公平的数据集可以消除一部分偏见，但不能完全消除。例如，北京邮电大学建立了统一的入学考试和录取标准，但也需要对某些特殊群体加分来实现更广泛意义的“公平”。学术界已有的纠偏机制人为地去除体现偏差属性的特征，这些方法往往会牺牲系统的整体性能。

雷震：对于偏见，可用技术手段纠偏，但不能完全解决。数据总有一定的倾向性，收集数据受时空限制难免有偏差，难以均衡地、全面地涵盖所有类型的数据。目前，数据集公布的信息较少，一般只公布男女比例、大致年龄范围、数据如何采集等基本信息。

李甲：通常，一个数据集中，有的类型的图片多，有的少。数量多的类型识别率高，数量少的识别率低。通过对数据集打一个补丁、优化数据集可纠偏，并且技术难度不大。此外，学术界针对小样本群体如何提高识别率，已经展开前沿研究。

张军平：只能尽可能减少AI偏见，但不能完全杜绝，“例外”总是存在。如果我们想穷尽偏见，那可能会触发组合爆炸问题。

让AI研究“喘口气”

《中国科学报》：有一种观点认为“AI追求的不应该是无偏见，而是透明度”，用透明度换取信任，对此你们怎么看？

邓伟洪：透明度可以解释偏见的来源，方便与公众的沟通，但并不能解决问题。我们需要在伦理准则的指导下，建立由公平的标准、训练数据和算法模型等构成的多层次研究体系，完善地解决问题。

雷震：学术论文旨在服务学术交流。为了确保结果的可重复性，一般论文中的数据集是开源的，实现方式是透明的，代码是公开的，业内人员能够清楚了解数据集的缺陷。从这个角度看，透明是好事，但透明到什么程度，是不是所有问题都告诉公众，全部告知是否会引发其他问题，也是未知的。

张军平：科研人员不是先知，在研究阶段不一定能洞见所有问题。数据集、算法等存在哪些问题，如果研究前就清晰了解，那研究也就没什么意义了。如果透明度能定义，那科研就不是科研了。科研本身就有很多未知因素掺杂其中。

《中国科学报》：有科研人员认为“不同于应用，研究都是不完美的”“AI的输出结果都是带有不确定性的”“不要让研究者们每天活得如履薄冰”，你们希望公众怎样看待AI研究？

邓伟洪：AI是一个方兴未艾的研究方向，希望公众对AI研究持一定的包容态度。在当前情况下，我们可以通过调节系统参数来平衡准确性和公平性。

雷震：AI获取了人类社会的知识和数据，人会犯的错误，AI也会犯。不可否认，纠偏机制是必需的，科研人员要及时改正偏见问题。同时，也要尽量把AI看成人类，让它适时喘口气。

李甲：偏见的消除是逐步的，需要时间。但是，公众希望时时刻刻得到四平八稳的结果，不希望偏见发生，这时候就需要媒体做好“传声筒”，一方面告诉公众，科技一直在进步；另一方面告诉科研人员公众的诉求。