潘云鹤：“视觉知识”将推动AI 2.0的突破—新闻

作者：韩扬眉来源：中国科学报发布时间：2019/10/14 11:40:16

选择字号：小中大

潘云鹤：“视觉知识”将推动AI 2.0的突破

人类对世界的认知，其中80%的信息来自视觉，人们希望人工智能未来也能像人一样敏锐地观测、认知和预测世界。在中国工程院院士潘云鹤看来，实现视觉知识表达、推理、学习和应用的技术将是人工智能（AI）2.0取得突破的重要方向之一。

近日，潘云鹤首次系统地提出“视觉知识”概念，在接受《中国科学报》专访时对其进行了具体阐述和解释。

《中国科学报》：提出“视觉知识”这一概念的背景是什么？

潘云鹤：视觉处理技术对AI发展有重要影响。

首先，近年来，图像识别水平的快速提升推动了AI热潮的形成。图像识别技术的突破不仅提高了计算机对人脸、文字、指纹及生物特征、医学图片等识别的准确率，而且进一步推动了智能汽车、安全监控、智能交通、机器人、无人机、智能制造等广泛领域的发展。中国科学技术发展战略研究院按技术分类对2018年中美AI企业数量进行了统计，可以看出，提供和应用图像识别技术的企业占一半以上。

再者，传统的知识表达方式具有显著缺陷。早期图像识别和计算机视觉建立在图像处理技术之上；深度神经网络（DNN）的使用以数据驱动的方法来学习特征表达，有效提高了图像分类和识别的准确率。

不过，作为AI知识表达的一种方式，深度神经网络难以解释，不可推理，以及因需大量标识的数据训练网络参数而难以避免地会引入数据偏见等不足。因此，我们需要研究一种全新的知识表达——视觉知识。

这给我们带来如下启示：数字视觉领域是推动AI发展的重要领域；更好的知识表达是推动数字视觉发展的关键技术；克服深度神经网络缺陷是视觉知识研究的关键方向。

《中国科学报》：什么是“视觉知识”？它有哪些特征？

潘云鹤：视觉知识是知识表达的一种新形式，它能表达世界的时空结构与变化特征。计算机图形学经过长期发展，提供了视觉知识表达与操作的技术基础。但是，对视觉知识进行表达及其推理等操作，还需在此基础上加以改造与重构。

视觉知识与迄今为止人工智能所用知识表达方法不同。视觉概念具有典型（prototype）与范畴结构、层次结构与动作结构等要素。视觉概念能构成视觉命题，包括场景结构与动态结构。视觉命题能构成视觉叙事。重构计算机图形学成果可实现视觉知识表达及其推理与操作，重构计算机视觉成果可实现视觉知识学习。

实现视觉知识表达、推理、学习、使用的理论和技术将是AI 2.0取得突破的重要方向之一。

在我看来，视觉知识是不可替代的。上世纪70年代，认知心理学家对视觉记忆做过一系列实验和研究，说明了视觉认知的重要性和独特性。著名的实验有：谢泼德1971年心理旋转实验和1972年心理折纸实验，库斯林等1978年心象扫描实验，以及莫耶1973年记忆中动物大小比较实验等等。

一系列认知心理学实验说明了人脑记忆中的视觉知识具有一系列能力与特性：能表达对象的空间形状、大小和空间关系，以及色彩和纹理；能表达对象的动作、速度及时间关系；能进行对象的时空变换、操作与推理等，这些能力与特征为言语知识所缺乏。

认知心理学研究还指出：人类记忆的视觉知识远多于言语知识，而言语知识的很多理解也不能脱离视觉知识的支持。视觉知识因为难以用语言符号表达，曾被统归为常识，而以往AI研究的一大弱点便是视觉知识研究不足。因此，视觉知识的研究与运用将会是AI 2.0的一个重要发展方向。

《中国科学报》：如何构建视觉知识体系？

潘云鹤：视觉知识体系构建与利用需要解决的首要问题是视觉知识学习，这也是一个知识学习的无人区。建立一个系统的知识体系，往往更需要自顶向下的设计，在这个过程中，诸如3D形状重建等计算机视觉研究成果为系统的视觉知识学习提供了发展土壤。

不过，视觉知识学习要将目标从视觉形状重建进一步深入到视觉知识重建，还需要对现有计算机视觉技术作进一步研究，比如：重建3D形状的层次结构，定位其在概念范畴中的位置等。

除了视觉概念，还要研究视觉命题与视觉叙事的表达和学习。

《中国科学报》：视觉知识有哪些应用？

潘云鹤：从当前AI热潮中视觉识别技术的广泛渗透，可推知视觉知识的应用极广。这里我举三个例子，说明视觉知识的各种应用。

第一，基于知识的识别方法，如用于图像识别。例如“猫”，根据“猫”的视觉概念的典型与范畴等，使用综合推理方法自动生成猫的范畴内外各种图像大数据，并根据范畴内外自动标识为正、负范例。然后，用上述范例大数据训练多层神经网络，最后，用训练过的多层神经网络识别图像。

第二，基于知识的3D重建方法，例如身体的3D重建。将标准身材知识按测量特征点加以变化，从而形成个性化身材的3D重建。

第三，基于知识的创作，即视觉知识用于设计。例如设计人物角色时，在动画、游戏、绘画、广告应用中都有需要。

事实上，视觉知识有着独特的优点：能够提供综合生成能力、时空比较能力和形象显示能力，而这些正是字符知识所缺乏的重要能力。它们能在创造、预测和人机融合等方面对AI新发展提供新的基础动力。

《中国科学报》：关于视觉知识，未来，我们需要关注的重点还有哪些？

潘云鹤：建设视觉知识词典将是十分重要的，这是一个巨大而实用的知识平台和数据平台，应当联合全球人工智能、计算机图形学和计算机视觉科技工作者共同建设。为了顺利而高效地完成视觉知识词典的建设，群智组织模式也将不可或缺。

编辑部推荐博文
逻辑混乱的草图，比高温更让人窒息！科学网2025年6月十佳博文榜单公布！热能、势能、光能和射线发电大脑如何从睡眠中醒来，这是个问题不收版面费的C刊 \|对青年学者友好中国科学院纳米能源所王中林院士/翟俊宜等综述更多>>