2月15日,一手缔造了ChatGPT的OpenAI再发“大招”,发布了其第一个文生视频大模型Sora。在官方分享的演示视频中,该模型可以根据用户输入的提示词,生成长达一分钟、连贯稳定的高清视频。
虽然Sora还未获公开应用,但已引发大量关注。原因无他,OpenAI发布的演示视频一度让人们无法分辨这是人为摄制的还是AI作品,以至于许多人评价它们“毫无AI感”,引人惊呼:“现实不存在了”。
国内外的圈内“大佬”也纷纷下场对Sora给出肯定回应。2月16日,360创始人周鸿祎发表千字长文点赞:“Sora展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破……这就离AGI(通用人工智能)真的就不远了,不是10~20年的问题,可能一两年很快就可以实现。”埃隆·马斯克则在一条分享Sora生成视频的帖子下回复:“gg humans”(gg为网络游戏用语“good games”的缩写,可译为:人类完蛋了)。
不少媒体纷纷引用这些评价,并将Sora与“世界模型”“通用人工智能”等词语联系起来,大有Sora已扫清通往AGI之路的障碍之势。
笔者翻看了OpenAI发布的Sora生成的48个演示视频,也被其逼真的画面、富有想象力的场景、多视角的流畅切换等所震撼。相比2023年Runway、Pika等发布的AI视频,Sora在时长、精细度、真实性等方面均呈现出了长足的进步。
但这就是“世界模型”乃至AGI的终章了吗?笔者认为还言之过早。
首先,尽管Sora能够生成真假难辨的视频内容,但这并不能证明AI已经能够掌握了物理规律、理解了运动中的物理世界。换言之,Sora的出色仅体现在它作为文生视频工具的能力方面,并不代表它具备了实现通用人工智能的潜力。
根据OpenAI官网上的技术文档介绍,Sora的成功,在于OpenAI团队对如何在视频数据上进行大规模的生成模型训练进行了探索,并在探索中从大语言模型(LLM)中汲取了灵感——将各种类型的视觉数据转化为统一的表示方法“patch”(类似于LLM中的token),以便进行大规模生成模型的训练。
这种工程技术上的进步,使得大模型能够输出让人眼前一亮的结果。但这并不能证明Sora在视觉数据训练中掌握了人类世界的全部知识,更无法佐证其“炼成”了“世界模型”。
有细心的网友肯定也发现了Sora演示视频中一些有违常理的画面,如画面中的动物无缘无故地增加或消失、物体反重力上升等,这正符合其作为AIGC工具“不会对发现知识、生成数据中的错误风险负责”的预期。
OpenAI自己也称,Sora模型还存在许多不足,比如它无法准确模拟诸如玻璃碎裂、人们吃东西等许多基本交互的物理效应。显然,Sora并没有真正学到世界的运转规律,比如动量守恒、摩擦作用、不同材料的密度不同、物质不可瞬移等,可见它并非“世界模型”。事实上,目前学界对“世界模型”的定义是什么都众说纷纭,更休谈“炼成”一说了。
其次,Sora的生成效果和效率仍有待商榷。目前,出于多方面的考虑,Sora仅面向少数艺术家和开发者调用,并未开放应用。可以理解的是,当前OpenAI发布的演示视频大概率是精挑细选出来的“优品”,并不能代表Sora的真实表现。
一类工具或一种生产方式是否可用、好不好用,并不取决于它是否产生了令人眼前一亮的效果,而是它能否给出消灭不确定性的保证、降低工作产出的方差。人们往往更愿意为了保证稳定性而换取一些效果的下降。而以Sora为代表的AI工具是否能够持续降低这些不确定性,目前还存在巨大疑问。从这个角度来说,Sora尽管表现亮眼,但我们仍应观其后效,对其未来发展和将引领怎样的未来保持耐心。
通用人工智能是AI领域科学家为之奋斗的最高目标。知名人工智能科学家、北京通用人工智能研究院院长朱松纯这样描述AGI:它需要在复杂动态的物理和社会环境中满足三个关键要求——处理无限任务、具备自主性、具备价值系统(由价值驱动完成各类任务)。这背后的核心是AI系统要具备相当的“认知架构”,也即人类所熟知的常识、共同的行动规范和价值观。
从这些描述中可知,实现AGI的难度在当下是非常巨大的。事实上,OpenAI在言及AGI时的用词就十分考究:“Sora是理解和模拟现实世界的模型的基础,而这一能力将是实现AGI的重要里程碑。”
对人工智能技术的阶段性突破略有些溢美之词,照理来说属于人之常情;但动辄言及“实现AGI”“人类gg”这类夸大之词,反而可能产生副作用,稍不留神就会造成误读。AI的确是非常开放的空间,人们沿着这一技术路线能开发出的产品也充满着想象,但AI今天已经与人类社会的经济、政治、文化、伦理等系统深入融合,因此对AI的技术突破评价,还是应严谨为宜。
(本报实习生边歌对此文亦有贡献,封面图截自Sora生成的视频)
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。