1月28日,北京智源人工智能研究院(以下简称智源)多模态大模型成果Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)在《自然》上线,这是我国科研机构主导的大模型成果首次发表于《自然》。
这项成果表明,只采用自回归路线,就可以统一多模态学习,训练出优秀的原生多模态大模型,对于确立自回归成为生成式人工智能统一路线具有重大意义。
《自然》点评这项成果:智源推出的Emu3模型仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义。
据悉,“预测下一个词元”彻底改变了语言模型,促成了如 ChatGPT等突破性成果,并引发了关于通用人工智能(AGI)早期迹象的讨论。然而,其在多模态学习中的潜力一直不甚明朗。
为此,智源提出了Emu3,即基于“预测下一个词元”的全新多模态模型,将图像、文本和视频统一离散化到同一个表示空间中,并从零开始,在多模态序列混合数据上联合训练单一的深度学习模型架构。这一架构证明了仅凭“预测下一个词元”,就能够同时支持高水平的生成能力与理解能力,并且在同一统一架构下,自然地扩展到机器人操作以及多模态交错等生成任务。此外,研究团队还做了大量消融实验和分析,验证了多模态学习的规模定律(Scaling law)、统一离散化的高效性、以及解码器架构的有效性。
智源研究团队对相关研究的多项关键技术与模型进行了开源,以推动该方向的持续研究,还通过大规模消融实验系统分析了多项关键技术的设计选择,并验证了自回归路线高度通用性,使模型能够更好地对齐人类偏好。
研究表明,预测下一个词元可作为多模态模型的核心范式,突破语言模型的边界,在多种多模态任务中展现了强劲性能。
2025年10月,智源推出的原生多模态模型Emu3.5进一步通过大规模长时序视频训练,学习时空与因果关系,展现出随模型与数据规模增长而提升的物理世界建模能力,并观察到多模态能力随规模扩展而涌现的趋势,实现了“预测下一个状态”的范式升级。
成立7年来,智源聚焦人工智能技术前沿,挑战最基础的问题和最关键的难题,推进大模型技术不断演进。未来,智源将继续围绕智能与物理世界的深层关联,推进面向下一代人工智能的科研创新。
相关论文信息:https://doi.org/10.1038/s41586-025-10041-x
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。