探索AI大模型的“正确打开方式”—新闻

作者：赵广立来源：中国科学报发布时间：2022/5/22 15:00:25

选择字号：小中大

当我们再一次提起“普惠AI”，百度正构建降低AI应用门槛的基座——

探索AI大模型的“正确打开方式”

在过往的几年里，人工智能（AI）预训练大模型（以下简称大模型）的参数规模之争愈演愈烈：

由埃隆·马斯克等人共建的人工智能非营利组织OpenAI于2020年发布的GPT-3的参数量达到1750亿，是其前代的100多倍；距离GPT-3问世不足一年，谷歌重磅推出Switch Transformer模型，将参数量提升到1.6万亿，创造了人类历史上首个万亿级语言模型。在我国，相关方也在推出超大规模智能模型，如北京智源研究院发布的“悟道2.0”，参数规模来到1.75万亿，再次创造“全球之最”。

这些大模型不仅需要大量硬件、算力，其电力等运维成本也数以亿计。大模型何以成为AI行业“内卷”的新风向？付出如此之大的成本，大模型的“正确打开方式”是什么？

突破AI学习的数据“天花板”

预训练大模型，顾名思义，即预先训练好的模型，它可以帮助人们降低AI模型创建和训练的成本。但训练 AI模型需要数据，且从理论上讲，数据越多、质量越高，模型效果就越好。当前，算力越来越高、算法越来越强，顺理成章地，能够吞吐更大数据量的大模型成为 AI 前进的新方向。

一般而言，要训练一个AI模型，往往要采用“有监督的学习”，也就是说，需要先做好数据标注，然后将带标注好的数据“投喂”给训练模型。但大模型训练不必如此，它可以做“自监督学习”。换言之，大模型训练所需的数据，可以不必是做好标注的数据。

“应用自监督学习的方法，其实解决了数据的天花板问题。也就是说，数据标注的数量和质量将不再是人工智能应用的关键瓶颈了。”百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜告诉《中国科学报》，在有监督学习中，数据的标注数量和质量是模型训练的关键瓶颈；而通过一些任务的设计，大模型可以在海量的无标注数据上进行规律和知识的学习。

吴甜举例说，百度文心ERNIE大模型学习的就是互联网上海量的人类语言数据，包括文章、段落、著述等等——就像通识教育一样，这些数据本身没有被标注。学习之后，大模型就具备了一定的基础能力。此后，大模型再通过“开小灶”——在特定任务和不同应用场景中做少量任务数据的迁移学习，实现知识增强，就能进一步具备辅助或支撑该任务或行业的智能水平，进而应用于更多场景，在各行各业开花结果。

2021年12月，百度发布了具有2600亿参数规模的产业级知识增强大模型——鹏城-百度·文心大模型（基于百度ERNIE 3.0升级）。文心大模型出炉后通过迁移学习，就在60多个经典的NLP（自然语言处理）任务中取得世界领先效果。

突破大模型落地应用的两个鸿沟

5 月 20 日，百度WAVE SUMMIT 2022深度学习开发者峰会如期而至。吴甜在峰会上提出，2022年是大模型产业落地的关键年。而要做好落地，需要解决的关键问题是，“前沿的大模型技术如何与真实场景的方方面面的要求相匹配”。

在受访中，吴甜告诉《中国科学报》，这句话背后其实是要求大模型要跨越两大鸿沟：一是大模型和应用场景之间存在的鸿沟，这是新技术和应用之间须弥合的部分；二是大模型自身要填补的鸿沟，这是大模型作为一项工具要有“自降门槛的觉悟”。

吴甜说，为了解决这个关键问题、跨越两大鸿沟，百度从三个方面开展了工作。

第一项工作是，建设更适配各类应用场景的模型体系。

在WAVE SUMMIT 2022上，百度围绕大模型产业级与知识增强两大关键词，百度公布了全新的飞桨文心大模型全景图，并一口气发布了10个全新的大模型。这10个大模型连同此前的大模型，既包含学习了足够多数据与知识的基础大模型，也有面向常见AI任务专门学习的任务大模型，以及引入行业特色数据和知识的行业大模型，共同组成了文心大模型“基础大模型—任务大模型—行业大模型”的三级体系。吴甜说，它们之间的关系好比是“接受了基础教育的高中生—具有一定职业技术能力的职专生—具有相关专业学习经历的大学生”，可以为社会各种需求所用。

第二项工作是，开发更有效的工具、发展更高效的方法论来让大模型发挥作用。

“‘好马配好鞍’，要想马儿跑得好，鞍也要足够好。”吴甜对记者说，为了让开发者方便、快捷地使用文心大模型，百度充分考虑了大模型落地应用的全流程问题，配套建设了大模型整套的工具和平台，用以进一步降低应用门槛，端到端、全方位地发挥大模型效能。

据吴甜介绍，这些工具和开发套件提供开发者“更低成本地进行数据准备”“更高效灵活的精调工具”“高性能的部署方案”“60 多个开箱即用的预置基础任务”4方面的能力，帮助开发者降低成本、降低代码量，“让模型插上工具平台的‘翅膀’。除了工具和套件，百度还提供文心大模型API和内置了文心大模型能力的EasyDL和BML开发平台，把门槛进一步降低，让更多的人使用”。

第三项工作需要社区参与，即建设开放的生态，以生态促创新。

百度还新发布了基于文心大模型的创意与探索社区——旸谷社区，让更多人群（非技术）零距离感受到大模型的魅力和应用创新潜力。“我们希望越多的场景、越多的人来使用，把问题和需求反馈给文心大模型体系，这能带来更大的价值。”吴甜说，人工智能系统一定要有反馈，如此方能不断地正向进化。

向“普惠AI”进发

关心大模型如何更快走向实用的，一定不会忽视百度此次发布的的两个行业大模型：国网-百度·文心大模型和浦发-百度·文心大模型。

这两个大模型背后，是百度与国家电网、浦发银行等行业头部企业进行的联合研发与创新。他们通过更好地融合通用数据和行业特有知识，有效提升大模型在电力、金融领域的行业任务应用效果，让大模型逐步走向实用化。

这或许是百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰在本次峰会上所提出“普惠 AI”的一个新开端。如果把大模型对海量数据的学习看作是提炼原油的过程的话，那么国家电网、浦发银行相当于是，携手百度把提炼出的成品油注入了他们的业务引擎。

3年前，王海峰在首届WAVE SUMMIT深度学习开发者峰会上提出，深度学习具有很强的通用性，并具备标准化、自动化和模块化的工业大生产特征，正推动人工智能进入工业大生产阶段。3 年里，百度借助产业级深度学习开发平台“飞桨”和文心大模型，正将这一预判变成现实。特别地，在大模型降低了应用门槛之后，“普惠 AI”的底气才显得越来越足。

访谈最后，记者向吴甜探讨大模型进一步“接地气”的可能，比如人人都可以设计或生成一个独特的“数字人”：使用基础大模型，让数字人拥有人的动作、口型、表情甚至眼神，再借助专门的任务或行业大模型，让数字人可以去主持、解说、对话或陪伴。吴甜表示，这也是百度探索大模型落地应用所向往的方向之一：“我们努力朝着人人皆可应用大模型的普惠 AI进发。”

编辑部推荐博文
逻辑混乱的草图，比高温更让人窒息！科学网2025年6月十佳博文榜单公布！热能、势能、光能和射线发电大脑如何从睡眠中醒来，这是个问题不收版面费的C刊 \|对青年学者友好中国科学院纳米能源所王中林院士/翟俊宜等综述更多>>