炼制大模型芯片短缺数据有限，何以解忧？—新闻

作者：张静邵文来源：澎湃新闻发布时间：2023/12/1 12:05:33

选择字号：小中大

炼制大模型芯片短缺数据有限，何以解忧？

【编者按】2022年11月30日，可能将成为一个改变人类历史的日子——美国人工智能开发机构OpenAI推出聊天机器人ChatGPT。它不仅催生了人工智能界的又一轮高光期，还并不常见地被誉为“蒸汽机时刻”、“iPhone时刻”甚至“钻木取火时刻”。

这一年来，被称为“生成式人工智能”的革命性技术激发了全球科技界“把所有软件和硬件重做一遍”的冲动，让具有先发优势的AI基础设施提供商价值暴涨，使得从医疗到航天的科学探索获得被加倍赋能的前景，传说中“奇点”的到来从未变得如此具有可能性。

正如历史上任何一次技术变革，ChatGPT也给我们带来了深深的焦虑。既有对AI威胁人类生存的科幻式恐惧，也有对砸掉我们饭碗、骗取我们钱财、操纵我们心灵的现实担忧。连OpenAI自身，也刚刚经历了一场危机，差点没躲过一夜坍塌的命运。

这一年让我们产生了更多疑问：大语言模型下一步的进化方向是什么？AI芯片短缺何时解决？训练数据快要耗尽了吗？中国的百模之战会如何演化？AI技术发展应加速还是减速？AGI（通用人工智能）是否会存在其他形式？为此，我们邀请了2023年在AI赛道奔跑的业内人士回答这些问题，并提出他们自己的问题。如果你也有自己的回答或提问，欢迎告诉澎湃科技（www.thepaper.cn）。

算力与数据，是支撑大型语言模型发展的两大基础设施，类比发动机和燃料。生成式人工智能浪潮兴起一年来，这两个因素的重要性陡然提升，也凸显出更紧迫的优化需求。

如果说OpenAI是这场浪潮的引领者，那英伟达就是获得了最大实际利益的玩家。今年以来，这家AI芯片公司的股价已上涨241%，市值突破万亿美元，其领先市场的GPU（图形处理器）和高性能计算设施被全球科技企业争相抢购。“现在业内最好的（AI）芯片是英伟达的。”云知声智能科技股份有限公司董事长兼CTO梁家恩告诉澎湃科技，尽管也存在一些挑战者，但“英伟达的生态构建时间长，很多软件和它适配”。

尽管“三年之内很难出现能挑战英伟达的玩家”，但北京开放传神科技有限公司（OpenCSG）创始人兼CEO陈冉对澎湃科技表示，“国内同类别的一些高性能芯片已经可以达到美国厂家60%左右的性能，现在已经解决了一部分高性能AI芯片短缺的问题。”梁家恩也有类似看法，“国内能够顶上的是华为昇腾，可用问题目前不大。”信也科技副总裁、大数据及AI负责人陈磊认为，国内芯片离英伟达同等芯片还有一定距离，但不是赶不上，应该还需要一些调优空间。

在AI芯片短缺的同时，一个更长远的问题也被负责任地提起。上海市数据科学重点实验室主任、复旦大学教授肖仰华指出，当通用人工智能大规模应用之后，它在应用阶段的算力将会成为不可忽视的能耗来源，其带来的能源消耗及相应的环境保护问题，必须受到高度关注。“某种程度上我们可以把它归结为AI对人类能源的一种侵噬，这有可能会成为AI进一步发展的制约性因素。”

有限的不仅是能源，还有数据。今年7月，加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素（Stuart Russell）发出警告称，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。研究机构Epoch估计，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。

对此，北京智谱华章科技有限公司（智谱AI）CEO张鹏认为：“并不是说数据完全耗尽了，数据的生成速度是越来越快的，呈现爆炸式增长，怎么把快速增长的数据都利用起来，是未来要研究的。”

英矽智能联合首席执行官兼首席科学官任峰向澎湃科技表示，数据的数量只是一个方面，更重要的是质量。蚂蚁集团副总裁、金融大模型负责人王晓航也认为，数据质量比规模数量更重要，而要达到高质量的数据，还是要跟产业合作。

“有一种说法是预计2025年左右，全世界50%左右的数据会来自感知和传感等IoT（物联网）数据，这部分数据基本上没有被使用，又蕴含着现实社会中的大量知识，能产生新的能力。”王晓航谈到了对高维度数据的挖掘。

而对于合成数据的利用，肖仰华表示，利用人类已经积累的科学原理去指引相应的数据生成，然后再将这种数据喂给大模型，使其形成一种近乎人类直觉的判断和生存能力，是一个非常重要的趋势。

以下为采访实录，因篇幅原因有删减：

大模型的训练数据快要耗尽了吗？

澎湃科技：预计大模型训练什么时候会用完现有数据？

陈磊（信也科技副总裁、大数据及AI负责人）：根据研究机构的分析，从文本的大模型来说，高质量数据可能在2026年耗尽，这是根据前两年大模型使用的token（注：在AI领域token通常指文本处理过程中的最小单位）的数量，以及现在高质量数据的来源做的简单测算。

张鹏（北京智谱华章科技有限公司CEO）：互联网这几十年发展积累的数据，已经公开的基本上都用到了，剩下的数据还有很多没有公开或者有版权约束。并不是说数据完全耗尽了，数据的生成速度是越来越快的，呈现爆炸式增长，怎么把快速增长的数据都利用起来，是未来要研究的。

陈冉【北京开放传神科技有限公司（OpenCSG）创始人、CEO】：这个问题就像人类对宇宙的探索是否会终止一样？不会。数据会不断涌现出来，而且很多数据没有数字化。

王晓航（蚂蚁集团副总裁、金融大模型负责人）：与其问什么时候用完现有数据，不如说如何广泛挖掘和利用多模态等更高维度的数据，这些多模态数据不只是视频，还有跟世界互动的数据。有一种说法是预计2025年左右，全世界50%左右的数据会来自感知和传感等IoT（物联网）数据，这部分数据基本上没有被使用，它又蕴含着现实社会中的大量知识，能产生新的能力。其次是产业怎么参与进来，每一个大产业都有至少千亿级token的高质量数据，如何高质量萃取数据、注入、跟应用场景连接，是下一个阶段的发展方向。

梁家恩（云知声智能科技股份有限公司董事长兼CTO）：“用完”是个伪命题，我们在互联网上不可能抓到所有数据，也就谈不上“用完”。全网能获取的高质量公开数据，大部分已经喂到模型里了，企业内部存储的数据通常都无法获取，获取不到就谈不上“用完”。“用完”的概念还不如换成“用好”。

任峰（英矽智能联合CEO兼首席科学官）：这要看研发什么样的模型。在生物医药领域，比如要做靶点发现，这个数据目前来看是够用的。难点在于验证，即我们需要很长时间去验证数据有效性。

同时，数据的数量只是一个方面，更重要的是数据的质量。我们在收集生物医药中专门领域的数据方面都有专门的团队，叫做数据清洗团队，他们会将质量不好的数据或不符合要求的数据删除。如果掺杂着很多错误数据，模型生成的结果精度就比较低，甚至说生成的结果就是错误的，某种程度上对我们而言就是不能接受的，这可能跟一般的大语言模型不同。

目前我们的数据来源主要是文献、专利和一些公开的数据库，有时候也可以买一些数据库。以后我们希望可能有来自医院的数据，每个医院都有自己的数据，但这些数据不会被开源。如果有朝一日有比较好的机制，医院能够把数据对外开放的话，整个数据量跟现在相比就会不在一个量级，但是现在还没有办法完成这样的开放。

澎湃科技：让AI生成数据去喂养大模型现实吗？

王凤阳（百度集团副总裁、移动生态商业体系负责人）：实际上，大家已经在这么做了。因为在大模型已经有逻辑推理和生成能力以后，它本身就是一个很好的输入。

王晓航：这已经在做了，有高级版和初级版。高级版就是数据耗尽以后怎么合成数据达到同样的高质量，包括OpenAI也在做。国内百模大战的很多数据都来自一流大模型，GPT是世界上最大的打标工厂，但问题是限制了下游模型的天花板，造成模型坍塌现象。

陈磊：有些公司已经在做这件事了，一般的方向是用一个比较好的大模型或规模更大的大模型生成数据，经过人工调整，再喂给稍微小一点的模型，降低训练成本。这里面很大的一个问题就是，怎样保证AI生成数据的质量，这也是有大量的技术门槛。有一些论文在讨论怎么形成比较好的数据，这有待时间检验。最怕的是Garbage in garbage out（无用输入无用输出），最终模型退化、崩溃。

张鹏：学术界有在思考，也在研究。之前有研究说，当用模型本身生成的数据来训练模型时，会导致模型坍缩。但研究上也没有把这种说法板上钉钉钉死。

陈冉：这个问题可以这么问，什么时候让AI生成高质量的数据，使得大模型训练不需要找外部的数据。如果这么问，我觉得很难。因为给大模型灌的数据是有限的，各行各业的核心竞争力是自己的数据。所以谁会把数据喂给大模型让它学会这个领域？我觉得大家会慢慢意识到，谁都不想往大模型灌数据了，因为大家都想各自活出来。

肖仰华（上海市数据科学重点实验室主任、复旦大学教授）：我认为合成数据实际上是指，在相应的原则和规则指引下生成的数据，比如遵照特定物理数学规律生成的数据，像根据勾股定律生成符合勾股定律的数据，这种数据对于炼制大模型的数学思维、物理思维、专业能力都非常重要。所以让大模型去认知这种人类已经在自然学科积累的各种专业知识非常重要。

事实上人类的认知一直有“系统1”和“系统2”的说法。系统1主要实现直觉思维，系统2实现符号化的逻辑思维，这也是很多专业工作开展过程中所依赖的思维方式，大模型目前在这种思维方面的能力仍然有局限，所以利用人类已经积累的科学原理去指引相应的数据生成，然后再将这种数据喂给大模型，使其形成一种近乎人类直觉的判断和生存能力。这是一个非常重要的趋势，甚至有可能让大模型具备人类大脑系统2的符号思维、逻辑思维能力的关键一步。

梁家恩：至少我们的语音合成出来以后再去反哺我们的语音识别是有帮助的。我相信类似的情况在视觉方面应该也会有帮助，因为AI能生成的数量太大了，它比标签数据规模更大。AI生成数据更大的作用在于帮我们提升稀疏样本的覆盖度，而不是提升质量。

比如在声音识别中，有些词文本里有，但网上从没人说过，如果用不同音色合成出来，就相当于提前看到了生僻词，用AI生成数据覆盖这种词语是有帮助的。但利用AI生成高频数据，无论输出语言、文本或知识，我觉得不会有太大帮助，甚至可能有负面作用。

澎湃科技：如何让更多高质量数据变得可用？

王晓航：今天，数据质量比规模数量更重要。中文世界的金融数据大致在2000多亿token量级，我们自己获取了内外部的私域公域数据是1700多亿左右token，但经过萃取、去重、质量筛选后，我们认为能够达到应用标准的只有170多亿token。每个产业都是这样的，要达到高质量的数据，还是要跟产业合作。所以OpenAI征求产业深度合作伙伴，走得非常正确，因为没有办法用通用的方式去理解专业领域的数据质量的高与低。

未来最重要的一个方式是怎么让现实世界中复核和验证的数据源能够参与到语料数据的生产或处理中，在良莠不齐的数据中帮助我们更好把握哪些数据源是更加可信的。比如判断分析师的水平，就是看他的预测跟市场发展的一致性有多高。所以怎么把现实世界中对数据质量的反馈融入到数据体系里，长期来说这是非常重要的。

肖仰华：未来，一方面是要将更多广泛存在的低质量数据转变成高质量数据；另一方面，从可用性的角度，现在能用的数据大部分是开放数据，未来在经过合理授权、合法数据交易的前提下，使用更多高质量的私域数据来炼制大模型。比如图书馆的图书数据在相应的版权许可下，就有可能成为大模型炼制非常重要的数据来源，还有媒体数据，尤其是主流媒体高质量的数据，都值得炼制大模型的相应能力。

梁家恩：好数据是高质量且多样化的。先判断哪些数据是高质量，哪些质量不高，质量不高的数据放进去反而有害。我们要适应全网各种各样的数据，哪怕它本身是垃圾数据。所以我们内部也会用一些策略做数据优选，通过滚动迭代的方式选择更好的数据。

陈磊：第一，通过互联网方式获得的公开数据差异性不大，收集全面、完整性好的数据是关键。第二，收集的数据质量参差不齐，不可能把所有互联网数据都放在模型里，按照什么标准筛选数据，同时在一定范围内对数据进行加工和清洗，这有较大技术门槛，比数据采集难度更高。第三，未来数据怎样实现共享也是一个大话题，世界的知识就那么多，没有必要所有人都去清洗数据。

张鹏：这是一个综合性问题，不光是怎么获得数据，还涉及到知识产权保护、隐私等，需要监管部门、企业、个人等一系列社会群体共同商量。只要大家认识到这个问题，愿意解决这个问题，就有可能坐下来谈。如果是技术性问题，就解决技术性问题，比如怎么用隐私计算或者联邦学习解决数据保密和联合学习问题。如果是监管或社会性问题，就通过法律法规约束。

陈冉：什么时候大家对数字化转型了解得很完整，什么时候国家监管非常透明，什么时候大家有非常好的工具，什么时候有非常好的上下游数据生态，高质量数据就变得可用了。

澎湃科技：未来一年，Web 3.0在支撑大模型数据上会有什么重要进展？

陈冉：虽然区块链解决了货币、数字、唯一性问题，但人类一直没有融入元宇宙。人类也是数字体，我们去医院看病会把数据下载下来，去消费会把使用习惯下载下来，怎么让元宇宙或Web 3.0把这些元素贯通，形成联系？我认为未来每个人有可能由一个或多个模型组成，所以什么时候多个模型组成人类唯一实体并在元宇宙里出现，元宇宙有可能会重新爆发，软件定义一切才能实现。

陈磊：Web 3.0场景里的数据可能能够支撑大模型特别是多模态大模型的训练。另外大模型在Web 3.0里的应用值得期待，特别是智能体的出现能够让我们的很多应用变得很不一样。

梁家恩：不管底层支撑是什么，本质上还是看数据。我们关注的是，在Web3.0中，可能未来优质的多模态数据会更多，目前更多的还是以文本为主导，多模态数据质量参差不齐。

澎湃科技：对于大模型在数据方面面临的挑战，你最想知道答案的一个问题是什么？

王晓航：比较系统和公认的数据质量分级标准是什么？怎么判断数据好与不好，能不能建立一个公认可行的规范和机制。每个行业有各种各样的标准，对于纯粹依赖数据的大模型技术，有没有科学的方式对这些语料和数据按照质量进行评级？

陈冉：灰色地带的数据的定义是什么？搞清楚这个问题，生产力有可能会形成质的改变。

陈磊：未来模型跟模型之间的交互、模型之间数据的交互到底应该是什么样？比如中文世界的大模型跟英文世界大模型怎样交互。

梁家恩：大家越来越注重数据了，但数据标准化、安全、产权规则现在还不清楚，这会成为利用数据的障碍，数据利用成本也高。这个问题怎么解决？

英伟达会一家独大多久？

澎湃科技：何时能解决高性能AI芯片的短缺问题？

梁家恩：我们目前做千亿级参数的模型是够用的，后面要看业务需求，业务扩张会需要更多算力。现在业内最好的芯片是英伟达的，国内能够顶上的是华为昇腾，可用问题目前不大。我们有一部分工作在软件上完成，通过软件优化芯片的利用效率，我们在英伟达A800的利用率上可以做到60%左右，同样的硬件情况下，有更好的计算能力。

陈冉：中美在生成式预训练模型方面的芯片代差不止一两年。中国能否造出高性能AI芯片，答案是肯定的。放眼历史，解决生产力问题的是市场，如果有广大的市场需求，解决AI芯片就是时间问题。我们现在跟国产AI芯片合作，国内同类别的一些高性能芯片已经可以达到美国厂家60%左右的性能，现在已经解决了一部分高性能AI芯片短缺的问题。

陈磊：我也没有特别好的预判。我们采购GPU的挑战还比较大。但有两点，第一，现在AI芯片整体产能短缺，台积电前段时间也说封装产能不够，从全球来讲可能要一年半以后，产能才能跟上客户的需求。第二，从长期来讲，AI芯片的采购慢慢会回归到合理的市场行为。

另外国内的芯片也在发展，美国的禁令客观上也给国内企业带来了新机遇。国内的AI芯片都是未来可能的一些选项，我们也做了相关的测试，发现性能还不错，离英伟达同等的芯片还有一定距离，但不是赶不上，应该还需要一些调优空间。

澎湃科技：到什么时候会出现真正能挑战英伟达的玩家？

陈磊：短期挺难，除了硬件，英伟达的软件生态已经积累了比较大的壁垒。但长期来看，有一些玩家可能会对它的市场占有率造成一些影响，比如美国的AMD，AMD的消费级芯片市占率不错，数据中心的占有率相对较低，如果把消费级的能力在数据中心上延展，应该是有机会的。另一个可能的玩家是谷歌，谷歌的TPU（张量处理器）未来只要愿意走自由化的支持路线，也会对英伟达有影响。

梁家恩：单从算力和硬件指标来说，AMD的MI300X算力也不差。但英伟达的生态构建时间长，很多软件和它适配，软件迁移会有一些隐性成本。

陈冉：在国外，微软、谷歌、AMD、英特尔都想吃这个蛋糕，玩家早已出现。在国内，三年之内很难出现能挑战英伟达的玩家，但可以拭目以待。

澎湃科技：除了GPU，AI芯片还有其他路线吗？

陈冉：可以通过GGML（张量库）等软件技术，用CPU做大模型推理。因为GPU太贵，使用成本非常高，很难实现业务转型。除了CPU，还有TPU。路线肯定会越来越多，唯一的目的是降本增效，让普适的硬件通过软件方式达到同样效果。

陈磊：没有GPU的时候，有的场景用CPU也能跑。有段时间FPGA（现场可编程逻辑门阵列）也是一个选项，可以用在特定场景。回到大模型，有TPU、NPU（嵌入式神经网络处理器）。NPU是更贴近深度学习的AI芯片。未来量子计算涉及到的组件也有可能在AI领域使用，不过短期内商业应用会有些挑战。

梁家恩：存算一体大家看得比较多，但离量产还有距离。量子计算也还在实验阶段，商业化还需要时间。

澎湃科技：边缘计算或终端计算在未来一年的发展趋势是什么？

梁家恩：边缘计算的芯片现在没有限制，未来把一部分不复杂的计算移到边缘端来做，让边缘侧支持大模型计算，应该也是大势所趋，高通已经做了一些工作。

陈冉：大模型以后肯定是普适、平民化的，大众都可以具备。大模型真正服务于个人时，还是要回归带宽、算力服务距离，已经有一些厂家开始做边缘计算的大模型解决方案了。我觉得明年中就会有基于大模型的方案应用到PC等个人终端上，未来边缘计算跟大模型的结合是大趋势。

陈磊：这两个不是新概念。从商业应用角度讲，未来云边端的协同发展可能会更顺畅。现在建了大量数据中心，也是希望把适合集中式计算的和适合端侧计算的做一些分离。大模型出现以后，这一块的发展可能会更加迅速。

我们也看到一些大模型玩家把大模型往移动端做压缩和裁剪，未来可能在端侧计算能力下也能跑一些大模型应用，带来交互上的提升，出现新的应用，这可能是大模型对边缘计算和终端计算带来的一些新范式。

当然还存在挑战，比如终端的计算能力能否和大模型裁剪以后的计算能力匹配、精度损失如何控制、怎么和云端做交互，现在还处于原型验证阶段。

澎湃科技：如何解决高算力带来的能源消耗与环保问题？

陈冉：H100升级到H200的过程中，能耗降低了。另一个趋势是实际能耗跟外部环境相关，比如机房的温控和散热。所以首先从模组和算子下功夫，另外从数据中心上解决能耗和环保问题。但很难说把一个模组降低到非常低的能耗，它毕竟要计算，要耗电。

陈磊：我们可以把大模型足够压缩，让算子效能足够高，从本质上让大模型需要用到的算力变得更低，这是一种可能的方式。第二种方式是在硬件层面做低功耗、高散热处理。第三，不要一味追求每个应用都用大模型来做，还是要根据不同场景来平衡精度和能效，有的场景用大模型，有的场景用小模型，让整体能耗下降，这是更经济的方式。可以把有的场景用大模型和小模型都做出来做比对，观察资源的使用情况。从算法本身角度来讲，大模型更适合解决通用问题，小模型适合解决细分场景问题。当然也有一些场景会有小模型调用大模型、大模型调用小模型的情况。第四，从更大的角度来说，以前讲数据孤岛，现在有资源孤岛，怎样把资源统一起来集中化管理，根据弹性按需使用，这也是一个比较好的方式。但我们从企业角度来讲，前面三个方式可能会更容易做到。

肖仰华：AI算力的能源消耗已经成为了未来AI治理中的一个非常核心的问题。

目前全球最高端的算力基本上都用在了大模型的训练中，随着大模型需求的日益广泛，可以预见未来将会有更多的算力投入AI训练和应用过程中。当通用人工智能大规模应用之后，它在应用阶段的算力也将会成为不可忽视的能耗来源，所以其带来的能源消耗问题及相应的环境保护问题，必须受到高度关注。

某种程度上我们可以把它归结为AI对人类能源的一种侵噬，这有可能会成为AI进一步发展的制约性因素。因为除了发展AI之外，人类仍然有很多问题要解决，比如出行需要能源、太空探索也需要消耗很多能源，所以将来AI对能源的抢占将成为一个日益突出的问题，而且这个问题可能会被隐藏在 AI社会治理各种表象问题的背后。事实上各大厂商在资本逐利的利益驱动下，一定是会不计成本加大对大模型的研发，所以我认为这个问题将会日益突出。

这是一个全社会将来要从方方面面重视的问题。首先企业应该将AI的能耗控制及相应的环保问题作为企业社会责任、环境保护治理的核心新内涵之一。其次，每一个人要充分意识到AI带来的环保问题。第三，政府应该把AI的能源消耗和环境问题纳入AI治理的范畴之内。目前这个问题谈的比较少，AI治理更多还是解决其对社会经济结构、个人价值体系等方面的影响，所以AI能耗问题需要引起足够重视，同时要积极采取措施。

澎湃科技：对于大模型的算力支撑，你最想知道答案的一个问题是什么？

陈磊：适用于大模型的AI芯片架构到底是什么样的？因为现在比较大的问题是大模型越来越大，对芯片内存要求越来越高。解决内存问题有两个路径，一是存算一体，二是把多个芯片结合起来变成一个大集群。但还是比较希望知道最终优秀的AI芯片架构到底是什么样的。

梁家恩：下一代芯片架构的新设计思路何时能成熟商用？从存算一体或量子角度来看，未来应该怎么做来突破现在芯片的能耗和物理边界。因为如果按照现在的方式来做，能耗越来越高，工艺接近硅原子的极限。

陈冉：量子计算能否跟大模型结合？如果通过量子计算，GPU有可能被淘汰。下个时代怎样能够帮助大模型实现质变，有可能到GPT-5甚至GPT-6就可以通过量子计算机实现了。

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
论文投稿新问题！审稿人说插图AI感太重…… 成功经验（Crested ibises in Yang County）电解液调控水凝胶界面实现锌金属电池正负极协同稳定 “庐山烟雨浙江潮” 科研评价类服务重点与难点超冷水的隐形转变更多>>