作者:张静 来源:澎湃新闻 发布时间:2025/4/17 19:16:09
选择字号:
数据短缺阻碍AI一体机落地,专家提出数据元件治理新路径

 

数据是人工智能的燃料和动力,人工智能竞争在某种意义上进入了“数据决胜”阶段,谁拥有数据谁就占领高地。但当前人工智能发展面临数据挑战,如训练数据枯竭、质量参差不齐、隐私安全难保障、数据确权和计量难等问题。在4月17日举行的第三届数字化发展大会暨数字经济高峰论坛上,CCF(中国计算机学会)数据发展委员会主任陆志鹏对外介绍了其所在团队正在开发的新的数据解决方案,即基于数据元件的数据治理方式。

中国计算机学会数据发展委员会主任陆志鹏

  ?

陆志鹏称,今年DeepSeek爆火,让模型平权,人工智能走进企业、走向社会。市场上推出了一批DeepSeek一体机,一些企业以为把DeepSeek模型部署到服务器上就是一体机,就可以开箱即用,结果客户采购后发现并没有达到说明书上的效果,从而引起法律纠纷。

如何部署有价值的大模型?其中数据起着重要作用。高质量数据集是人工智能模型训练的关键支撑,但构建过程复杂。目前很多数据集的构建集中在大模型公司,而大模型公司往往基于自己的大模型构建数据集,导致数据集通用性不足,不同数据集之间的架构和标准也不同,构建高质量数据集缺乏统一衡量标准。领域数据集生成涉及的数据海量且庞杂,需要高效的数据存储解决方案和强大的计算资源来支撑数据的存储、治理和生成。

目前随着数据的重要性被强调,数据共享反而出现了倒退。2024年,用于模型训练的数据中,60%是合成数据,数据质量影响大模型开发效率,因此要确保合成数据的可靠性、安全性、精确性。

如何解决数据难题?陆志鹏谈到了基于数据元件的数据治理方式。“数据元件”是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。数据元件同隐私计算、区块链、数联网、数据空间等被确立为国家数据基础建设的主要技术路线。陆志鹏表示,数据元件不是原始数据,而是数据的初级产品,具有安全属性、价值属性、品质属性,可解决数据确权、估值、定价、安全、隐私问题,及数据质量和处理效率问题。数据元件在实现数据风险隔离和安全管控的同时,提升数据价值密度,实现数据资产的产品化流通和规模化应用。

陆志鹏表示,其所在的团队通过梳理包括场景需求分析和数据资源调查、数据归集和治理、领域高质量数据集构建、领域知识库构建、模型微调和训练、模型应用等六大高质量数据构建的业务逻辑,最终形成一体机解决方案,落地经过部署和场景化微调,模型答题逻辑和流畅性提升。此外,基于数据元件的数据治理打消了企业部门间不愿共享数据的顾虑,打破了数据孤岛,支持企业数字化转型。

 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: