大模型持续迭代,AI基础设施成为云厂商的核心竞争力之一。
7月1日,腾讯宣布其自研星脉高性能计算网络全面升级,升级后的星脉网络2.0搭载自研的网络设备与AI算力网卡,支持超10万卡大规模组网,网络通信效率比上一代提升60%,预期将大模型训练效率提升20%。
腾讯云副总裁王亚晨在发布活动中表示,如果将大模型的训练比作是一场F1赛车比赛,腾讯云设计的星脉高性能算力网络就是“赛道”,自研的TiTa和TCCL网络协议就是“赛事指挥中心与专业车队”,有了这些,“腾讯云高性能计算集群HCC的GPU服务器”这台“F1赛车”就能发挥最大的算力性能,助力客户在AI大模型的竞争中取得先机。
当前,如何在大规模组网前提下,提升通信效率、降低通信占比,让训练稳定可用,进而提升GPU的利用率和模型训练效率,是AI网络要解决的核心问题。数据显示,星脉网络2.0可实现大模型训练过程中,网络通信占比(通信时间占总体时间比例)低至6%,远低于10%的业界水平;通信负载率达到90%,与IB网络(Infiniband)持平,相较于标准以太网提升60%。
王亚晨介绍说,腾讯自研星脉网络是一套软硬协同的高性能网络体系,包括自研网络设备、通信协议、通信库以及运营系统四大关键组件,每个组件均采用了业界首创的核心技术。例如在硬件方面,腾讯星脉网络是业界首个采用全自研网络设备的高性能网络,包括交换机、自研光模块、网卡等,其率先引入的400G硅光模块,让网络延迟降低40%,支持超10万卡大规模组网。
据王亚晨介绍,目前腾讯云已经面向生成式人工智能场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。据统计,有超过80%的头部大模型企业使用了腾讯云服务。
王亚晨在交流环节表示,大模型时代的来临,将开创下一代云服务,腾讯云致力于打造“最适合大模型的云”,将持续升级底层AI基础设施,助力企业把握AI时代。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。