|
|
|
|
|
聚焦大模型训练与推理等议题,他们齐聚交大展开深入交流 |
|
|
1月9日,“Optimization for LLM/Robotics/Quantum and more...”一日工作坊在上海交通大学举行,与会专家学者围绕现代大模型训练与推理中的优化器和优化算法、基于GPU的高性能数学规划算法对AI4S的应用等前沿问题进行了深入交流。
活动现场。图片由上海交通大学安泰经济与管理学院提供
上午场活动围绕大语言模型优化主题展开。
上海交通大学智能计算研究院院长、安泰经济与管理学院特聘教授葛冬冬在致辞中指出,随着大模型规模和复杂度的不断提升,优化算法正成为支撑模型训练效率、稳定性与系统性能的核心基础技术。
美国宾夕法尼亚大学沃顿商学院副教授苏炜杰在报告《Why Muon Is Good but May Not Be Optimal: Two Perspectives》中,从梯度各向异性与曲率建模两个视角系统剖析了Muon优化器的理论基础与潜在改进方向,为新一代大模型优化方法的设计提供了新的理论启示。
香港中文大学(深圳)副教授孙若愚报告主题为《PC Layer: Polynomial Weight Preconditioning for Faster LLM Training》。他提出了一种可在训练后无额外推理开销的权重预条件化方法,并在大模型预训练中实现了显著的效率提升。
针对大模型推理系统的工程挑战,香港科技大学助理教授周子杰分享了多目标调度与大规模专家并行负载均衡方法,展示了优化理论在高并发推理服务中的实际价值。
下午场的第一阶段聚焦“AI4S:GPU加速的现代优化算法”。葛冬冬系统介绍了GPU加速优化的核心思想、算法设计与工程实现路径及其在AI4S、量子计算、金融经济、能源电力等真实业务场景下的应用价值。上海交通大学安泰经济与管理学院副教授刘慧康围绕机器人控制问题,展示了基于GPU加速的一阶半定规划方法在大规模SOS优化中的显著性能优势。上海交通大学在读博士研究生吴彦成则分享了其在量子有序搜索问题中提出的无矩阵GPU加速SDP求解方法。
第二阶段聚焦“Optimization for Miscellaneous AI Problems”,华东师范大学教授王祥丰、香港中文大学(深圳)在读博士研究生张雨舜等多位青年学者和产业界研究人员带来了跨领域的前沿成果。
本次工作坊由上海交通大学智能计算研究院、上海交通大学安泰经济与管理学院、上海数学与交叉学科研究院联合主办。
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。