【软盟资讯】
在韩国首尔举办的第31届操作系统原理研讨会(SOSP 2025)上,阿里云与北京大学联合研发的“Aegaeon计算池化系统”以颠覆性技术入选顶会论文,成为全球首个公开解决大模型服务资源浪费问题的系统级方案。该系统在服务720亿参数大模型时,将英伟达H20 GPU集群规模从1192张压缩至213张,硬件成本直降82%,为AI行业算力优化开辟了全新路径。
算力困局:17.7%的GPU服务1.35%的请求
随着大模型技术爆发,全球托管模型数量已突破百万级,但实际使用中呈现显著“长尾效应”。阿里云百炼平台实测数据显示,其模型市场中17.7%的GPU算力仅用于处理1.35%的冷门请求,而热门模型(如通义千问系列)却因资源不足频繁出现延迟。这种“热门模型挤爆、冷门模型闲置”的矛盾,导致全球AI服务商每年损失超百亿美元算力成本。
传统解决方案通过“一个模型绑定一个GPU”的静态分配模式加剧了资源浪费。以服务720亿参数模型为例,若采用主流方案需部署1192张H20 GPU,年电费支出即达数亿元人民币。
Aegaeon技术突破:单GPU服务7个模型
Aegaeon系统的核心在于打破硬件与模型的静态绑定,通过三大技术创新实现动态资源调度:
- Token级动态调度:在每次生成下一个Token时,系统基于实时负载预测模型切换需求,实现亚秒级响应。通过组件复用技术,将模型切换开销从行业平均的300ms压缩至9ms,确保多模型并行时的低延迟。
- 显存精细化管理:采用KV缓存同步优化技术,使单GPU显存利用率提升3倍。实测显示,该系统可同时承载7个不同架构的大模型(如Llama、Qwen、Mixtral),有效吞吐量较传统方案提升1.5-9倍。
- 全栈性能优化:从算子融合到集群调度,系统通过200余项微优化将端到端推理延迟控制在120ms以内。在阿里云百炼平台的三个月Beta测试中,服务Qwen-72B等数十个720亿参数模型时,请求处理能力提升2.5倍,而硬件成本下降82%。
行业影响:从实验室到产业化的跨越
该成果已深度融入阿里云百炼平台,支撑Qwen、Wan、DeepSeek等200余款模型的商业化服务。过去一年,平台模型调用量激增15倍,但通过Aegaeon系统优化,单位算力成本下降65%,使中小企业部署大模型的门槛从千万元级降至百万元级。
“这相当于用软件定义了新的算力计量单位。”参与研发的北大团队负责人指出,“当行业还在追逐GPU数量时,我们证明了通过系统级创新,213张卡就能完成原本需要1192张卡的任务。”英伟达中国区技术总监评价称,该技术将推动AI基础设施从“硬件堆砌”向“效率驱动”转型。
全球算力革命的中国方案
SOSP作为计算机系统领域“奥斯卡”级会议,其严格录取率(年均数十篇)凸显了Aegaeon系统的技术含金量。评审委员会特别指出:“该研究首次揭示了并发大模型服务的成本结构,其池化架构为行业提供了可复制的优化范式。”
目前,Aegaeon技术已通过阿里云国际站向全球开发者开放,支持多语言模型混合部署。在东南亚市场,某金融科技公司采用该方案后,客服大模型的响应速度提升4倍,硬件成本降低78%。“这不仅是技术突破,更是商业模式的革新。”Gartner分析师认为,随着Aegaeon等中国方案的普及,2026年全球AI基础设施投资中软件优化的占比将从当前的15%跃升至40%。
当全球科技巨头仍在为GPU供应焦虑时,中国团队用代码重新定义了算力边界。Aegaeon系统的成功,标志着AI竞赛已进入“系统创新”的新阶段——真正的算力革命,或许就藏在工程师的每一行优化代码中。
关于文章版权的声明:
https://news.softunis.com/46105.html 文章来自软盟资讯
若非本站原创的文章,特别作如下声明:
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!
