软盟资讯2025年8月12日讯在今日举办的“2025金融AI推理应用落地与发展论坛”上,华为联合中国银联正式发布AI推理领域颠覆性技术成果——“以存代算”架构,通过存储与计算深度融合的创新设计,显著降低对高带宽内存(HBM)的依赖,推动国产AI推理性能迈入新阶段。这一突破不仅为金融行业智能化转型注入核心动力,更有望重塑全球AI芯片竞争格局。
技术突破:存算一体架构破解“卡脖子”难题
当前,AI推理对HBM的依赖已成为制约产业发展的关键瓶颈。数据显示,高端AI服务器中HBM成本占比高达30%-50%,而全球HBM产能90%以上被三星、SK海力士等海外企业垄断,导致国内AI大模型训练与推理成本居高不下。华为此次发布的“以存代算”架构,通过将AI推理所需的矢量数据(如KV-Cache)从DRAM迁移至SSD,并利用自研主控芯片(如WM7400 UFS 4.1)与昇腾AI芯片协同,在存储端直接完成部分计算任务,减少数据冗余迁移。
实验数据显示,该架构可使推理效率提升10倍以上,单卡Decode吞吐突破1920 Tokens/s,KV Cache传输带宽提升10倍,输出时延降至50ms。以金融高频交易场景为例,低时延推理能力可支持毫秒级决策,而智能客服领域则能支撑千万级用户实时交互。华为云此前发布的CloudMatrix384昇腾AI云服务已验证类似路径,其MoE训练吞吐提升20%、内存节省70%,为本次技术突破奠定实践基础。
金融落地:从实验室到万亿市场的跨越
作为技术落地的首站,金融行业成为华为AI推理生态的核心应用场景。华为在金融领域已构建成熟体系:分布式新核心方案支撑超75%的大行和股份制银行核心转型,智能体技术推动风控、审计等场景从单点智能向多体智能跃迁。例如,科大讯飞与华为合作实现的MoE模型推理,吞吐提升3.2倍,端到端时延降低50%;与中国电信合作的AI智能体项目,使家宽装维故障处理时长缩短30%,无线网络优化任务用户体验提升10%-15%。
中国银联技术部负责人表示,华为技术将直接赋能反欺诈、智能投顾等高实时性场景,降低金融机构对海外AI基础设施的依赖。据测算,若全面替代HBM,单台AI服务器成本可下降40%,为中小银行及保险机构部署AI提供可行性。
生态重构:国产AI产业链迎来黄金机遇
华为此次突破不仅解决技术痛点,更推动国产AI生态从“硬件堆砌”转向“架构创新”。天源迪科作为华为领先级战略合作伙伴,其子公司独家代理昇腾训推一体机,将优先受益于技术普及;宏达电子控股子公司为华为提供5G光通讯模块,助力算力网络构建;江波龙作为全球第二大独立存储器厂商,通过自研主控芯片与华为协议协同,实现“显存扩展”“算力卸载”三大功能。
政策层面亦形成战略呼应。河南省最新提出“支持研发推广具身智能机器人、AI手机、工业终端等终端产品”,而华为技术可降低大模型在边缘设备的部署门槛,推动AI从云端向终端渗透。IDC预测,到2027年,AI推理工作负载占比将达72.6%,华为生态有望占据国内30%以上市场份额。
专家观点:架构创新引领全球AI竞争
清华大学AI研究院院长指出,华为“以存代算”架构为行业提供了新范式:“过去通过堆砌HBM提升性能的路径已触达天花板,而存算一体通过数据流动优化实现效率跃迁,可能打破‘唯HBM论’的产业惯性。”信通院专家则强调,该技术将加速AI在医疗、工业等敏感领域的应用,提升产业链自主可控能力。
尽管HBM的超高带宽特性短期内难以被完全替代,但华为的技术路径已证明,通过软硬件深度协同,可在性能与成本间找到平衡点。随着金融、政务等场景的规模化落地,国产AI生态有望从“跟跑”转向“领跑”,为全球AI竞赛注入中国智慧。
关于文章版权的声明:
https://news.softunis.com/43012.html 文章来自软盟资讯
若非本站原创的文章,特别作如下声明:
本文刊载所有内容仅供提供信息交流和业务探讨而非提供法律建议目的使用,不代表任何监管机构的立场和观点。不承担任何由于内容的合法性及真实性所引起的争议和法律责任。
凡注明为其他媒体来源的信息,均为转载,版权归版权所有人所有。
如有未注明作者及出处的文章和资料等素材,请版权所有者联系我们,我们将及时补上或者删除,共同建设自媒体信息平台,感谢你的支持!
