11月4日,“存力中国行”北京站活动在中国信息通信研究院顺利举办,来自产业链上下游的企业代表、专家学者及媒体共同聚焦AI推理时代的存力挑战与创新路径。随着AI技术从模型研发走向行业规模化应用,推理阶段的性能、效率与成本控制成为决定技术落地价值的“最后一公里”,而先进存力作为核心支撑底座,正迎来技术重构与生态协同的关键变革期。
Token经济时代,推理成本成行业落地瓶颈
当前,AI产业已从“造模型”的狂热期迈入“用模型”的深耕期,大模型数量逐渐收敛,推理应用呈现爆发式增长。金融风控、医疗辅助诊断、电商推荐、投研分析等场景的深度渗透,推动Token调用量呈指数级攀升,“Token经济”时代已然到来。
但繁荣背后,三大核心痛点制约着AI推理的规模化落地:数据层面,多模态数据爆发式增长使存储面临PB到EB级的容量压力,且数据格式异构、流通困难导致高质量数据集构建成本高昂;性能层面,KV Cache技术的广泛应用对存储的高带宽、低时延提出严苛要求,传统架构难以满足存算协同需求;成本层面,HBM等高端存储介质价格昂贵,叠加推理负载的潮汐性特征,导致中小企业智能化转型门槛居高不下。
华为数据存储产品线战略与业务发展部总裁王旭东表示,推理数据来源多样难以形成高质量、可持续供应的数据集,存储系统的带宽和IOPS(每秒读写次数)不足,导致GPU等昂贵算力资源长时间空闲。传统存储架构难以兼顾高吞吐、低时延及异构数据融合的需求,造成业务发展瓶颈,阻碍AI应用落地。
先进存力破局:从“被动容器”到“智能协同体”
面对行业痛点,技术创新成为破局的核心动力,存储架构正经历从“被动存储”到“智算协同”的根本性转变。其核心路径在于构建以KV Cache为中心的推理记忆数据湖,通过存、算、网、框架的深度协同,重构推理效能。
华为推出的UCM(Unified Cache Management)统一缓存管理技术,正是这一思路的典型代表。UCM并非简单缓存,而是一个智能的数据调度与管理系统。它通过HBM-DRAM-SSD三级缓存架构,将非活跃的KV Cache从显存动态卸载至高性能SSD,从而在不增加硬件成本的前提下,实现首Token时延最高降低90%、系统吞吐率提升22倍、上下文窗口扩展10倍以上的突破性效果。
更关键的是,UCM已于2025年9月在魔擎社区开源,向全行业开放接口。此举不仅降低了中小企业获取先进推理加速能力的门槛,更旨在推动形成统一的技术标准,避免生态碎片化,加速千行百业智能化进程。
从技术突破到生态共建:先进存力迈向体系化发展
单点技术创新固然重要,但要真正释放AI潜能,必须依靠系统性协同。在政策引导下,中国信息通信研究院联合华为、中国移动、浪潮等企业成立“先进存力AI推理工作组”,围绕技术研究、标准制定、方案落地与生态构建四大任务,推动产业规范化发展。从技术协同来看,芯片厂商的3D堆叠技术、存储厂商的架构创新、云服务商的平台优化形成了良性互动,如硅基流动的推理框架适配华为昇腾算力与UCM技术,实现了软硬件协同增效。运营商则发挥网络与资源优势,推动存算网深度融合,移动云探索的以太网协议栈替代RDMA方案,为存量资源复用提供了可行路径。
值得注意的是,我国存力产业已具备坚实的发展基础。截至2025年6月,全国存力总规模达1680EB,先进存储占比提升至28%,距离《算力基础设施高质量发展行动计划》提出的2025年目标已近在咫尺。在技术层面,国产分布式存储产品、AI存储系统多次斩获国际权威测试冠军,232层三维闪存芯片达到业界先进水平,闪存主控芯片实现商用突破,产业链自主可控能力持续增强。这些成果为AI推理存力革新提供了坚实保障,也为应对国际技术竞争构筑了产业屏障。
面向未来:存力即生产力
从本次研讨会展现的技术成果与产业共识来看,先进存力已不再是单纯的“数据容器”,而是成为AI智算体系中的“协同中枢”。随着技术创新的持续深化与产业生态的不断完善,存力将彻底破解AI推理的性能、成本与效率瓶颈,推动智能化转型从大企业的“奢侈品”转变为中小企业的“必需品”。
当AI从实验室走向生产线、诊室、客服台,其价值不再仅由参数规模定义,而取决于能否在真实业务场景中实现“快、准、省”。先进存力通过破解内存墙、容量墙与成本墙,正在让这一愿景成为可能。