华为开源AI推理性能猛兽:时延暴跌90%,吞吐飙升22倍,上下文扩展10倍+!

mysmile 4个月前 (12-16) geo 40 0
华为开源AI推理性能猛兽:时延暴跌90%,吞吐飙升22倍,上下文扩展10倍+!

智东西

作者 | 云鹏

编辑 | 李水青

注意了,AI开发者们!就在刚刚,华为正式开源了UCM(Unified Cache Manager)推理记忆数据管理技术,这项关键突破将彻底改写AI推理的性能规则。

GitCode项目主页

回溯8月12日,华为首次发布UCM技术,实测数据显示:首Token时延最高降低90%,系统吞吐最大提升22倍,上下文窗口实现10倍级扩展,AI推理性能迎来质的飞跃。

8月12日UCM技术发布现场,来源:智东西

时隔近三个月,这一重磅技术终于开源,略晚于原定9月计划。目前,开发者可在ModelEngine社区获取UCM完整源代码和文档,快速集成实战。

Github项目主页

GitCode开源地址: https://gitcode.com/ModelEngine/unified-cache-management

Github开源地址: https://github.com/ModelEngine-Group/unified-cache-management

简而言之,UCM是以KV Cache和记忆管理为核心的推理加速套件,通过推理框架、算力、存储三层协同,优化Tokens流转效率,攻克长序列推理的高成本难题,为企业用户提供全场景、系列化的高性能解决方案。

在Agentic AI时代,KV Cache容量暴涨已超越HBM极限。UCM凭借智能算法,在HBM、DRAM、SSD等多级存储中自动缓存记忆数据,大幅提升系统性能,有效缓解HBM依赖。

UCM集成多样缓存加速工具,实现对KV Cache记忆数据的分级精细管理。

UCM架构由多个高效协同的核心模块构成:

·UCM稀疏化模块 (UcmSparseBase):作为统一基类,兼容多种稀疏算法,无缝处理KV Cache Block的卸载、加载与计算,支持“即插即用”式稀疏化,灵活提升推理效率。

·稀疏化KV管理器 (SparseKVManager):作为算法级定制总控,允许多态子类注入分配逻辑,实现稀疏策略与推理引擎解耦,轻松应对多变场景。

·KV Cache存储组件 (UcmKVStoreBase):提供通用存储接口,支持稀疏算法与后端存储分离,无缝适配各类存储系统,并具备前缀缓存能力。

·UCM连接器(UC Connector):高效桥接存储与推理引擎,确保数据流畅传输,提供可靠的前缀缓存支持。

UCM产品架构图解

图中灰色框为vLLM 0.9.2原有类,绿色框为UCM新增组件,浅绿色框标示未来扩展子类。

基于此架构,UCM已解锁四大核心能力:稀疏注意力、前缀缓存、预填充卸载、异构PD解耦,全面覆盖复杂推理需求。

为何要打造UCM?

据GitCode官方解释,随着模型规模膨胀,KV缓存急速增长且日益稀疏,尤其在长序列任务中更为凸显。为减轻GPU显存压力,主流方案是将全量KV数据卸载至外部存储,仅保留部分或压缩数据于显存,从而降低计算负载,提升解码序列长度和批处理规模。

稀疏KV缓存实现方案多样,但最新研究表明,不存在通用最优解。构建统一框架并接入不同稀疏算法成为更优选择,类似KV连接器和前缀缓存的思路。

UCM的核心在于持久化LLM的KVCache,通过多种检索机制替代重复计算。它支持前缀缓存,并提供无需训练的稀疏注意力方法,在超长序列推理中表现卓越;同时,基于存算分离的PD方案简化了异构资源管理。

结语:突破性能壁垒,UCM开源加速AI推理普惠化

随着边缘与端侧AI爆发,推理需求激增,Agentic AI时代任务复杂度攀升,算力与内存效率面临严峻考验。UCM的开源为行业注入新动能,破解资源瓶颈,推动高效商用方案快速落地。立即行动,探索UCM的强大潜力,携手引领AI推理新纪元!

相关问答

华为手机AI功能如何开启?-ZOL问答

以华为P20为例,开启AI功能步骤:1、点击桌面拍照图标进入拍摄界面;2、点击右上角设置图标,即可配置AI选项。

华为人工智能是什么?-ZOL问答

华为手机AI助手名为“小艺”。以Mate20(EMUI 7.0.0)为例,唤醒方式:1、打开设置应用;2、按提示完成语音助手激活。

华为在AI领域有哪些布局?

华为AI产品线丰富,包括昇腾系列芯片、模型引擎等,全面覆盖计算加速与行业解决方案。

如何关闭华为人工智能?

关闭方法:长按桌面空白处进入编辑模式,找到智能助手开关并禁用即可。

华为支持AI通话吗?

目前华为手机未内置AI电话助理功能,相关服务多见于小米等品牌。

阿里巴巴与华为的AI芯片谁更强?

两者均聚焦自研AI芯片,华为昇腾在端侧集成表现突出,阿里芯片侧重云端性能,各有优势。

华为AI功能如何使用?

AI摄影可自动识别场景(如人像、夜景),通过设置快捷入口一键优化拍摄效果。

华为如何定义人工智能?

华为AI核心为深度网络加速芯片,专注于神经网络计算优化,提升终端智能体验。

华为AI助手叫什么?

默认命名为“小艺”,支持自定义唤醒词,通过语音指令快速激活。

华为AI人工智能实操指南

开启AI摄影后,系统自动识别主体并优化参数,助力用户轻松捕捉精彩瞬间。

扫描二维码

手机扫一扫添加微信