找回密码
 立即注册
搜索

华为发布AI推理“黑科技” 助力解决AI推理效率

[复制链接]
xinwen.mobi 发表于 2025-8-13 00:06:50 | 显示全部楼层 |阅读模式
http://42.194.194.111/shipinxinwen/IMG_3337.MOV2025年8月12日,在2025金融AI推理应用落地与发展论坛上,华为发布了AI推理创新技术——UCM推理记忆数据管理器(Unified Cache Manager)。这是一款以KV Cache为中心的推理加速套件,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。具体信息如下:技术组件:    推理引擎插件(Connector):可对接不同引擎与算力,能连接MindIE、SGLang等一些主流推理引擎框架,与业界多样引擎与多元算力灵活对接。    功能库(Accelerator):支持多级KV Cache管理及加速算法,通过一系列算法,把推理过程中有不同延时要求的数据放在不同的记忆体中,实时记忆数据即热放在HBM中,短期记忆数据放在DRAM,其他放在共享专业存储中,通过这样的按需流动来提升整个系统的效率。    存取适配器(Adapter):高性能KV Cache存取适配器,与专业共享存储相结合,能提升专业存储的直通效率和降低时延,可以让三级存储更好协同。技术优势:    降低首Token时延:依托UCM层级化自适应的全局前缀缓存技术,可实现任意物理位置、任意输入组合上的KV前缀缓存重用,在多轮对话、RAG知识检索等场景中直接调用KV缓存数据,避免重复计算,使首Token时延最大降低90%。    扩展推理上下文窗口:通过动态KV逐层卸载、位置编码扩展、Prefill稀疏等组合技术,将超长序列Cache分层卸载至外置专业存储,利用算法突破模型和资源限制,实现10倍级推理上下文窗口扩展,满足长文本处理需求。    提升长序列场景处理速度:UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中自动分级缓存,同时融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下TPS(每秒处理token数)提升2-22倍,显著降低每Token推理成本。    预测联想算法:UCM受打字输入法联想的启发,提供一套基于后缀检索的预测联想算法,将行业私域数据和用户习惯构建token级的后缀索引,突破自回归的联想限制,可以一次输出多词,并且存得越多推得越快,比传统MTP预测加速效果更好、更适用于企业场景。试点应用成果:华为已携手中国银联率先在金融典型场景开展UCM技术试点应用。在中国银联“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,促进了服务质量提升。开源计划:华为计划于2025年9月正式开源UCM,届时将在魔擎社区首发,后续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)存储厂商和生态伙伴,携手全产业共同推动AI推理生态的繁荣发展。
A65B0E11-1E09-4EA3-A512-D01895FA096B.png
回复

使用道具 举报

QQ|周边二手车|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-12-10 16:22 , Processed in 0.066980 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表