找回密码
 立即注册
搜索

英伟达Helix架构突破百万Token推理瓶颈

[复制链接]
xinwen.mobi 发表于 2025-7-23 04:18:05 | 显示全部楼层 |阅读模式
英伟达Helix架构是基于Blackwell GPU平台的一种并行技术,它受DNA结构启发,通过分割显存和处理任务,有效突破了百万Token推理瓶颈,显著提升了大模型的上下文长度和并发能力,并降低了响应延迟。具体如下:创新的并行处理方式:Helix将模型Transformer层的注意力机制和前馈网络部分分开处理。它把KV、张量和专家等多个维度的并行性交织到一个统一的执行循环中,每个阶段在其自身的瓶颈配置下运行,同时复用相同的GPU池。KV并行技术:在注意力阶段,Helix使用名为KV并行(KVP)的新方法,将庞大的KV缓存分散到多个GPU上。通过将TP=2与KVP=2相结合形成2D布局,避免了因张量并行超过KV头数量时导致的内存和带宽开销增加。同时,KVP GPU持有与其本地KV头相关联的所有查询头,并冗余地计算QKV投影,确保模型推理精度。此外,KVP GPU之间沿着查询头维度进行单对单的全连接通信,通信成本和KV缓存大小无关,使得大模型上下文长度扩展到百万token时也不影响查询效率。重叠通信和计算:Helix通过重叠通信和计算来提高效率。一旦计算出一个token的注意力输出,就会启动该token的全对全交换,同时计算下一个token的注意力。这种方式将通信延迟隐藏在有用的工作之后,保持GPU利用率高,进一步加速实时解码。根据英伟达官网数据,使用DeepSeek - R1 671B模型测试时,在给定延迟下,Helix架构单GPU产出的token数是传统方法的32倍,可将并发用户数量提高高达32倍,且在低并发设置下能减少token与token间的最低延迟时间,提升用户交互体验。该技术有望重塑法律、客服、AI副驾等实时多轮交互应用,强化AI系统大规模在线部署能力。
回复

使用道具 举报

QQ|周边二手车|手机版|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2026-1-15 00:07 , Processed in 0.160937 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表