/ 中存储网

NVIDIA 推出 Helix,通过数百万个令牌上下文将 AI 推理速度提高 32 倍

2025-07-14 22:36:38 来源:中国存储网

中国存储网消息,近日,NVIDIA 推出了 Helix Parallelism,这是一种为其 Blackwell GPU 架构开发的新方法,旨在提高超大型数据集的实时 AI 性能。该技术解决了 LLM 处理数百万个令牌上下文日益增长的需求。NVIDIA 证明,与传统方法相比,这种方法可以将处理速度提高多达 32 倍,从而实现更复杂、响应更迅速的 AI 应用程序。

百万代币挑战:为什么 AI 需要一种新方法

AI 的前沿已经从简单的查询转向复杂的长期推理。高级应用程序非常需要大量的上下文才能有效。记住数月对话的 AI 助手,一次性分析 GB 判例法的法律工具,或理解整个存储库的编码合作伙伴。这些任务需要处理数百万个令牌。

但是,扩展到此级别会暴露出两个基本瓶颈。

  1. KV 缓存瓶颈:在自回归令牌生成期间,模型会计算对先前生成的令牌的关注,以避免二次缩放因子。为了实现这一点,将缓存以前生成的令牌,这一过程称为 KV 缓存。对于数百万个令牌的上下文,此缓存变得巨大,使 GPU 的内存带宽饱和并显着减慢响应时间。
  2. FFN 权重瓶颈:对于模型生成的每个新令牌,它必须从内存中加载大量前馈网络 (FFN) 权重。在交互式、低延迟应用程序中,这种持续加载过程成为延迟的主要来源。

目前,我们依赖于 Tensor Parallelism 等方法,该方法可以拆分模型的张量,从而在多个 GPU 之间拆分所需的内存和计算工作。虽然对某些任务有效,但随着新的注意力机制的出现,它的好处会减少。在 GQA (Grouped Query Attention) 或 MLA (Multi-Latent Attention) 等注意力机制中,为了减少内存使用,多个查询头共享一组较小的 KV 头。但是,当 Tensor Parallelism 大小超过 KV 头的数量时,由于跨 GPU 通信在每一步都会引入显着延迟,因此需要 KV 头复制。这种重复抵消了 Tensor Parallelism 的一些好处。

螺旋平行度

NVIDIA 推出 Helix,通过数百万个令牌上下文将 AI 推理速度提高 32 倍

为了解决这个难题,NVIDIA 的 Helix Parallelism 引入了一种混合策略,将两个瓶颈视为单独的问题,需要在无缝的临时管道中解决。Helix 不是对整个过程使用单一并行方法,而是动态重新配置相同的 GPU 池,以便在每个计算阶段使用最佳策略。

对于模型的每一层,该过程可以分为两个主要阶段。

阶段 1:注意力阶段(处理 KV 缓存)

Helix 通过组合两种形式的并行性直接解决 KV 缓存瓶颈。首先,它应用 KV 并行性,沿序列维度在多个 GPU 上对 KV 缓存本身进行分片。这意味着每个 GPU 只保存总上下文的一部分,从而减少了内存负担。

同时,它使用 Tensor Parallelism 对注意力 head 进行切分,确保切分次数不超过 KV heads。这种组合避免了困扰传统 Tensor Parallelism 的缓存重复。结果是 GPU 的 2D 网格,可以在大型环境中有效地计算注意力,而不会让任何一个 GPU 不堪重负。这些 GPU 之间的通信由一个高效的多对多交换处理,其成本与上下文长度无关,因此具有高度可扩展性。

NVIDIA 推出 Helix,通过数百万个令牌上下文将 AI 推理速度提高 32 倍

第 2 阶段:FFN 阶段(处理 FFN 权重)

注意力阶段结束时的 all-to-all 通信也会在 GPU 之间对输出数据进行分区。这意味着数据已经完美地安排好了,可以立即开始 FFN 计算。

相同的 GPU 池被重新配置到一个大型 Tensor Parallelism 组中。由于数据是预先分区的,因此每个 GPU 都可以使用其大规模 FFN 权重分片执行本地矩阵乘法。这种初始计算是并行进行的,没有跨 GPU 通信,从而最大限度地提高了速度。只有在这个本地计算步骤之后, GPU 才会参与高效的 all-reduce 通信,以将其部分结果合并到最终输出中。

最后一块拼图是 Helix 如何在增长时管理 KV 缓存。当模型生成新令牌时,必须将它们附加到缓存中。一种朴素的方法可以通过将所有新令牌写入单个 GPU 来创建内存热点。Helix 通过一个巧妙的循环更新系统来防止这种情况。例如,新令牌的第一个块可能转到 GPU 0,下一个块可能转到 GPU 1,依此类推。这种交错方法可确保 KV Parallelism 组中的所有 GPU 的内存使用量均匀增长,无论上下文大小如何,都能保持平衡的性能和一致的吞吐量。

Blackwell 的新表演前沿

NVIDIA 推出 Helix,通过数百万个令牌上下文将 AI 推理速度提高 32 倍

Helix 为长上下文 LLM 解码设定了新的性能基准。结果基于使用 DeepSeek R1 671B 参数模型 (FP4) 对 Blackwell NVL72 进行的详尽模拟,假设有 100 万个令牌上下文,系统地改变分区策略和批处理大小,以找到最佳的吞吐量-延迟权衡。对于需要大规模可扩展性的应用程序,例如同时为多个用户提供服务,Helix 可以在给定的延迟预算下将并发用户数量提高多达 32 倍。对于单用户响应能力至关重要的低并发设置,该技术可以通过减少可实现的最小令牌到令牌延迟,将用户交互性提高多达 1.5 倍。这些增益是通过在所有可用设备上对 KV 缓存和 FFN 权重进行分片来实现的,这大大降低了 DRAM 压力并提高了计算效率。

论文地址:Helix Parallelism: Rethinking Sharding Strategies for Interactive Multi-Million-Token LLM Decoding | Research