/ 中国存储网

DDN 通过行业领先的 KV 缓存性能消除 GPU 浪费,用于 AI 推理

2025-08-23 11:20:27 来源:中国存储网

中国存储网消息,人工智能和数据智能解决方案公司 DDN 公布了新的性能基准,展示了其人工智能优化的该公司的 Infinia 平台如何消除 GPU 浪费,并为高级人工智能推理工作负载提供业内最快的首次令牌时间 (TTFT)。

DDN 通过行业领先的 KV 缓存性能消除 GPU 浪费,用于 AI 推理

随着人工智能模型从简单的聊天机器人发展成为能够解析百万个令牌上下文的复杂推理系统,组织正面临着新的经济挑战:上下文的隐性成本。数百万次交互中每一毫秒的延迟都会加剧,造成效率低下、收入损失和基础设施未充分利用的螺旋式上升。

DDN 首席技术官 Sven Oehme 表示:“每次您的 AI 系统重新计算上下文而不是缓存上下文时,您都会支付 GPU 税——浪费了可能加速结果或为更多用户提供服务的周期“借助 DDN Infinia,我们将成本中心转变为性能优势。”

“我认为我们需要了解的最重要的事情是——人工智能是一项智能业务,DDN 帮助我们最大限度地利用我们的 GPU 和存储智能,并以非常可扩展的方式做到这一点,”Indosat Ooredoo Hutchison 总裁兼首席执行官 Vikram Sinha 说。“它确实帮助我们在 TCO 层面上做到这一点,这非常非常具有竞争力——这就是我们选择 DDN 的原因。”

人工智能推理的经济学已经改变
NVIDIA 等人工智能领导者表示,代理人工智能工作负载需要比传统模型多 100 倍的计算能力。随着上下文窗口从 128K 令牌扩展到超过 1M,GPU 基础设施的负担猛增——除非有效部署 KV 缓存策略。

最近的 DDN 基准测试突出了增量:

  • 传统重新计算方法(112K 令牌上下文):57 秒处理时间
  • 带 KV 缓存的 DDN Infinia:加载时间 2.1 秒
  • 结果:性能提高 27 倍以上

这不仅仅是性能的胜利,更是大规模人工智能推理经济学的根本转变。传统的人工智能系统浪费了大量的 GPU 周期,为每次提示或用户交互反复重新处理相同的上下文。这种低效率造成了 DDN 所说的 GPU 浪费螺旋——对性能、成本和能源使用的复合拖累。

DDN 的键值 (KV) 缓存架构通过智能存储和重用以前计算的上下文数据来打破这一循环。这减少了重新加载和重新处理代币的需要,将输入代币成本降低了多达 75%。对于运行 1,000 个并发 AI 推理管道的企业来说,这意味着每天节省高达 80,000 美元的 GPU 费用——如果成倍增加数千次交互和 24/7作,这是一个惊人的数字。通过消除这一隐藏的成本层,DDN 不仅加快了响应时间,还将在现实生产环境中扩展生成式 AI 的经济可行性提升到了新的水平。

实际客户影响
如果没有 KV 缓存,数小时或几天后恢复对话的回头客会迫使 AI 系统重新处理整个历史记录——每次交互消耗 10+ 秒和数千个 GPU 周期。借助 DDN Infinia,可以立即访问这些缓存的上下文,从而保持相关性和实时响应能力。

为什么 DDN Infinia 优于此
DDN Infinia 专为下一代 AI 工作负载而设计,提供:

  • 亚毫秒级延迟:低于 1 毫秒,而传统云存储为 300-500 毫秒
  • 海量并发:每秒稳定 100K+ AI 调用
  • NVIDIA 集成:专为 H100、GB 200、DPU 等构建
  • IO500 久经考验的领导力:始终跻身全球性能最高的数据平台之列

面向未来的大规模
人工智能推理 
随着检索增强生成 (RAG)、LLM 代理和多模态 AI 系统的迅速兴起,推理现在已成为一种实时、高通量的作。DDN 的弹性、GPU 优化平台确保 AI 基础设施可以随着上下文的增长而扩展,而不是被它削弱。

“这是一个战略转折点,”DDN 首席执行官兼联合创始人 Alex Bouzari 说。“在人工智能中,速度不仅关乎性能,还关乎经济性。DDN 使组织能够在 AI 管道的每一步更快、更智能、更具成本效益地运营。