英伟达官宣适配DeepSeek-V4:GB200 NVL72开箱性能超150 tokens/sec,百万Token上下文直接拉满

IT之家4月25日消息,英伟达今日发布官方博文,宣布其NVIDIA Blackwell平台已正式适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。这意味着开发者现在可以通过NVIDIA NIM微服务直接下载部署,或者利用SGLang与vLLM框架进行定制化推理。

核心看点

  • Blackwell平台Day 0适配:DeepSeek-V4-Pro/Flash已登陆NVIDIA NIM微服务
  • GB200 NVL72实测超150 tokens/sec:开箱即用性能惊艳,vLLM Day 0配方已就绪
  • 百万Token上下文:支持100万Token输入+最高38.4万Token输出
  • 双版本定位清晰:Pro版1.6T总参数专攻高级推理,Flash版284B参数主打高速高效
  • MIT开源协议:商业友好,开发者可自由定制

DeepSeek-V4双版本解析

DeepSeek-V4这次提供了两个版本,分别针对不同场景:

DeepSeek-V4-Pro

  • 总参数量:1.6T(1.6万亿)
  • 激活参数:49B(490亿)
  • 定位:高级推理任务,适合复杂数学、代码生成、深度分析

DeepSeek-V4-Flash

  • 总参数量:284B(2840亿)
  • 激活参数:13B(130亿)
  • 定位:高速高效场景,适合实时对话、轻量应用

两个版本都支持100万Token上下文窗口最高38.4万Token输出长度。这意味着你可以一次性塞进去一整本书,或者让AI输出一篇长篇小说。

性能实测:GB200 NVL72上的表现

英伟达公布的实测数据相当亮眼:

  • GB200 NVL72上开箱即用性能超150 tokens/sec/user
  • 借助vLLM的Day 0配方,开发者可在Blackwell B300上快速部署
  • 随着Dynamo、NVFP4及CUDA内核的深度优化,性能还将进一步提升

150 tokens/sec/user是什么概念?大致相当于AI每秒能输出约100-150个汉字,已经接近人类阅读速度的上限。对于企业级应用来说,这个速度完全够用。

三种部署方式任选

英伟达为开发者提供了灵活的部署选项:

1. NVIDIA NIM微服务(最简单)

直接下载部署,开箱即用,适合想快速上手的团队。

2. SGLang框架(最灵活)

提供三种配方:低延迟、均衡吞吐量、最大吞吐量。开发者可以根据自己的业务场景选择最适合的配置。

3. vLLM框架(最强大)

支持多节点扩展至100个以上GPU,具备工具调用与推测解码能力。适合大规模部署和追求极致性能的团队。

为什么这次适配很重要?

DeepSeek-V4是国产大模型的标杆之一,而NVIDIA Blackwell是目前最强的AI算力平台。两者的结合意味着:

  • 国产模型+国际顶级硬件的组合正式跑通
  • 开发者可以在全球最强的AI芯片上运行国产开源模型
  • Day 0适配证明了DeepSeek-V4的工程化能力已经达到国际水准

对于国内AI产业来说,这是一个积极的信号——国产大模型不仅能在本土硬件上运行,也能在国际顶级平台上发挥出色性能。

参考链接

Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints

本文地址:https://www.163264.com/11132

(0)
上一篇 2小时前
AI树洞信箱——你的私人心灵驿站
下一篇 2023年8月14日 下午8:32

相关推荐