IT之家4月25日消息,英伟达今日发布官方博文,宣布其NVIDIA Blackwell平台已正式适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。这意味着开发者现在可以通过NVIDIA NIM微服务直接下载部署,或者利用SGLang与vLLM框架进行定制化推理。
核心看点
- Blackwell平台Day 0适配:DeepSeek-V4-Pro/Flash已登陆NVIDIA NIM微服务
- GB200 NVL72实测超150 tokens/sec:开箱即用性能惊艳,vLLM Day 0配方已就绪
- 百万Token上下文:支持100万Token输入+最高38.4万Token输出
- 双版本定位清晰:Pro版1.6T总参数专攻高级推理,Flash版284B参数主打高速高效
- MIT开源协议:商业友好,开发者可自由定制
DeepSeek-V4双版本解析
DeepSeek-V4这次提供了两个版本,分别针对不同场景:
DeepSeek-V4-Pro
- 总参数量:1.6T(1.6万亿)
- 激活参数:49B(490亿)
- 定位:高级推理任务,适合复杂数学、代码生成、深度分析
DeepSeek-V4-Flash
- 总参数量:284B(2840亿)
- 激活参数:13B(130亿)
- 定位:高速高效场景,适合实时对话、轻量应用
两个版本都支持100万Token上下文窗口和最高38.4万Token输出长度。这意味着你可以一次性塞进去一整本书,或者让AI输出一篇长篇小说。
性能实测:GB200 NVL72上的表现
英伟达公布的实测数据相当亮眼:
- GB200 NVL72上开箱即用性能超150 tokens/sec/user
- 借助vLLM的Day 0配方,开发者可在Blackwell B300上快速部署
- 随着Dynamo、NVFP4及CUDA内核的深度优化,性能还将进一步提升
150 tokens/sec/user是什么概念?大致相当于AI每秒能输出约100-150个汉字,已经接近人类阅读速度的上限。对于企业级应用来说,这个速度完全够用。
三种部署方式任选
英伟达为开发者提供了灵活的部署选项:
1. NVIDIA NIM微服务(最简单)
直接下载部署,开箱即用,适合想快速上手的团队。
2. SGLang框架(最灵活)
提供三种配方:低延迟、均衡吞吐量、最大吞吐量。开发者可以根据自己的业务场景选择最适合的配置。
3. vLLM框架(最强大)
支持多节点扩展至100个以上GPU,具备工具调用与推测解码能力。适合大规模部署和追求极致性能的团队。
为什么这次适配很重要?
DeepSeek-V4是国产大模型的标杆之一,而NVIDIA Blackwell是目前最强的AI算力平台。两者的结合意味着:
- 国产模型+国际顶级硬件的组合正式跑通
- 开发者可以在全球最强的AI芯片上运行国产开源模型
- Day 0适配证明了DeepSeek-V4的工程化能力已经达到国际水准
对于国内AI产业来说,这是一个积极的信号——国产大模型不仅能在本土硬件上运行,也能在国际顶级平台上发挥出色性能。
参考链接
Build with DeepSeek V4 Using NVIDIA Blackwell and GPU-Accelerated Endpoints
本文地址:https://www.163264.com/11132


