英伟达官宣适配DeepSeek-V4：GB200 NVL72开箱性能超150 tokens/sec，百万Token上下文直接拉满

IT之家4月25日消息，英伟达今日发布官方博文，宣布其NVIDIA Blackwell平台已正式适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模型。这意味着开发者现在可以通过NVIDIA NIM微服务直接下载部署，或者利用SGLang与vLLM框架进行定制化推理。

Table of Contents

DeepSeek-V4这次提供了两个版本，分别针对不同场景：

DeepSeek-V4-Pro

DeepSeek-V4-Flash

两个版本都支持100万Token上下文窗口和最高38.4万Token输出长度。这意味着你可以一次性塞进去一整本书，或者让AI输出一篇长篇小说。

英伟达公布的实测数据相当亮眼：

150 tokens/sec/user是什么概念？大致相当于AI每秒能输出约100-150个汉字，已经接近人类阅读速度的上限。对于企业级应用来说，这个速度完全够用。

英伟达为开发者提供了灵活的部署选项：

1. NVIDIA NIM微服务（最简单）

直接下载部署，开箱即用，适合想快速上手的团队。

2. SGLang框架（最灵活）

提供三种配方：低延迟、均衡吞吐量、最大吞吐量。开发者可以根据自己的业务场景选择最适合的配置。

3. vLLM框架（最强大）

支持多节点扩展至100个以上GPU，具备工具调用与推测解码能力。适合大规模部署和追求极致性能的团队。

DeepSeek-V4是国产大模型的标杆之一，而NVIDIA Blackwell是目前最强的AI算力平台。两者的结合意味着：

对于国内AI产业来说，这是一个积极的信号——国产大模型不仅能在本土硬件上运行，也能在国际顶级平台上发挥出色性能。

本文地址：https://www.163264.com/11132