国产芯片重大突破！寒武纪Day 0完成DeepSeek-V4适配，发布当日即稳定运行

国产AI芯片又迎来一个里程碑时刻！寒武纪今日宣布，已基于vLLM推理框架完成对DeepSeek-V4系列模型的Day 0适配——这意味着模型发布当天就能在国产芯片上稳定运行，无需漫长的等待期。

核心看点

Day 0即适配：DeepSeek-V4-flash（285B）和DeepSeek-V4-pro（1.6T）两款模型发布当日即完成适配，适配代码已开源到GitHub社区
自研算子库加速：通过Torch-MLU-Ops自研融合算子库，对Compressor、mHC等新结构进行专项加速，充分释放硬件性能
5D混合并行：在vLLM中全面支持TP/PP/SP/DP/EP五维混合并行，通信计算并行、低精度量化、PD分离部署等先进技术，显著提升端到端推理效率
超长上下文：DeepSeek-V4拥有百万字超长上下文窗口，在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先

这次适配的意义远超技术层面。过去，国产大模型往往面临”有模型无算力”或”有算力难适配”的窘境，寒武纪的Day 0适配证明国产AI芯片生态正在快速成熟。通过自研高性能编程语言BangC编写的极致优化Kernel，以及MLU硬件的访存与排序加速能力，寒武纪将Prefill和Decode两种不同工作负载场景下的通信开销降至最低。

即日起，用户登录chat.deepseek.com或官方App即可体验1M超长上下文记忆。API服务也已同步更新，开发者通过修改model_name为deepseek-v4-pro或deepseek-v4-flash即可调用。

这不仅是寒武纪的胜利，更是国产AI产业链协同进化的缩影。

本文地址：https://www.163264.com/11083