国产芯片重大突破!寒武纪Day 0完成DeepSeek-V4适配,发布当日即稳定运行

国产AI芯片又迎来一个里程碑时刻!寒武纪今日宣布,已基于vLLM推理框架完成对DeepSeek-V4系列模型的Day 0适配——这意味着模型发布当天就能在国产芯片上稳定运行,无需漫长的等待期。

核心看点

  • Day 0即适配:DeepSeek-V4-flash(285B)和DeepSeek-V4-pro(1.6T)两款模型发布当日即完成适配,适配代码已开源到GitHub社区
  • 自研算子库加速:通过Torch-MLU-Ops自研融合算子库,对Compressor、mHC等新结构进行专项加速,充分释放硬件性能
  • 5D混合并行:在vLLM中全面支持TP/PP/SP/DP/EP五维混合并行,通信计算并行、低精度量化、PD分离部署等先进技术,显著提升端到端推理效率
  • 超长上下文:DeepSeek-V4拥有百万字超长上下文窗口,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先

这次适配的意义远超技术层面。过去,国产大模型往往面临”有模型无算力”或”有算力难适配”的窘境,寒武纪的Day 0适配证明国产AI芯片生态正在快速成熟。通过自研高性能编程语言BangC编写的极致优化Kernel,以及MLU硬件的访存与排序加速能力,寒武纪将Prefill和Decode两种不同工作负载场景下的通信开销降至最低。

即日起,用户登录chat.deepseek.com或官方App即可体验1M超长上下文记忆。API服务也已同步更新,开发者通过修改model_name为deepseek-v4-pro或deepseek-v4-flash即可调用。

这不仅是寒武纪的胜利,更是国产AI产业链协同进化的缩影。

本文地址:https://www.163264.com/11083

(0)
上一篇 5小时前
下一篇 5小时前