国产AI芯片又迎来一个里程碑时刻!寒武纪今日宣布,已基于vLLM推理框架完成对DeepSeek-V4系列模型的Day 0适配——这意味着模型发布当天就能在国产芯片上稳定运行,无需漫长的等待期。
核心看点
- Day 0即适配:DeepSeek-V4-flash(285B)和DeepSeek-V4-pro(1.6T)两款模型发布当日即完成适配,适配代码已开源到GitHub社区
- 自研算子库加速:通过Torch-MLU-Ops自研融合算子库,对Compressor、mHC等新结构进行专项加速,充分释放硬件性能
- 5D混合并行:在vLLM中全面支持TP/PP/SP/DP/EP五维混合并行,通信计算并行、低精度量化、PD分离部署等先进技术,显著提升端到端推理效率
- 超长上下文:DeepSeek-V4拥有百万字超长上下文窗口,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领先
这次适配的意义远超技术层面。过去,国产大模型往往面临”有模型无算力”或”有算力难适配”的窘境,寒武纪的Day 0适配证明国产AI芯片生态正在快速成熟。通过自研高性能编程语言BangC编写的极致优化Kernel,以及MLU硬件的访存与排序加速能力,寒武纪将Prefill和Decode两种不同工作负载场景下的通信开销降至最低。
即日起,用户登录chat.deepseek.com或官方App即可体验1M超长上下文记忆。API服务也已同步更新,开发者通过修改model_name为deepseek-v4-pro或deepseek-v4-flash即可调用。
这不仅是寒武纪的胜利,更是国产AI产业链协同进化的缩影。
本文地址:https://www.163264.com/11083