4月24日,深度求索(DeepSeek)正式发布V4模型预览版,这是国产开源大模型领域的又一里程碑。此次发布的V4系列包含两个版本:285B参数的DeepSeek-V4-flash和1.6T参数的DeepSeek-V4-pro,均已在发布当日实现稳定运行。
核心看点
- 百万级超长上下文:V4支持1M超长上下文记忆,在处理长文档、代码库分析等场景下表现突出
- 双版本策略:flash版本主打推理效率,pro版本聚焦极致性能,满足不同应用场景需求
- Agent能力升级:在世界知识和推理性能上实现国内与开源领域的领先
- 生态快速跟进:寒武纪完成Day 0适配,发布当日即可稳定运行
技术亮点解析
DeepSeek-V4采用了多项创新架构设计。其中Compressor和mHC等新结构显著提升了模型效率。寒武纪通过自研高性能融合算子库Torch-MLU-Ops对这些模块进行专项加速,利用BangC高性能编程语言编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel。
在推理框架层面,V4全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术,在满足延时约束下达到最佳的词元吞吐能力。
市场影响
DeepSeek-V4的发布进一步巩固了国产大模型在全球开源领域的地位。API服务已同步更新,开发者可通过修改model_name为deepseek-v4-pro或deepseek-v4-flash即可调用。对于国内AI芯片厂商而言,Day 0适配能力的展示也证明了国产算力生态的成熟度正在快速提升。
本文地址:https://www.163264.com/11099


