算力提速关键突破：北大与DeepSeek联合开源大模型推理框架DSpark

大模型推理的速度和成本，一直是AI落地的两大痛点。最近，北京大学和DeepSeek联合开源了一个叫DSpark的推理框架，专门解决这两个问题。

从初步信息来看，DSpark在生成效率和吞吐量上都有显著提升。对于需要大规模部署AI服务的企业来说，这可能是个好消息。

Table of Contents

先说说为什么大模型推理这么让人头疼。

现在的AI应用，比如ChatGPT、文心一言这些聊天机器人，背后都是大模型在支撑。用户每发一条消息，模型就要生成一段回复。这个过程叫“推理”。

推理有两个核心指标：

这两个指标往往是矛盾的。你想让回答生成得更快（低延迟），通常就得牺牲同时服务的用户数（低吞吐量）。反之亦然。

DSpark想做的，就是在这两者之间找到更好的平衡点。

DSpark的核心创新可以概括为两点。

第一，半自回归架构。

传统的大模型生成文本，是逐字逐字生成的。生成完第一个字，才能生成第二个；生成完第二个，才能生成第三个。这种叫”自回归”，好处是质量高，坏处是慢。

DSpark的”半自回归”思路是：在某些确定性强的地方，一次性生成多个token，而不是一个一个来。比如在生成”中华人民共和国”这个词时，模型可能只需要确认第一个字”中”，后面的”华人民共和国”就可以批量输出。

这种”该快的时候快，该稳的时候稳”的策略，能在不牺牲太多质量的前提下，显著提升生成速度。

第二，置信度调度验证机制。

大模型推理过程中，有很多计算其实是无效的。比如模型生成了一个它自己都不太确定的答案，然后又要花大量算力去验证、修正。

DSpark引入了一个”置信度”指标：模型对自己生成的内容有多确定？如果置信度高，就直接输出，不再浪费算力验证；如果置信度低，再进入精细的验证流程。

这就好比考试做题，一眼能看出答案的题，直接写；不确定的题，再慢慢算。整体效率自然就上去了。

除了算法层面的创新，DSpark在工程实现上也做了不少优化。

大模型推理的瓶颈，不只在算法，还在硬件利用效率。GPU的算力很强大，但如果数据调度、内存管理做得不好，大量算力会被浪费掉。

DSpark团队针对这些工程细节做了深度优化，最终实现了吞吐量的跨越式增长。具体数字等论文和代码公开后可以进一步验证，但从团队背景（北大+DeepSeek）来看，技术实力是有保障的。

DSpark选择开源，这一步很关键。

大模型推理框架这个领域，目前比较成熟的方案有vLLM、TensorRT-LLM、Text Generation Inference等。但这些框架大多由国外公司主导，国内虽然有跟进，但在核心技术创新上声音不够大。

DSpark由北大和DeepSeek联合推出，既有学术前沿性，又有工业落地经验。开源之后，国内的AI公司和开发者可以直接用起来，不用再完全依赖国外的技术栈。

更重要的是，DSpark的两大核心创新——半自回归和置信度调度——是可以被其他框架借鉴的。即使你不直接用DSpark，它的思路也可能影响整个行业的优化方向。

DSpark的出现，可能会加速大模型推理的”降本增效”。

现在部署一个大模型服务，成本还是很高。以GPT-4级别的模型为例，支撑100万日活用户，每月的算力成本可能高达数百万美元。如果DSpark能把推理效率提升30%、50%甚至更多，那对于AI应用的普及将是巨大的推动。

特别是对于一些实时性要求高的场景，比如在线客服、实时翻译、代码补全，推理延迟的降低直接决定产品能不能用。

DSpark的价值，不只是它本身有多快，而是它代表了大模型推理优化的新方向。

当行业开始从”拼模型大小”转向”拼推理效率”，AI技术的落地速度可能会大大加快。毕竟，再聪明的模型，如果用户等半天才看到回复，也是白搭。

北大和DeepSeek的这次合作，也给产学研结合打了个样。学术界的前沿创新，加上工业界的工程能力，才能做出真正有用的东西。

本文地址：https://www.163264.com/13475