今日,DeepSeek 联合北京大学发布了DSpark推理加速框架,旨在解决大语言模型在高并发生产环境中的推理效率问题。该框架已应用于DeepSeek-V4-Flash和DeepSeek-V4-Pro的预览版服务引擎中线上交易平台,在同等吞吐量水平下,单用户生成速度提升了60%至85%。相关论文、训练代码等已在GitHub上开源。
实盘股票配资
大语言模型生成文本时采用自回归方式,每生成一个新token都需要一次完整的前向传播,这导致推理延迟随输出长度线性增长。推测解码技术通过一个小模型快速生成候选token,再由大模型批量验证,从而提升生成速度。然而,推测解码的实际加速效果受制于候选生成质量和验证阶段对目标模型计算资源的占用。

目前主流方案分为两派:自回归式草稿模型逐token串行生成候选序列,依赖关系建模能力强但生成延迟随候选长度线性增长;并行式草稿模型则在一个前向传播内一次性产出全部候选token,生成延迟几乎与候选长度无关。但并行生成每个位置时无法依赖先前已采样的token,导致接受率迅速衰减,浪费目标模型计算资源。

为解决上述瓶颈,DSpark提出了两项互补机制。在候选生成阶段,DSpark采用半自回归架构,主干网络一次性产出所有候选位置的隐藏状态和基础logits,随后轻量级顺序模块逐token注入前缀依赖信息。实验表明,少量自回归依赖的引入在参数效率上优于单纯堆叠并行层。

在验证调度阶段,DSpark引入置信度调度验证机制,模型在每个候选位置输出一个置信度分数,预测该token在给定此前所有token均被接受条件下的存活概率。硬件感知前缀调度器将验证长度选择建模为全局吞吐量最大化问题,动态决定验证多长的候选前缀,优先分配计算资源给全局存活概率最高的token。
离线基准测试中,研究团队选取了Qwen3系列和Gemma4-12B作为目标模型,对比Eagle3与DFlash。结果显示,DSpark在数学推理、代码生成和日常对话任务上的平均每轮接受长度均优于两类基线。以Qwen3-4B为例,DSpark相比Eagle3提升约30.9%,相比DFlash提升约16.3%。
生产部署方面,DSpark草稿模型与DeepSeek-V4-Flash及DeepSeek-V4-Pro预览版共同部署,并行主干包含三个MoE层与滑动窗口注意力,最大候选块长度设为5,并采用马尔可夫头作为顺序模块。训练阶段实现了两项系统优化,减少了通信复杂度和计算开销。
在线生产环境实测中,DSpark-5与原有的单token基线MTP-1进行了对比。在V4-Flash引擎上,当系统保证单用户生成速度不低于80 token/s时,DSpark的聚合吞吐量相比基线提升51%;当SLA收紧至120 token/s时,DSpark在维持可用并发批处理的前提下实现了标称661%的吞吐量优势。在V4-Pro引擎上,35 token/s的SLA下DSpark吞吐量提升52%,50 token/s的SLA下提升406%。在匹配的实际吞吐量水平下,DSpark将单用户生成速度提升了57%至85%。
调度器在系统并发数较低时会分配较长的验证长度以充分利用空闲计算资源,随着并发数上升则平滑缩减验证长度以避免资源争用。尽管如此,对于接受率本身较低的复杂查询,DSpark仍需为所有请求生成完整的初始候选块,这部分草稿计算开销无法回收。
目前DeepSeek已在GitHub的DeepSpec项目中开源了DSpark、DFlash和Eagle3三种草稿模型的训练代码、评估脚本及模型检查点线上交易平台。
元股证券:ygzq.hk西藏配资网提示:本文来自互联网,不代表本网站观点。