Qwen3-Next：混合注意力 + 超稀疏 MoE + MTP = SOTA 推理速度

最近，阿里千问团队发布了 Qwen3-Next 模型，这是继 Qwen3 之后的又一重要创新。这个模型在架构设计上实现了多项突破，特别是在推理效率和性能平衡方面达到了业界领先水平。本文将简要总结 Qwen3-Next 的核心创新点。

Qwen3-Next 三大突破：

混合注意力架构：3层线性注意力 + 1层传统注意力，结合 DeltaNet 的 Delta 规则思想
超稀疏 MoE：512专家仅激活11个，80B参数仅激活3B
100+ tokens/秒推理速度：通过 MTP 机制达到国际先进水平

核心价值：以 1/10 的计算成本和 10 倍的 token 处理速度，实现超越 32B dense 模型的性能，对标 Gemini 2.5 Flash。

1. 混合注意力机制：突破效率瓶颈

传统注意力的困境

传统的 Transformer 模型使用 Softmax 注意力机制，需要在生成每个 token 时扫描所有历史 token，这导致了 O(L²) 的计算复杂度。随着序列长度增加，计算成本急剧上升。

线性注意力的演进：从理论到 DeltaNet

基础线性注意力及其局限性

线性注意力通过去除 Softmax 操作实现高效计算，其核心是将注意力转换为 RNN 形式：

1 2	状态更新：S_t = S_{t-1} + v_t k_t^T 输出计算：o_t = S_t q_t

这种方式虽然降低了复杂度（O(L²d) → O(Ld²)），但存在根本性缺陷：

“有损压缩”问题：线性注意力本质上是对历史信息的压缩，无法精确保存所有细节
大海捞针能力缺失：在需要从长文本中精确检索特定信息时表现较差
级联影响：
- 大海捞针能力 → In-Context Learning 能力
- In-Context Learning → 指令遵循能力
- 指令遵循能力 → 长思维链思考能力
- 指令遵循能力 → 工具调用能力

因此，对需要进行深度思考和工具调用的 SOTA 模型，纯线性注意力虽然理论上很优雅，但很难达到 SOTA 效果。

DeltaNet：Delta 规则的改进

DeltaNet 通过引入 Delta 规则（源自神经网络学习理论）部分缓解了这些问题：

1	S_t = S_{t-1} + β_t(v_t - S_{t-1}k_t)k_t^T

其中：

β_t：自适应学习率，控制更新强度
**(v_t - S_{t-1}k_t)**：预测误差项
“擦除-写入”机制：先擦除旧值，再写入新值的混合

这个更新规则可以理解为在线梯度下降，每步最小化 MSE 损失：

1	L_t(S) = 1/2 \|\|Sk_t - v_t\|\|²

DeltaNet 的三大技术突破

数学基础优化
- 采用 MSE 损失而非线性损失，提供更强的误差校正能力
- 动态学习率 β_t 实现自适应记忆更新
- 理论上等价于 Test-Time-Training (TTT) 的特殊形式
并行化算法创新
- 分块并行：将序列分成多个块，块内并行计算
- 硬件友好：充分利用 GPU 的并行计算能力
- flash-linear-attention：专门优化的 CUDA kernel 实现
现代神经架构改进
- L₂ 正则化：对 Q、K 进行归一化，提升数值稳定性
- 输出归一化：防止梯度爆炸/消失
- SiLU 激活：相比 ReLU 提供更平滑的梯度流
- 短卷积：捕获局部依赖，弥补全局注意力的不足

性能验证：MQAR 基准测试

在 Multi-Query Associative Recall (MQAR) 任务上，DeltaNet 展现了卓越性能：

模型	In-Context Recall	Noisy Recall	Selective Copy	平均分
Transformer	94.1%	86.8%	99.6%	74.5%
Mamba	90.4%	90.1%	86.3%	69.3%
Linear Attention	80.8%	81.6%	88.6%	60.0%
DeltaNet	100%	100%	100%	71.8%

DeltaNet 在关联记忆任务上达到完美性能，证明了其在精确检索方面的优势。

Qwen3-Next 的混合策略：理论与实践的结合

Qwen3-Next 采用了 3:1 混合注意力架构，这一设计基于深刻的理论洞察：

Layer 1-3: 线性注意力（类DeltaNet机制）
    ├── 高效状态压缩
    ├── 自适应记忆更新
    └── O(Ld²) 复杂度
    
Layer 4: 传统 Softmax 注意力
    ├── 精确关联检索（大海捞针）
    ├── 长程依赖建模
    └── 关键信息保真

这个比例的选择反映了效率与能力的精妙平衡：

关键能力保持：25% 的 Softmax 层足以维持”大海捞针”能力，也就保持了 In-Context Learning 能力和由此衍生出的长思维链思考、工具调用等各种高阶能力。
计算效率最大化：75% 的线性层大幅降低计算成本
实验验证：在多个基准测试中，3:1 比例展现最佳性价比

与其他混合架构的对比

模型	混合比例	上下文长度	推理速度	特点
MiniMax-01	7:1	1M→4M	~50 tokens/s	Lightning Attention + Transnormer
Qwen3-Next	3:1	128K	100+ tokens/s	DeltaNet思想 + Flash Attention
Google Infini-Attention	N/A	无限	N/A	双重注意力，114x内存压缩
DeepSeek NSA	动态	64K	N/A	层次化稀疏，硬件优化

关键差异：

MiniMax-01 更激进地采用 7:1 比例，牺牲了部分精确检索能力以换取超长上下文
Qwen3-Next 保守的 3:1 设计确保了更强的 In-Context Learning 能力

与纯 DeltaNet 的差异

虽然借鉴了 DeltaNet 的核心思想，Qwen3-Next 做了工程化改进：

特性	DeltaNet	Qwen3-Next
更新规则	纯 Delta 规则	简化的线性更新 + Softmax
并行策略	分块并行	层级混合并行
记忆机制	全局状态矩阵	分层渐进压缩
硬件优化	CUDA kernel	混合精度 + Flash Attention

2. 超高稀疏性 MoE：激活参数的极致优化

Qwen3-Next 在专家混合（MoE）架构上实现了前所未有的稀疏性：

模型	专家总数	激活专家数	激活专家比例
Mixtral	8	2	1/4
DeepSeek R1	256	8	1/32
Qwen3	128	8	1/16
Qwen3-Next	512	11	1/46

80B-A3B 架构：

总参数量：80B
激活参数量：仅 3B
性能表现：超越传统 32B dense 模型

这意味着：

推理成本降低 10 倍：只需激活 3.7% 的参数
性能反而提升：通过更精细的专家分工实现
训练难度增大：需要确保每个专家的特异性足够强

高稀疏性对训练提出了更高要求：

必须将不同领域知识有效分离到不同专家
路由机制需要准确识别并选择合适的专家
避免专家功能重叠导致的性能退化

3. Multi-Token Prediction (MTP)：推理加速的关键

传统自回归模型每次只能生成一个 token，导致：

国内 SOTA 开源模型（DeepSeek R1 等）：通常 20-30 tokens/秒（还有一部分原因是激活参数过多）
国际 SOTA 闭源模型（GPT/Gemini）：100+ tokens/秒

Qwen3-Next 引入 MTP 机制，通过并行生成，即一次输出多个 tokens；再进行后验证，实现显著速度提升，达到 SOTA 闭源模型的 100+ tokens/秒。

实测性能数据（对比 Qwen3-32B）

得益于混合架构设计，Qwen3-Next 在推理各阶段都展现出惊人的性能提升：

预填充阶段（Prefill Stage）：

4K 上下文：吞吐量提升近 7倍
32K+ 上下文：吞吐量提升超过 10倍

解码阶段（Decode Stage）：

4K 上下文：吞吐量提升近 4倍
32K+ 上下文：吞吐量依然保持 10倍+ 优势

这些性能提升主要来自：

混合注意力架构减少了计算复杂度
超稀疏 MoE 大幅降低了激活参数量
MTP 机制提升了 token 生成效率

高速推理在多个场景中至关重要：

实时对话：2秒内必须响应的语音助手
思维链推理：同样时间内可以”思考”更多内容（每秒 200 字 vs 40 字）
Agent 多轮工具调用：工具调用延迟大大缩短，提升用户体验

4. 训练稳定性优化

Qwen3-Next 在训练稳定性方面做了多项关键改进：

注意力输出门控：解决两个关键问题
- Attention Sink（arxiv:2309.17453）：模型倾向于在序列开头的几个 token（尤其是第一个）分配过多注意力权重，即使这些 token 语义上并不重要
- Massive Activations（arxiv:2402.17762）：极少数激活值比其他激活值大几个数量级（甚至达到 10000 倍），通常出现在特定维度和特定 token（如起始标记）上，起到类似固定 bias 的作用
- 通过输出门控机制，动态调节这些异常激活，确保训练稳定性和推理效率
Zero-Centered RMSNorm：
- 问题背景：Qwen3 使用的 QK-Norm 中，LayerNorm 的可学习参数（γ 缩放参数和 β 偏移参数）在训练过程中会异常增大，可能导致梯度不稳定和过拟合风险（arxiv:1911.07013）
- 解决方案：采用 Zero-Centered RMSNorm，并对 norm weights 应用 weight decay，有效防止参数无界增长，提升训练稳定性
MoE 路由器初始化：归一化初始化参数，确保训练早期每个专家被无偏选择，减少随机初始化带来的噪声

5. 对标 Gemini 2.5 Flash

Qwen3-Next 的设计目标对标 Google 的 Gemini 2.5 Flash：

长上下文处理
- 支持百轮以上对话历史
- 处理超长文档不失准确性
自适应思考（Adaptive Thinking）
- 快速思维链推理
成本效益
- 激活参数少，推理成本低
- 训练和部署成本大幅降低
推理速度快
- prefill 和 decode 速度都快
- 文字响应延迟、工具调用延迟降低

6. Qwen3-Next 的产业意义

接棒开源生态

随着 Llama3、Llama4 开源模型的性能越来越拉垮，千问团队坚持开源：

Qwen2.5：成为众多领域模型的基座
Qwen3：推出 200B+ 大规模模型、带工具调用能力的推理模型
Qwen3-Next：探索新架构方向

工业级验证

虽然线性注意力、高稀疏 MoE 等技术在学术界已有大量研究，Google、OpenAI 等 SOTA 闭源模型也普遍采用了这些技术，但 Qwen3-Next 用开源模型，证明了：这些技术可以有效集成，能够在生产环境中稳定工作，并在实际业务场景中取得优异效果。

结语

Qwen3-Next 不仅是一个技术突破，更代表了大模型发展的新范式：通过架构创新实现效率和性能的双赢。其 10 倍的推理性能提升和媲美国际先进水平的生成速度，为国产大模型在全球竞争中赢得了重要席位。

混合注意力已成为行业共识：从 Google 的 Infini-Attention、MiniMax 的 Lightning Attention，再到 Qwen3-Next，各家都在探索线性与传统注意力的最佳结合点。这不是偶然，而是技术发展的必然——纯线性注意力无法满足复杂推理需求，纯传统注意力又面临效率瓶颈。

对于开发者和企业用户而言，Qwen3-Next 提供了一个高性价比的选择：既能有较好的模型能力，又能快速响应，还能控制成本。

参考资料：