最近,阿里千问团队发布了 Qwen3-Next 模型,这是继 Qwen3 之后的又一重要创新。这个模型在架构设计上实现了多项突破,特别是在推理效率和性能平衡方面达到了业界领先水平。本文将简要总结 Qwen3-Next 的核心创新点。

Qwen3-Next 三大突破

  1. 混合注意力架构:3层线性注意力 + 1层传统注意力,结合 DeltaNet 的 Delta 规则思想
  2. 超稀疏 MoE:512专家仅激活11个,80B参数仅激活3B
  3. 100+ tokens/秒推理速度:通过 MTP 机制达到国际先进水平

核心价值:以 1/10 的计算成本和 10 倍的 token 处理速度,实现超越 32B dense 模型的性能,对标 Gemini 2.5 Flash。

1. 混合注意力机制:突破效率瓶颈

传统注意力的困境

传统的 Transformer 模型使用 Softmax 注意力机制,需要在生成每个 token 时扫描所有历史 token,这导致了 O(L²) 的计算复杂度。随着序列长度增加,计算成本急剧上升。

线性注意力的演进:从理论到 DeltaNet

基础线性注意力及其局限性

线性注意力通过去除 Softmax 操作实现高效计算,其核心是将注意力转换为 RNN 形式:

1
2
状态更新:S_t = S_{t-1} + v_t k_t^T
输出计算:o_t = S_t q_t

这种方式虽然降低了复杂度(O(L²d) → O(Ld²)),但存在根本性缺陷

  1. “有损压缩”问题:线性注意力本质上是对历史信息的压缩,无法精确保存所有细节
  2. 大海捞针能力缺失:在需要从长文本中精确检索特定信息时表现较差
  3. 级联影响
    • 大海捞针能力 → In-Context Learning 能力
    • In-Context Learning → 指令遵循能力
    • 指令遵循能力 → 长思维链思考能力
    • 指令遵循能力 → 工具调用能力

因此,对需要进行深度思考和工具调用的 SOTA 模型,纯线性注意力虽然理论上很优雅,但很难达到 SOTA 效果。

DeltaNet:Delta 规则的改进

DeltaNet 通过引入 Delta 规则(源自神经网络学习理论)部分缓解了这些问题:

1
S_t = S_{t-1} + β_t(v_t - S_{t-1}k_t)k_t^T

其中:

  • β_t:自适应学习率,控制更新强度
  • **(v_t - S_{t-1}k_t)**:预测误差项
  • “擦除-写入”机制:先擦除旧值,再写入新值的混合

这个更新规则可以理解为在线梯度下降,每步最小化 MSE 损失:

1
L_t(S) = 1/2 ||Sk_t - v_t||²

DeltaNet 的三大技术突破

  1. 数学基础优化

    • 采用 MSE 损失而非线性损失,提供更强的误差校正能力
    • 动态学习率 β_t 实现自适应记忆更新
    • 理论上等价于 Test-Time-Training (TTT) 的特殊形式
  2. 并行化算法创新

    • 分块并行:将序列分成多个块,块内并行计算
    • 硬件友好:充分利用 GPU 的并行计算能力
    • flash-linear-attention:专门优化的 CUDA kernel 实现
  3. 现代神经架构改进

    • L₂ 正则化:对 Q、K 进行归一化,提升数值稳定性
    • 输出归一化:防止梯度爆炸/消失
    • SiLU 激活:相比 ReLU 提供更平滑的梯度流
    • 短卷积:捕获局部依赖,弥补全局注意力的不足

性能验证:MQAR 基准测试

在 Multi-Query Associative Recall (MQAR) 任务上,DeltaNet 展现了卓越性能:

模型 In-Context Recall Noisy Recall Selective Copy 平均分
Transformer 94.1% 86.8% 99.6% 74.5%
Mamba 90.4% 90.1% 86.3% 69.3%
Linear Attention 80.8% 81.6% 88.6% 60.0%
DeltaNet 100% 100% 100% 71.8%

DeltaNet 在关联记忆任务上达到完美性能,证明了其在精确检索方面的优势。

Qwen3-Next 的混合策略:理论与实践的结合

Qwen3-Next 采用了 3:1 混合注意力架构,这一设计基于深刻的理论洞察:

1
2
3
4
5
6
7
8
9
Layer 1-3: 线性注意力(类DeltaNet机制)
├── 高效状态压缩
├── 自适应记忆更新
└── O(Ld²) 复杂度

Layer 4: 传统 Softmax 注意力
├── 精确关联检索(大海捞针)
├── 长程依赖建模
└── 关键信息保真

这个比例的选择反映了效率与能力的精妙平衡:

  1. 关键能力保持:25% 的 Softmax 层足以维持”大海捞针”能力,也就保持了 In-Context Learning 能力和由此衍生出的长思维链思考、工具调用等各种高阶能力。
  2. 计算效率最大化:75% 的线性层大幅降低计算成本
  3. 实验验证:在多个基准测试中,3:1 比例展现最佳性价比

与其他混合架构的对比

模型 混合比例 上下文长度 推理速度 特点
MiniMax-01 7:1 1M→4M ~50 tokens/s Lightning Attention + Transnormer
Qwen3-Next 3:1 128K 100+ tokens/s DeltaNet思想 + Flash Attention
Google Infini-Attention N/A 无限 N/A 双重注意力,114x内存压缩
DeepSeek NSA 动态 64K N/A 层次化稀疏,硬件优化

关键差异

  • MiniMax-01 更激进地采用 7:1 比例,牺牲了部分精确检索能力以换取超长上下文
  • Qwen3-Next 保守的 3:1 设计确保了更强的 In-Context Learning 能力

与纯 DeltaNet 的差异

虽然借鉴了 DeltaNet 的核心思想,Qwen3-Next 做了工程化改进:

特性 DeltaNet Qwen3-Next
更新规则 纯 Delta 规则 简化的线性更新 + Softmax
并行策略 分块并行 层级混合并行
记忆机制 全局状态矩阵 分层渐进压缩
硬件优化 CUDA kernel 混合精度 + Flash Attention

2. 超高稀疏性 MoE:激活参数的极致优化

Qwen3-Next 在专家混合(MoE)架构上实现了前所未有的稀疏性:

模型 专家总数 激活专家数 激活专家比例
Mixtral 8 2 1/4
DeepSeek R1 256 8 1/32
Qwen3 128 8 1/16
Qwen3-Next 512 11 1/46

80B-A3B 架构:

  • 总参数量:80B
  • 激活参数量:仅 3B
  • 性能表现:超越传统 32B dense 模型

这意味着:

  1. 推理成本降低 10 倍:只需激活 3.7% 的参数
  2. 性能反而提升:通过更精细的专家分工实现
  3. 训练难度增大:需要确保每个专家的特异性足够强

高稀疏性对训练提出了更高要求:

  • 必须将不同领域知识有效分离到不同专家
  • 路由机制需要准确识别并选择合适的专家
  • 避免专家功能重叠导致的性能退化

3. Multi-Token Prediction (MTP):推理加速的关键

传统自回归模型每次只能生成一个 token,导致:

  • 国内 SOTA 开源模型(DeepSeek R1 等):通常 20-30 tokens/秒(还有一部分原因是激活参数过多)
  • 国际 SOTA 闭源模型(GPT/Gemini):100+ tokens/秒

Qwen3-Next 引入 MTP 机制,通过并行生成,即一次输出多个 tokens;再进行后验证,实现显著速度提升,达到 SOTA 闭源模型的 100+ tokens/秒。

实测性能数据(对比 Qwen3-32B)

得益于混合架构设计,Qwen3-Next 在推理各阶段都展现出惊人的性能提升:

预填充阶段(Prefill Stage)

  • 4K 上下文:吞吐量提升近 7倍
  • 32K+ 上下文:吞吐量提升超过 10倍

解码阶段(Decode Stage)

  • 4K 上下文:吞吐量提升近 4倍
  • 32K+ 上下文:吞吐量依然保持 10倍+ 优势

这些性能提升主要来自:

  1. 混合注意力架构减少了计算复杂度
  2. 超稀疏 MoE 大幅降低了激活参数量
  3. MTP 机制提升了 token 生成效率

高速推理在多个场景中至关重要:

  1. 实时对话:2秒内必须响应的语音助手
  2. 思维链推理:同样时间内可以”思考”更多内容(每秒 200 字 vs 40 字)
  3. Agent 多轮工具调用:工具调用延迟大大缩短,提升用户体验

4. 训练稳定性优化

Qwen3-Next 在训练稳定性方面做了多项关键改进:

  1. 注意力输出门控:解决两个关键问题

    • Attention Sinkarxiv:2309.17453):模型倾向于在序列开头的几个 token(尤其是第一个)分配过多注意力权重,即使这些 token 语义上并不重要
    • Massive Activationsarxiv:2402.17762):极少数激活值比其他激活值大几个数量级(甚至达到 10000 倍),通常出现在特定维度和特定 token(如起始标记)上,起到类似固定 bias 的作用
    • 通过输出门控机制,动态调节这些异常激活,确保训练稳定性和推理效率
  2. Zero-Centered RMSNorm

    • 问题背景:Qwen3 使用的 QK-Norm 中,LayerNorm 的可学习参数(γ 缩放参数和 β 偏移参数)在训练过程中会异常增大,可能导致梯度不稳定和过拟合风险(arxiv:1911.07013
    • 解决方案:采用 Zero-Centered RMSNorm,并对 norm weights 应用 weight decay,有效防止参数无界增长,提升训练稳定性
  3. MoE 路由器初始化:归一化初始化参数,确保训练早期每个专家被无偏选择,减少随机初始化带来的噪声

5. 对标 Gemini 2.5 Flash

Qwen3-Next 的设计目标对标 Google 的 Gemini 2.5 Flash:

  1. 长上下文处理

    • 支持百轮以上对话历史
    • 处理超长文档不失准确性
  2. 自适应思考(Adaptive Thinking)

    • 快速思维链推理
  3. 成本效益

    • 激活参数少,推理成本低
    • 训练和部署成本大幅降低
  4. 推理速度快

    • prefill 和 decode 速度都快
    • 文字响应延迟、工具调用延迟降低

6. Qwen3-Next 的产业意义

接棒开源生态

随着 Llama3、Llama4 开源模型的性能越来越拉垮,千问团队坚持开源:

  • Qwen2.5:成为众多领域模型的基座
  • Qwen3:推出 200B+ 大规模模型、带工具调用能力的推理模型
  • Qwen3-Next:探索新架构方向

工业级验证

虽然线性注意力、高稀疏 MoE 等技术在学术界已有大量研究,Google、OpenAI 等 SOTA 闭源模型也普遍采用了这些技术,但 Qwen3-Next 用开源模型,证明了:这些技术可以有效集成,能够在生产环境中稳定工作,并在实际业务场景中取得优异效果。

结语

Qwen3-Next 不仅是一个技术突破,更代表了大模型发展的新范式:通过架构创新实现效率和性能的双赢。其 10 倍的推理性能提升和媲美国际先进水平的生成速度,为国产大模型在全球竞争中赢得了重要席位。

混合注意力已成为行业共识:从 Google 的 Infini-Attention、MiniMax 的 Lightning Attention,再到 Qwen3-Next,各家都在探索线性与传统注意力的最佳结合点。这不是偶然,而是技术发展的必然——纯线性注意力无法满足复杂推理需求,纯传统注意力又面临效率瓶颈。

对于开发者和企业用户而言,Qwen3-Next 提供了一个高性价比的选择:既能有较好的模型能力,又能快速响应,还能控制成本。


参考资料:

Comments