Skip to content

阿里通义团队在 2026 年 4 月发布 Qwen3.6-35B-A3B,用 256 专家的稀疏 MoE 加混合注意力,将 35B 参数模型的推理算力压缩至 3B 量级,SWE-bench Verified 达到 73.4%。

Qwen3.6-35B-A3B 架构深度解析:35B 参数只烧 3B,编码能力直逼 Claude Sonnet

Qwen3.6-35B-A3B 的名字里藏着最重要的信息:35B 总参数,A3B(Activated 3B)激活参数。每次前向计算只激活约 3B 的权重,推理成本和一个 3B 稠密模型相当,但模型表达能力接近 35B。

这个设计让它可以在单张 RTX 4090 上用 INT4 量化跑起来,SWE-bench Verified 达到 73.4%——而这个分数,在几个月前还是旗舰闭源模型的专属区间。

本文重点剖析 Qwen3.6-35B-A3B 的架构设计,并与 Qwen3.5 系列做结构和性能层面的对比,涉及的代码均来自 HuggingFace Transformers 官方实现。

Qwen3.5 到 Qwen3.6:一次有据可查的结构升级

要理解 Qwen3.6 的设计选择,先看它从哪里来。

Qwen3.5 系列(代表:Qwen3.5-30B-A3B)已经确立了"混合注意力 + 稀疏 MoE"的基本框架:线性注意力处理大多数层,每隔固定间隔插入一层全注意力,所有层共享一套 MoE FFN。这个框架在 Qwen3.6 里被完整保留并扩大规模。

Qwen3.5 vs Qwen3.6-35B-A3B 核心结构对比:

Qwen3.5-30B-A3BQwen3.6-35B-A3B
总参数30B35B
激活参数~3B~3.5B
层数3640
总专家数128256
每 token 激活专家8 路由8 路由 + 1 共享
专家中间层维度512512
全注意力间隔4(3:1)4(3:1)
原生上下文长度128K262K
最大上下文(YaRN)N/A1M
多 token 预测

三处核心变化:专家数翻倍(128→256)、层数增加(36→40)、上下文扩展(128K→262K/1M)。路由逻辑和注意力混合比例保持不变,这让升级具有可预测性,同时通过规模扩展带来了性能跃升。

架构核心:层级结构与配置参数

Qwen3.6-35B-A3B 的 config.jsonmodel_typeqwen3_5_moe,使用 Qwen3_5MoeForConditionalGeneration 架构——这表明 Qwen3.6 是 Qwen3.5 MoE 框架的直接延伸,而非重新设计。

关键配置参数: layer_types 数组直接定义了 40 层的排列方式,每隔 4 层切换一次全注意力:

40 层 = 10 组 × (3 × 线性注意力 + 1 × 全注意力)。这个比例是在推理效率和长距离依赖捕获之间找的平衡点。

Gated DeltaNet:线性注意力的工程实现

Gated DeltaNet 是线性注意力的具体实现,它维护一个固定大小的状态矩阵(约 512KB),不管序列多长都不会增长。这使得长上下文推理的显存占用变得可预测。

全注意力层:保留精确检索能力

每 4 层插入的 Qwen3_5MoeAttention 是标准 GQA(Grouped Query Attention)实现,但加入了门控机制:

GQA 的 16:2 配置(Q:KV)在保持表达能力的同时,将 KV Cache 显存减少到标准 MHA 的 1/8,对长上下文场景关键。

MoE 路由:256 专家的调度逻辑

MoE 的核心是路由器决定哪 8 个专家处理当前 token,加上始终激活的 1 个共享专家。

256 个专家 vs Qwen3.5 的 128 个:专家数翻倍带来更细粒度的知识分工,但每 token 激活数量不变(仍是 8),推理算力不增加。训练时通过辅助损失(router_aux_loss_coef=0.001)鼓励专家负载均衡,防止少数专家被过度使用。

上下文扩展:YaRN 将 262K 推至 1M

原生 262K 上下文已经是 Qwen3.5-30B-A3B 的两倍,更进一步扩展到 1M 需要配置 YaRN(Yet Another RoPE extensioN):

YaRN 通过对 RoPE 频率进行分段缩放,在不重新训练的前提下将位置编码的有效范围扩展至 4×。注意 partial_rotary_factor=0.25:只有 head_dim 的前 25%(即 64 维)参与旋转位置编码,其余 75% 是纯内容编码——这减少了位置信息在高频维度的"污染",有助于长上下文的稳定性。

推理效率:混合注意力的实际收益

HackerNews 上有开发者报告,Qwen3.6-35B-A3B 在 Apple Silicon(M3 Max, 128GB)上跑 INT4 量化的速度约为 8,000 tokens/秒,约 92GB 内存占用,可以完整利用 1M 上下文而不触发显存瓶颈。

这正是混合注意力的核心价值:线性注意力层的 KV Cache 是固定大小,不管序列多长都维持约 512KB 的状态矩阵;只有 25% 的全注意力层会积累 KV Cache。与纯全注意力模型相比,1M token 上下文下的显存节省可达 75%。

不过有一点值得注意:由于 75% 的层使用线性注意力的压缩记忆,模型在精确检索类任务(如"找到第 37 段的第三句话")的表现会弱于纯全注意力模型。需要精确 long-context retrieval 的场景,最好测试验证一下。

性能基准:Qwen3.6-35B-A3B 站在哪里

激活参数相近,Qwen3.6 在编码任务上领先 Gemma 4,仍与万亿参数级别的 DeepSeek-V4 有差距,但对于本地可部署的开源模型来说,73.4% 的 SWE-bench 是当前的新高水位线。

写在最后

Qwen3.6-35B-A3B 代表了一种清晰的工程路线:在既有的混合注意力框架上做规模扩展(更多专家、更多层、更长上下文),同时保持激活参数量不变。这让升级的性能收益可预测,工程风险也低。

从架构视角看,有几点值得关注的设计选择:

  1. 专家数翻倍(128→256)而非加大 FFN:粒度更细的知识分工,而不是单纯加大每个专家的容量
  2. 共享专家(+1):所有 token 强制经过的通用特征提取,类似 DeepSeek-V3 的设计
  3. 3:1 混合比例:经过 Qwen3.5 验证的配置,Qwen3.6 直接复用而未调整
  4. partial_rotary_factor=0.25:只对 head_dim 的 25% 施加位置编码,减少长上下文的位置混乱

对于正在考虑本地部署的团队:35B-A3B 的实际推理成本接近 3.5B 稠密模型,INT4 量化后 RTX 4090 可跑,Apple Silicon 128GB 可跑长上下文,性价比在当前开源模型里处于第一梯队。