阿里通义团队在 2026 年 4 月发布 Qwen3.6-35B-A3B，用 256 专家的稀疏 MoE 加混合注意力，将 35B 参数模型的推理算力压缩至 3B 量级，SWE-bench Verified 达到 73.4%。

Qwen3.6-35B-A3B 架构深度解析：35B 参数只烧 3B，编码能力直逼 Claude Sonnet

Qwen3.6-35B-A3B 的名字里藏着最重要的信息：35B 总参数，A3B（Activated 3B）激活参数。每次前向计算只激活约 3B 的权重，推理成本和一个 3B 稠密模型相当，但模型表达能力接近 35B。

这个设计让它可以在单张 RTX 4090 上用 INT4 量化跑起来，SWE-bench Verified 达到 73.4%——而这个分数，在几个月前还是旗舰闭源模型的专属区间。

本文重点剖析 Qwen3.6-35B-A3B 的架构设计，并与 Qwen3.5 系列做结构和性能层面的对比，涉及的代码均来自 HuggingFace Transformers 官方实现。

Qwen3.5 到 Qwen3.6：一次有据可查的结构升级

要理解 Qwen3.6 的设计选择，先看它从哪里来。

Qwen3.5 系列（代表：Qwen3.5-30B-A3B）已经确立了"混合注意力 + 稀疏 MoE"的基本框架：线性注意力处理大多数层，每隔固定间隔插入一层全注意力，所有层共享一套 MoE FFN。这个框架在 Qwen3.6 里被完整保留并扩大规模。

Qwen3.5 vs Qwen3.6-35B-A3B 核心结构对比：

	Qwen3.5-30B-A3B	Qwen3.6-35B-A3B
总参数	30B	35B
激活参数	~3B	~3.5B
层数	36	40
总专家数	128	256
每 token 激活专家	8 路由	8 路由 + 1 共享
专家中间层维度	512	512
全注意力间隔	4（3:1）	4（3:1）
原生上下文长度	128K	262K
最大上下文（YaRN）	N/A	1M
多 token 预测	无	有

三处核心变化：专家数翻倍（128→256）、层数增加（36→40）、上下文扩展（128K→262K/1M）。路由逻辑和注意力混合比例保持不变，这让升级具有可预测性，同时通过规模扩展带来了性能跃升。

架构核心：层级结构与配置参数

Qwen3.6-35B-A3B 的 config.json 中 model_type 是 qwen3_5_moe，使用 Qwen3_5MoeForConditionalGeneration 架构——这表明 Qwen3.6 是 Qwen3.5 MoE 框架的直接延伸，而非重新设计。

关键配置参数： layer_types 数组直接定义了 40 层的排列方式，每隔 4 层切换一次全注意力：

40 层 = 10 组 × (3 × 线性注意力 + 1 × 全注意力)。这个比例是在推理效率和长距离依赖捕获之间找的平衡点。

Gated DeltaNet：线性注意力的工程实现

Gated DeltaNet 是线性注意力的具体实现，它维护一个固定大小的状态矩阵（约 512KB），不管序列多长都不会增长。这使得长上下文推理的显存占用变得可预测。

全注意力层：保留精确检索能力

每 4 层插入的 Qwen3_5MoeAttention 是标准 GQA（Grouped Query Attention）实现，但加入了门控机制：

GQA 的 16:2 配置（Q:KV）在保持表达能力的同时，将 KV Cache 显存减少到标准 MHA 的 1/8，对长上下文场景关键。

MoE 路由：256 专家的调度逻辑

MoE 的核心是路由器决定哪 8 个专家处理当前 token，加上始终激活的 1 个共享专家。

256 个专家 vs Qwen3.5 的 128 个：专家数翻倍带来更细粒度的知识分工，但每 token 激活数量不变（仍是 8），推理算力不增加。训练时通过辅助损失（router_aux_loss_coef=0.001）鼓励专家负载均衡，防止少数专家被过度使用。

上下文扩展：YaRN 将 262K 推至 1M

原生 262K 上下文已经是 Qwen3.5-30B-A3B 的两倍，更进一步扩展到 1M 需要配置 YaRN（Yet Another RoPE extensioN）：

YaRN 通过对 RoPE 频率进行分段缩放，在不重新训练的前提下将位置编码的有效范围扩展至 4×。注意 partial_rotary_factor=0.25：只有 head_dim 的前 25%（即 64 维）参与旋转位置编码，其余 75% 是纯内容编码——这减少了位置信息在高频维度的"污染"，有助于长上下文的稳定性。

推理效率：混合注意力的实际收益

HackerNews 上有开发者报告，Qwen3.6-35B-A3B 在 Apple Silicon（M3 Max, 128GB）上跑 INT4 量化的速度约为 8,000 tokens/秒，约 92GB 内存占用，可以完整利用 1M 上下文而不触发显存瓶颈。

这正是混合注意力的核心价值：线性注意力层的 KV Cache 是固定大小，不管序列多长都维持约 512KB 的状态矩阵；只有 25% 的全注意力层会积累 KV Cache。与纯全注意力模型相比，1M token 上下文下的显存节省可达 75%。

不过有一点值得注意：由于 75% 的层使用线性注意力的压缩记忆，模型在精确检索类任务（如"找到第 37 段的第三句话"）的表现会弱于纯全注意力模型。需要精确 long-context retrieval 的场景，最好测试验证一下。

性能基准：Qwen3.6-35B-A3B 站在哪里

激活参数相近，Qwen3.6 在编码任务上领先 Gemma 4，仍与万亿参数级别的 DeepSeek-V4 有差距，但对于本地可部署的开源模型来说，73.4% 的 SWE-bench 是当前的新高水位线。

写在最后

Qwen3.6-35B-A3B 代表了一种清晰的工程路线：在既有的混合注意力框架上做规模扩展（更多专家、更多层、更长上下文），同时保持激活参数量不变。这让升级的性能收益可预测，工程风险也低。

从架构视角看，有几点值得关注的设计选择：

专家数翻倍（128→256）而非加大 FFN：粒度更细的知识分工，而不是单纯加大每个专家的容量
共享专家（+1）：所有 token 强制经过的通用特征提取，类似 DeepSeek-V3 的设计
3:1 混合比例：经过 Qwen3.5 验证的配置，Qwen3.6 直接复用而未调整
partial_rotary_factor=0.25：只对 head_dim 的 25% 施加位置编码，减少长上下文的位置混乱

对于正在考虑本地部署的团队：35B-A3B 的实际推理成本接近 3.5B 稠密模型，INT4 量化后 RTX 4090 可跑，Apple Silicon 128GB 可跑长上下文，性价比在当前开源模型里处于第一梯队。

Qwen3.6-35B-A3B 架构深度解析：35B 参数只烧 3B，编码能力直逼 Claude Sonnet ​

Qwen3.5 到 Qwen3.6：一次有据可查的结构升级 ​

Qwen3.5 vs Qwen3.6-35B-A3B 核心结构对比： ​

架构核心：层级结构与配置参数 ​

Gated DeltaNet：线性注意力的工程实现 ​

全注意力层：保留精确检索能力 ​

MoE 路由：256 专家的调度逻辑 ​

上下文扩展：YaRN 将 262K 推至 1M ​

推理效率：混合注意力的实际收益 ​

性能基准：Qwen3.6-35B-A3B 站在哪里 ​

写在最后 ​