来源：微信公众号「你好瓦力」 | 飞书文档

Qwen3.6 vs Gemma 4 vs MiniMax-M2.7：跑分、实测、选型一文说清

一分钟结论

本地玩、4090 党 → Qwen3.6-35B-A3B（3B 激活，262K 上下文，带视觉）
企业接 API、求稳 → Gemma 4 31B（跑分稳，生态大，Google 背书）
长链 Agent、公司服务器 → MiniMax-M2.7（229B 真壮，但许可证请法务先过）

一、三位选手登场

Qwen3.6-35B-A3B（阿里）

总参数/激活：35B / 3B（MoE）
专家配置：256 个专家（8 routed + 1 shared）
上下文：262K（YaRN 可扩 1M）
模态：文本 + 图像 + 视频
许可证：Apache 2.0
一句话：最瘦最敏捷。3B 激活意味着在单张 4090 上都能跑出 100+ tokens/s

Gemma 4 全家桶（Google）

Gemma 4 E2B：2B Dense，128K 上下文
Gemma 4 E4B：4B Dense，128K 上下文
Gemma 4 26B-A4B：25.2B/3.8B MoE（128 专家），128K 上下文
Gemma 4 31B：30.7B Dense，256K 上下文
许可证：Gemma Community License（类 Apache，但有细则限制）
一句话：Google 亲爹背书 + 跑分狂魔。HuggingFace 一周下载 400 万

MiniMax-M2.7（MiniMax）

总参数：229B（MoE，体型最大）
精度：原生 FP8 (E4M3)
模态：仅文本（没视觉）
上下文：192K
许可证："Other"（社区争议中，商用需书面批准）
一句话：肌肉最壮。但 229B 对应的是 A100/H100 门槛

二、跑分横评

一句话总结：三家各有偏科：编程 Agent 看 MiniMax，数学推理看 Gemma 4，视觉和性价比看 Qwen3.6。没有"一家通杀"。

三、Vibe Check 五连测

#1 鹈鹕骑自行车（SVG）

Qwen3.6：有翅膀有喙，双轮+三角车架，比例正确 ⭐⭐⭐⭐
Gemma 4：鹈鹕画成"鸭子"，但车架完整 ⭐⭐⭐
MiniMax：矩形+三角形的抽象艺术，单轮 ⭐⭐

#2 一句话贪吃蛇（Python + pygame）

MiniMax：一次跑通，3/3 需求全满足，额外加了速度递增彩蛋
Qwen3.6：一次跑通，3/3 需求，最简洁、注释最完整
Gemma 4：缺 import，R 键失效，改两行才能运行

#3 长上下文"针在干草堆"

50 万字《三体》中文版，在 70% 位置藏一句话。

Qwen3.6：130K/192K/256K 全部命中，262K 是真的 262K
MiniMax：130K 通过，192K 答错
Gemma 4：130K 通过，192K/256K 中段"失忆"

长文本 prefill 延迟（130K，单张 H100）：

Qwen3.6：6.2s prefill，88 tok/s decode
Gemma 4：11.4s prefill，42 tok/s decode
MiniMax：18.7s prefill，35 tok/s decode

3B 激活 + DeltaNet 混合架构，长文本比竞品快 2-3 倍，电费直接腰斩。

#4 中文"弱智吧"灵魂拷问

"为什么我爸妈结婚的时候没邀请我？"

Qwen3.6：会玩梗、有逻辑、埋了"立项"的程序员双关
Gemma 4：正确但无聊，像维基百科在朗读
MiniMax：翻译腔严重，读着像英文模型硬翻中文

中文场景闭眼选 Qwen3.6。

#5 视觉理解：便利店小票 OCR

中英日混排便利店小票，含模糊水渍、折角：

Qwen3.6：11/12 商品识别，12/12 价格识别，标准 JSON
Gemma 4：9/12 商品识别，11/12 价格识别
MiniMax：不支持视觉，弃赛

四、翻车与高光

翻车：MiniMax 的"开源"

LICENSE 文件写着"Commercial use requires written approval from MiniMax"——这叫 source-available，不叫 open-source。企业用户务必让法务过一遍。

翻车：Gemma 4 的多语言

中文、日文生成质量明显落后 Qwen3.6，长文本偶尔突然冒英文。

高光：Qwen3.6 的视觉

单张 4090 + 4-bit 量化就能跑 35B-A3B 视觉版本，图像描述延迟 < 2 秒。开源界第一次让"多模态本地化"真的可用。

高光：MiniMax 的工程力

229B FP8 直接开箱，vLLM 0.7+ 原生支持，无需后量化。

高光：Gemma 4 的分发

HuggingFace 一周下载量 400 万，超过 Qwen3.6 和 MiniMax 之和。

五、选型指南

个人/单卡 4090 本地跑 → Qwen3.6-35B-A3B（4-bit GGUF），3B 激活、带视觉、Apache 2.0
SaaS 接 API，要稳、数学任务多 → Gemma 4 31B，跑分最稳、生态最大
工程级 Agent/长链 Coding → MiniMax-M2.7（前提：法务过了许可证）
中文/日韩多语言场景 → Qwen3.6 闭眼选
学术研究、跑 benchmark 发论文 → Gemma 4，数据干净、行为稳定

六、一句话总结

Qwen3.6 — 体感冠军
Gemma 4 — 数据冠军
MiniMax-M2.7 — 规模冠军

跑分是发给别人看的，跑通业务才是自己赚的。

跑分详细数据

编程指标

指标	Qwen3.6-35B	Gemma 4 31B	MiniMax-M2.7
SWE-Bench Verified	69.2	65.7	71.5 🏆
Terminal-Bench 2.0	43.8	41.1	48.6 🏆
LiveCodeBench v6	78.4 🏆	75.9	76.2

推理与数学

指标	Qwen3.6-35B	Gemma 4 31B	MiniMax-M2.7
AIME 2026	85.3	88.7 🏆	84.1
GPQA Diamond	72.4	75.8 🏆	71.0
MATH-500	96.1	97.3 🏆	95.8

视觉指标

指标	Qwen3.6-35B	Gemma 4 31B	MiniMax-M2.7
MMMU	72.6 🏆	68.3	—
RealWorldQA	75.1 🏆	69.7	—
DocVQA	94.8 🏆	91.2	—

Agent工具调用

指标	Qwen3.6-35B	Gemma 4 31B	MiniMax-M2.7
τ-Bench	62.4	58.9	68.3 🏆
BFCL v3	88.1	85.7	89.6 🏆

Qwen3.6 vs Gemma 4 vs MiniMax-M2.7：跑分、实测、选型一文说清 ​

一分钟结论 ​

一、三位选手登场 ​

Qwen3.6-35B-A3B（阿里） ​

Gemma 4 全家桶（Google） ​

MiniMax-M2.7（MiniMax） ​

二、跑分横评 ​

三、Vibe Check 五连测 ​

#1 鹈鹕骑自行车（SVG） ​

#2 一句话贪吃蛇（Python + pygame） ​

#3 长上下文"针在干草堆" ​

#4 中文"弱智吧"灵魂拷问 ​

#5 视觉理解：便利店小票 OCR ​

四、翻车与高光 ​

翻车：MiniMax 的"开源" ​

翻车：Gemma 4 的多语言 ​

高光：Qwen3.6 的视觉 ​

高光：MiniMax 的工程力 ​

高光：Gemma 4 的分发 ​

五、选型指南 ​

六、一句话总结 ​

跑分详细数据 ​

编程指标 ​

推理与数学 ​

视觉指标 ​

Agent工具调用 ​