来源:微信公众号「你好瓦力」 | 飞书文档
Qwen3.6 vs Gemma 4 vs MiniMax-M2.7:跑分、实测、选型一文说清
一分钟结论
- 本地玩、4090 党 → Qwen3.6-35B-A3B(3B 激活,262K 上下文,带视觉)
- 企业接 API、求稳 → Gemma 4 31B(跑分稳,生态大,Google 背书)
- 长链 Agent、公司服务器 → MiniMax-M2.7(229B 真壮,但许可证请法务先过)
一、三位选手登场
Qwen3.6-35B-A3B(阿里)
- 总参数/激活:35B / 3B(MoE)
- 专家配置:256 个专家(8 routed + 1 shared)
- 上下文:262K(YaRN 可扩 1M)
- 模态:文本 + 图像 + 视频
- 许可证:Apache 2.0
- 一句话:最瘦最敏捷。3B 激活意味着在单张 4090 上都能跑出 100+ tokens/s
Gemma 4 全家桶(Google)
- Gemma 4 E2B:2B Dense,128K 上下文
- Gemma 4 E4B:4B Dense,128K 上下文
- Gemma 4 26B-A4B:25.2B/3.8B MoE(128 专家),128K 上下文
- Gemma 4 31B:30.7B Dense,256K 上下文
- 许可证:Gemma Community License(类 Apache,但有细则限制)
- 一句话:Google 亲爹背书 + 跑分狂魔。HuggingFace 一周下载 400 万
MiniMax-M2.7(MiniMax)
- 总参数:229B(MoE,体型最大)
- 精度:原生 FP8 (E4M3)
- 模态:仅文本(没视觉)
- 上下文:192K
- 许可证:"Other"(社区争议中,商用需书面批准)
- 一句话:肌肉最壮。但 229B 对应的是 A100/H100 门槛
二、跑分横评
一句话总结:三家各有偏科:编程 Agent 看 MiniMax,数学推理看 Gemma 4,视觉和性价比看 Qwen3.6。没有"一家通杀"。
三、Vibe Check 五连测
#1 鹈鹕骑自行车(SVG)
- Qwen3.6:有翅膀有喙,双轮+三角车架,比例正确 ⭐⭐⭐⭐
- Gemma 4:鹈鹕画成"鸭子",但车架完整 ⭐⭐⭐
- MiniMax:矩形+三角形的抽象艺术,单轮 ⭐⭐
#2 一句话贪吃蛇(Python + pygame)
- MiniMax:一次跑通,3/3 需求全满足,额外加了速度递增彩蛋
- Qwen3.6:一次跑通,3/3 需求,最简洁、注释最完整
- Gemma 4:缺 import,R 键失效,改两行才能运行
#3 长上下文"针在干草堆"
50 万字《三体》中文版,在 70% 位置藏一句话。
- Qwen3.6:130K/192K/256K 全部命中,262K 是真的 262K
- MiniMax:130K 通过,192K 答错
- Gemma 4:130K 通过,192K/256K 中段"失忆"
长文本 prefill 延迟(130K,单张 H100):
- Qwen3.6:6.2s prefill,88 tok/s decode
- Gemma 4:11.4s prefill,42 tok/s decode
- MiniMax:18.7s prefill,35 tok/s decode
3B 激活 + DeltaNet 混合架构,长文本比竞品快 2-3 倍,电费直接腰斩。
#4 中文"弱智吧"灵魂拷问
"为什么我爸妈结婚的时候没邀请我?"
- Qwen3.6:会玩梗、有逻辑、埋了"立项"的程序员双关
- Gemma 4:正确但无聊,像维基百科在朗读
- MiniMax:翻译腔严重,读着像英文模型硬翻中文
中文场景闭眼选 Qwen3.6。
#5 视觉理解:便利店小票 OCR
中英日混排便利店小票,含模糊水渍、折角:
- Qwen3.6:11/12 商品识别,12/12 价格识别,标准 JSON
- Gemma 4:9/12 商品识别,11/12 价格识别
- MiniMax:不支持视觉,弃赛
四、翻车与高光
翻车:MiniMax 的"开源"
LICENSE 文件写着"Commercial use requires written approval from MiniMax"——这叫 source-available,不叫 open-source。企业用户务必让法务过一遍。
翻车:Gemma 4 的多语言
中文、日文生成质量明显落后 Qwen3.6,长文本偶尔突然冒英文。
高光:Qwen3.6 的视觉
单张 4090 + 4-bit 量化就能跑 35B-A3B 视觉版本,图像描述延迟 < 2 秒。开源界第一次让"多模态本地化"真的可用。
高光:MiniMax 的工程力
229B FP8 直接开箱,vLLM 0.7+ 原生支持,无需后量化。
高光:Gemma 4 的分发
HuggingFace 一周下载量 400 万,超过 Qwen3.6 和 MiniMax 之和。
五、选型指南
- 个人/单卡 4090 本地跑 → Qwen3.6-35B-A3B(4-bit GGUF),3B 激活、带视觉、Apache 2.0
- SaaS 接 API,要稳、数学任务多 → Gemma 4 31B,跑分最稳、生态最大
- 工程级 Agent/长链 Coding → MiniMax-M2.7(前提:法务过了许可证)
- 中文/日韩多语言场景 → Qwen3.6 闭眼选
- 学术研究、跑 benchmark 发论文 → Gemma 4,数据干净、行为稳定
六、一句话总结
- Qwen3.6 — 体感冠军
- Gemma 4 — 数据冠军
- MiniMax-M2.7 — 规模冠军
跑分是发给别人看的,跑通业务才是自己赚的。
跑分详细数据
编程指标
| 指标 | Qwen3.6-35B | Gemma 4 31B | MiniMax-M2.7 |
|---|---|---|---|
| SWE-Bench Verified | 69.2 | 65.7 | 71.5 🏆 |
| Terminal-Bench 2.0 | 43.8 | 41.1 | 48.6 🏆 |
| LiveCodeBench v6 | 78.4 🏆 | 75.9 | 76.2 |
推理与数学
| 指标 | Qwen3.6-35B | Gemma 4 31B | MiniMax-M2.7 |
|---|---|---|---|
| AIME 2026 | 85.3 | 88.7 🏆 | 84.1 |
| GPQA Diamond | 72.4 | 75.8 🏆 | 71.0 |
| MATH-500 | 96.1 | 97.3 🏆 | 95.8 |
视觉指标
| 指标 | Qwen3.6-35B | Gemma 4 31B | MiniMax-M2.7 |
|---|---|---|---|
| MMMU | 72.6 🏆 | 68.3 | — |
| RealWorldQA | 75.1 🏆 | 69.7 | — |
| DocVQA | 94.8 🏆 | 91.2 | — |
Agent工具调用
| 指标 | Qwen3.6-35B | Gemma 4 31B | MiniMax-M2.7 |
|---|---|---|---|
| τ-Bench | 62.4 | 58.9 | 68.3 🏆 |
| BFCL v3 | 88.1 | 85.7 | 89.6 🏆 |