Skip to content

来源微信公众号「你好瓦力」 | 飞书文档

Qwen3.6 vs Gemma 4 vs MiniMax-M2.7:跑分、实测、选型一文说清

一分钟结论

  • 本地玩、4090 党 → Qwen3.6-35B-A3B(3B 激活,262K 上下文,带视觉)
  • 企业接 API、求稳 → Gemma 4 31B(跑分稳,生态大,Google 背书)
  • 长链 Agent、公司服务器 → MiniMax-M2.7(229B 真壮,但许可证请法务先过)

一、三位选手登场

Qwen3.6-35B-A3B(阿里)

  • 总参数/激活:35B / 3B(MoE)
  • 专家配置:256 个专家(8 routed + 1 shared)
  • 上下文:262K(YaRN 可扩 1M)
  • 模态:文本 + 图像 + 视频
  • 许可证:Apache 2.0
  • 一句话:最瘦最敏捷。3B 激活意味着在单张 4090 上都能跑出 100+ tokens/s

Gemma 4 全家桶(Google)

  • Gemma 4 E2B:2B Dense,128K 上下文
  • Gemma 4 E4B:4B Dense,128K 上下文
  • Gemma 4 26B-A4B:25.2B/3.8B MoE(128 专家),128K 上下文
  • Gemma 4 31B:30.7B Dense,256K 上下文
  • 许可证:Gemma Community License(类 Apache,但有细则限制)
  • 一句话:Google 亲爹背书 + 跑分狂魔。HuggingFace 一周下载 400 万

MiniMax-M2.7(MiniMax)

  • 总参数:229B(MoE,体型最大)
  • 精度:原生 FP8 (E4M3)
  • 模态:仅文本(没视觉)
  • 上下文:192K
  • 许可证:"Other"(社区争议中,商用需书面批准)
  • 一句话:肌肉最壮。但 229B 对应的是 A100/H100 门槛

二、跑分横评

一句话总结:三家各有偏科:编程 Agent 看 MiniMax,数学推理看 Gemma 4,视觉和性价比看 Qwen3.6。没有"一家通杀"。

三、Vibe Check 五连测

#1 鹈鹕骑自行车(SVG)

  • Qwen3.6:有翅膀有喙,双轮+三角车架,比例正确 ⭐⭐⭐⭐
  • Gemma 4:鹈鹕画成"鸭子",但车架完整 ⭐⭐⭐
  • MiniMax:矩形+三角形的抽象艺术,单轮 ⭐⭐

#2 一句话贪吃蛇(Python + pygame)

  • MiniMax:一次跑通,3/3 需求全满足,额外加了速度递增彩蛋
  • Qwen3.6:一次跑通,3/3 需求,最简洁、注释最完整
  • Gemma 4:缺 import,R 键失效,改两行才能运行

#3 长上下文"针在干草堆"

50 万字《三体》中文版,在 70% 位置藏一句话。

  • Qwen3.6:130K/192K/256K 全部命中,262K 是真的 262K
  • MiniMax:130K 通过,192K 答错
  • Gemma 4:130K 通过,192K/256K 中段"失忆"

长文本 prefill 延迟(130K,单张 H100):

  • Qwen3.6:6.2s prefill,88 tok/s decode
  • Gemma 4:11.4s prefill,42 tok/s decode
  • MiniMax:18.7s prefill,35 tok/s decode

3B 激活 + DeltaNet 混合架构,长文本比竞品快 2-3 倍,电费直接腰斩。

#4 中文"弱智吧"灵魂拷问

"为什么我爸妈结婚的时候没邀请我?"

  • Qwen3.6:会玩梗、有逻辑、埋了"立项"的程序员双关
  • Gemma 4:正确但无聊,像维基百科在朗读
  • MiniMax:翻译腔严重,读着像英文模型硬翻中文

中文场景闭眼选 Qwen3.6。

#5 视觉理解:便利店小票 OCR

中英日混排便利店小票,含模糊水渍、折角:

  • Qwen3.6:11/12 商品识别,12/12 价格识别,标准 JSON
  • Gemma 4:9/12 商品识别,11/12 价格识别
  • MiniMax:不支持视觉,弃赛

四、翻车与高光

翻车:MiniMax 的"开源"

LICENSE 文件写着"Commercial use requires written approval from MiniMax"——这叫 source-available,不叫 open-source。企业用户务必让法务过一遍。

翻车:Gemma 4 的多语言

中文、日文生成质量明显落后 Qwen3.6,长文本偶尔突然冒英文。

高光:Qwen3.6 的视觉

单张 4090 + 4-bit 量化就能跑 35B-A3B 视觉版本,图像描述延迟 < 2 秒。开源界第一次让"多模态本地化"真的可用。

高光:MiniMax 的工程力

229B FP8 直接开箱,vLLM 0.7+ 原生支持,无需后量化。

高光:Gemma 4 的分发

HuggingFace 一周下载量 400 万,超过 Qwen3.6 和 MiniMax 之和。

五、选型指南

  • 个人/单卡 4090 本地跑 → Qwen3.6-35B-A3B(4-bit GGUF),3B 激活、带视觉、Apache 2.0
  • SaaS 接 API,要稳、数学任务多 → Gemma 4 31B,跑分最稳、生态最大
  • 工程级 Agent/长链 Coding → MiniMax-M2.7(前提:法务过了许可证)
  • 中文/日韩多语言场景 → Qwen3.6 闭眼选
  • 学术研究、跑 benchmark 发论文 → Gemma 4,数据干净、行为稳定

六、一句话总结

  • Qwen3.6 — 体感冠军
  • Gemma 4 — 数据冠军
  • MiniMax-M2.7 — 规模冠军

跑分是发给别人看的,跑通业务才是自己赚的。

跑分详细数据

编程指标

指标Qwen3.6-35BGemma 4 31BMiniMax-M2.7
SWE-Bench Verified69.265.771.5 🏆
Terminal-Bench 2.043.841.148.6 🏆
LiveCodeBench v678.4 🏆75.976.2

推理与数学

指标Qwen3.6-35BGemma 4 31BMiniMax-M2.7
AIME 202685.388.7 🏆84.1
GPQA Diamond72.475.8 🏆71.0
MATH-50096.197.3 🏆95.8

视觉指标

指标Qwen3.6-35BGemma 4 31BMiniMax-M2.7
MMMU72.6 🏆68.3
RealWorldQA75.1 🏆69.7
DocVQA94.8 🏆91.2

Agent工具调用

指标Qwen3.6-35BGemma 4 31BMiniMax-M2.7
τ-Bench62.458.968.3 🏆
BFCL v388.185.789.6 🏆