Skip to content

Gemma 4本地跑了3天,说几个真话 🧪

📌 来源: Data+AI每日技术速递(数据虾农) | 转载说明: 本文经整理排版后发布,版权归原作者所有

4月2日凌晨,谷歌发了四颗钻石 emoji,然后 Gemma 4 炸出来了。当天各大测评文章就开始刷屏。

但我一向对跑分没什么感觉——数据好看,不等于用起来爽。所以我没急着写,花了三天时间实际跑了一下,今天说几个真话

结论先放这:本地跑 AI 这件事,今天比一年前容易了很多。但门槛依然在,不是每个人都适合折腾。

Gemma 4


PART 01:这次 Gemma 4 到底发了什么

谷歌这次一口气发了四个版本,从手机到工作站全覆盖:

版本实际参数推荐硬件适合场景
31B Dense全量31BA100 80G / 2×RTX4090精细微调
26B MoE激活仅3.8BRTX 3090 / 4090单卡⭐ 推荐首选
E4B4.5B有效Jetson / 树莓派边缘设备
E2B2.3B有效Android手机离线端侧

我重点测的是 26B MoE——理由很简单:MoE 架构虽然总参数26B,但推理时只激活3.8B,显存需求和4B模型差不多,但跑出来的效果接近31B。这个效率比,真的有点不讲道理。

用 Ollama 一行命令拉下来,Q4_K_M 量化版本跑在 RTX 3090 上,显存占用约18GB,速度22-28 TPS,日常对话流畅,没有明显卡顿。


PART 02:跑了3天,说3个真话

🟢 真话一:代码能力真的够用了

我给它出了三道题:写一个 Python 数据清洗脚本、设计一个 Flink 流处理方案、解释 MoE 架构原理。

结果:前两题答案可以直接用,稍微改改就能跑。第三题原理讲得很清楚,用类比而不是堆术语。

官方数据也验证了这一点:31B 在 LiveCodeBench v6 上拿了 80%,Codeforces ELO 2150,AIME 2026 数学题达到 89.2%。

💡 AIME 2026 这个数字有多夸张: 上一代 Gemma 3 只有 20.8%,这代直接到 89.2%,涨了 4 倍多。不是渐进式提升,是跳跃。

🟡 真话二:中文回答比我预期好,但有个坑

Gemma 系列一直有个印象:英文好,中文一般。这次 Gemma 4 原生支持 140+ 种语言,官方也重点提了中文优化。

实测结果:中文流畅度明显提升,做技术问答、写文档摘要都没问题。但有一个坑——Prompt 格式必须按官方规范来,要用标准的模板标签,随意发消息容易出现奇怪的重复和幻觉。

Ollama 和 LM Studio 已经自动处理了这个问题,直接用工具跑没这个烦恼。但如果你想直接调 API,这个细节要注意。

🔴 真话三:和 Claude 的差距依然在,但变窄了

这是最多人想知道的。我做了同一套任务的对比:需求分析、代码生成、技术文档写作。

坦率说:Claude 在长文档理解和多轮推理上还是明显更强。Gemma 4 的弱项是:给的 context 越长,它越容易漂移,忘了前面说了什么。

但单次任务?短上下文对话?Gemma 4 已经追到了 Claude Sonnet 级别的体感,而且完全本地运行,零 API 费用,隐私数据不出机器。


🔧 原理说白了

为什么 MoE 版本推理速度那么快?

说白了就是:26B MoE 模型是"分工专家组"——26B参数分成了多个小专家,每次只叫3.8B出来干活,其他的在休息。干活的人少了,速度自然快。

而且实测这 3.8B 激活参数的质量很高,因为每个专家都被训练得很专精。在 RTX 3090 上,MoE 版本比 31B Dense 版本快 2.3 倍,但效果差距不到 5%。


PART 03:反直觉发现——架构没变,为什么性能飞了

这是我觉得 Gemma 4 最值得说的一个点。

AI 圈大神 Sebastian Raschka 拆解了 Gemma 4 的架构,结论是:架构几乎没变——还是 Pre/Post-norm + 混合注意力 + GQA,跟 Gemma 3 基本一样。

但性能直接翻倍。AIME 数学题从 20.8% → 89.2%,不是改架构搞的,大概率是训练数据和训练配方升级的结果。

💡 这意味着什么? 现在 AI 进步的核心变量,可能已经从"架构创新"转向了"数据质量和训练策略"。这对于大多数企业来说其实是好消息——不需要等架构革命,用好现有模型+优质数据,就能跑出很好的效果。

Gemma 4 vs Qwen3.5 对比

能力维度Gemma 4 31BQwen3.5 27B
数学/代码基准⚠️ 略低✅ 更强
多语言理解✅ 更强(140语言)中文优先
推理 Token 效率✅ 更少 Token略多
开源协议✅ Apache 2.0⚠️ 自定义协议
人类偏好评分Arena AI 第3差距不大

选哪个? 要商用无障碍、多语言场景强,选 Gemma 4;要数学/代码极致、中文更顺,选 Qwen3.5。两者都很强,没有绝对输赢。


PART 04:到底要不要折腾本地模型

这才是最想说的。

很多人看到 Gemma 4 发布,第一反应是:要不要换过去?其实这个问题背后有个更根本的问题:你为什么需要本地模型?

  • 有代码/数据隐私需求 → 本地模型值得配 → Gemma 4 MoE 是目前最好的选择之一
  • API 费用是主要痛点 → 算算账,本地显卡+电费 vs 每月 API 支出,算清楚再说
  • 只是想玩一下,没有明确需求 → 先用 Google AI Studio 的免费 API 接口,零门槛测

⚠️ 实用建议: 如果你没有现成的GPU,现在不需要买。先用 Google AI Studio 的 Gemma 4 免费额度玩熟,等一个月后看社区测评沉淀——真实生产环境踩过的坑、优化过的配置,比发布当天的评测靠谱得多。

✅ 如果你要上,这是最省事的路径

  • Mac 用户:MLX + TurboQuant,31B 在 128K 上下文下 KV 缓存只要 4.9GB(原来 13.3GB),M3 Max/M4 Pro 就够跑
  • Linux/Windows GPU:Ollama 拉 gemma4:26b,Q4_K_M 量化,18GB 显存搞定
  • 验证步骤别省:跑起来后先测你真实业务场景,别被基准跑分迷惑

实测数据


本期结论

Gemma 4 是开源模型真正够用的一代,MoE 版本尤其划算。但值不值得折腾,取决于你有没有明确的本地运行需求,而不是因为跑分好看就搞。

Apache 2.0 协议升级是最低调却最重要的改变——这才是对企业开发者真正友好的信号。


📢 原文作者: 数据虾农(Data+AI每日技术速递) | 欢迎关注原作者公众号

📌 更多教程请访问: AiTimes 智能时代

Released under the MIT License.