谷歌Gemma 4 12B震撼发布！全球下载破1.5亿，16G轻薄本封神

来源：微信公众号（新智元）| 原文链接：https://mp.weixin.qq.com/s/j-2LJluiZZ1hR_CqiebftA 版权归原作者所有，如有侵权请联系删除

新智元导读

就在今天，全球 AI 开发者的朋友圈和 X 被同一个名字刷屏了——Google DeepMind Gemma 4 12B。

所有人还在为千亿模型烧掉上千万美元算力时，谷歌突然转头，向消费级硬件市场投下一枚神器！

这个模型，完全抛弃了传统编码器，原生支持文本、图像和音频直接输入，能在 16GB 轻薄本上全离线运行，堪称"多模态六边形战士"。

DeepMind CEO Demis Hassabis 亲自下场发文庆功：Gemma 4 全系列的下载量已经正式突破 1.5 亿次！

Demis Hassabis 发文

这个让边缘 AI 狂飙、把显卡逼到极限的 Gemma 4 12B，到底有多恐怖？

单张 4090 实测，12B 模型竟成"轻薄本封神神器"

Gemma 4 12B 刚发布，著名评测机构 atomic.chat 就把它拉到单张 RTX 4090 显卡上，与 Gemma 4 26B-A4B 进行 PK。

这场测试，是极度变态的"纯手写单文件 HTML5 Canvas 复杂物理动效"。

要求极其苛刻：不依赖任何第三方库，完全靠 AI 的物理直觉和代码能力，凭空手搓出包含"高尔顿钉板"、"方块碰撞"以及混沌学经典的"三摆系统"。

atomic.chat 评测

测试结果，让人惊掉下巴。

前代模型 Gemma 4 26B-A4B 毫无悬念地展现了碾压级的统治力，速度狂飙到惊人的 138 tok/s，生成了 6.9k token 的代码。但代价是，它吃掉了 15GB 的显存。

这次的新模型 Gemma 4 12B，虽然在这场终极极客对决中以 80 token/s 的速度（生成 8.9k token）惜败于老大哥，但它直接全线通关了所有物理测试场景。

Gemma 4 12B vs 26B

最可怕的数据在于：Gemma 4 12B 完成这一切，仅仅只占用了 9GB 的显存！

要知道，二者整整差了 140 亿的参数。Gemma 4 12B 用不到前代模型一半的体量，几乎打出了同等质量的战绩。

atomic.chat 这样评价："同样的 Gemma 4 家族，26B 跑得快赢了所有场景，但 12B 紧追其后。在只需要 9GB 显存的情况下，12B 绝对是 16GB 内存笔记本用户的本地部署完美神机！"

高尔顿钉板测试

以前，如果要跑这种级别的多模态物理代码推理，要么忍受云端 API 的延迟和计费，要么得买昂贵的双路工作站。

现在，你只需要一台普通的 MacBook 或者搭载消费级显卡的游戏本，就可以让 AI 离线为你写出一个物理引擎！

颠覆常理的黑科技——"无编码器"大一统架构

为什么一个 12B 的中量级模型，能爆发出如此惊人的多模态理解力？

核心秘密在于谷歌 DeepMind 这次引入的颠覆性设计：无编码器统一架构。

无编码器架构

在过去，所有的多模态大模型，本质上是一个"缝合怪"。看图或者听声音时，必须请两个"翻译官"。首先，视觉编码器把图片像素翻译成向量。然后是音频编码器，把声音波形翻译成向量，然后再喂给 LLM 的大脑。

而 Gemma 4 12B 告诉你："我全都要，而且我直接吃原数据！"

主导这项研究的 DeepMind 科学家 Michael Tschannen 在 X 上激动分享："过去几年我的研究重点就是统一跨模态的模型和训练范式。今天我们发布了 Gemma 4 12B，一个高密度的无编码器模型，它直接处理原始文本、图像和音频输入！"

视觉直接注入

谷歌残忍地"砍掉"了原本包含 27 层的视觉 Transformer。取而代之的，是一个仅仅 35M 的超轻量级嵌入模块。

视觉注入架构

原始的 48x48 像素块进来，只需经过一次简单的矩阵乘法，加上分解坐标查找，视觉信息就像文本 Token 一样，直接流进了 LLM 的骨干网络中。

原生音频直通

原先在 Gemma 4 E2B 里用到的 12 层 Conformer 音频编码器被彻底拔掉。

音频直通

原始的 16kHz 语音信号进来，被切成 40 毫秒的片段（每个片段 640 个浮点数），然后通过线性投影，直接塞进和文本 Token 完全相同的维度空间里。

这种"大一统"，首先就实现了极速响应。没有了中间商赚差价，端到端的延迟大幅降低。

Gemma 4 12B 使用 Google AI Edge Eloquent 应用完全离线转录、格式化和翻译语音输入。

语音转录

其次，还实现了无缝微调。因为视觉、音频和文本共享同一套权重，开发者在使用 Hugging Face 或 Unsloth 进行 LoRA 微调时，只需要一次前向传递，就能同时更新所有的多模态循环。

Michael Tschannen 骄傲地表示："尽管抛弃了编码器，12B 依然稳稳地坐在了 Gemma 4 家族的帕累托前沿上。它不仅能看能听，在纯文本和 Agent 任务上的表现，更是远超那些只专注视觉-语言的开源模型。"

真正属于普通人的 AI 时代——16GB 显存的狂欢

"Apache 2.0 协议 + 能在 16GB 显卡上运行，这才是真正的亮点！"知名 AI 安全与量化博主 Oussema 一针见血地指出。

显存需求对比

Gemma 4 12B 的设计初衷，就是将高性能的多模态智能直接带到你的笔记本电脑上。

16GB VRAM（显存）或统一内存意味着什么？意味着目前市面上主流的 MacBook Pro（M1/M2/M3 Pro 16GB 及以上版本），以及搭载了 RTX 4060 Ti / 4070 / 4080 的 Windows 游戏本和开发机，统统可以毫无压力地将其纳入麾下！

Mac 实测

为了让本地部署爽到极致，谷歌这次连"周边配套"都做到了令人发指的完善：

自带"草稿箱"加速：模型内置了多 Token 预测机制，能极大地降低本地生成的延迟。
全面适配桌面端：谷歌不仅开源了模型，还把原本属于移动端的 Google AI Edge Gallery 官方移植到了桌面 macOS 平台！
甚至带沙盒环境：在 Mac 本地应用中，你甚至可以直接在聊天气泡里执行 Python 代码并绘制科学图表，完全在一个安全的沙盒环境中进行，全程断网，无惧隐私泄露！

沙盒环境

正如网友 Blissy 激动地留言："终于有一个我不需要卖肾就能跑得起的模型了！在笔记本上跑原生多模态，这才是真正的炫技。"

Agentic 智能体杀手：用魔法打败魔法的实战案例

在谷歌官方提供的《开发者指南》中，12B 展现出了惊人的 Agentic 能力。

它不仅能回答你的问题，还能自己规划步骤、使用工具、写代码并执行任务。

案例一：AI 的"俄罗斯套娃"——自己写代码调用自己

Gemma 4 12B 直接手敲出了完整的 Python 和 Gradio 代码，构建出了一个带有图形界面的图像处理工具。而更绝的是，这个工具背后的图像分析核心引擎，依然是调用本地的 Gemma 4 12B 自己！

图像处理工具

用 Gemma 写一个套壳应用来运行 Gemma，这就是未来的开发常态。

案例二：一帧一帧啃视频——精准识别"隐喻"

团队将一段长达 5 分钟的 Google I/O 大会演讲视频（1313 帧画面，每秒 1 帧，加上现场的原始音频）喂给了 Gemma 4 12B。

面对这长达 5 分钟的海量多模态数据，12B 模型不仅完美消化了 256K 的上下文，更给出了堪称"人类专家级"的洞察：它 get 到了人类演讲中的视觉隐喻！

视频理解

这种深度的视频理解能力，过去只有顶级闭源模型上才具备。

1.5 亿次下载背后的开源信仰与生态狂欢

1.5 亿次下载是什么概念？

这 1.5 亿次包含了自动化构建、全球服务器的部署、以及超 7 万个衍生微调版本的诞生。

这证明了，Gemma 4 已经成为了像 Linux 操作系统一样的新基建！

1.5亿下载

而 Apache 2.0 开源协议的加持，更是为商业化落地彻底扫清了障碍。你可以随意修改、微调、甚至把它打包进你的商业软件里去卖钱，不需要向谷歌交一分钱版权费。

在这个生态中，无数人的命运正在被改变。

开发者反馈

建筑行业的开发者 Steven Tibbs 构建了一个 PDF 编辑器，称赞说边缘 AI 就是我们这个行业的未来。

独立开发者 Balu0X 感慨："Gemma 让人印象最深的，是它真的太容易运行、微调和发布了，完全不需要昂贵的硬件。"

科技评论员 Tech News 更是直言："Apache 2.0 协议的本地推理，才是真正诞生商业应用的地方。"

而且，谷歌已经为你铺平了所有的路。

部署工具

今天，你只需要点开 LM Studio、Ollama，或者使用 llama.cpp、MLX、vLLM，就能用几条命令行，在自己的电脑上使用 Gemma 4 12B 了。

命令行部署

边缘 AI 的黎明，刚刚破晓

Gemma 4 12B 的发布，就像是普罗米修斯将火种带到了人间。

边缘AI黎明

它不再是被锁在云端机房里、按次计费的奢侈品；它是你笔记本里那个永远不会断网、永远保护你隐私、永远不知疲倦的数字搭档。

多模态能力展示

当 AI 从云端降落到每个人的书桌上，一场属于超级个体和 Agent 开发的超级大爆炸，才刚刚开始。

参考资料

原文来源：微信公众号（新智元）
原文链接：https://mp.weixin.qq.com/s/j-2LJluiZZ1hR_CqiebftA

本文版权归原作者所有，转载目的在于传递更多信息，如有侵权请联系删除。

谷歌Gemma 4 12B震撼发布！全球下载破1.5亿，16G轻薄本封神 ​

单张 4090 实测，12B 模型竟成"轻薄本封神神器" ​

颠覆常理的黑科技——"无编码器"大一统架构 ​

视觉直接注入 ​

原生音频直通 ​

真正属于普通人的 AI 时代——16GB 显存的狂欢 ​

Agentic 智能体杀手：用魔法打败魔法的实战案例 ​

案例一：AI 的"俄罗斯套娃"——自己写代码调用自己 ​

案例二：一帧一帧啃视频——精准识别"隐喻" ​

1.5 亿次下载背后的开源信仰与生态狂欢 ​

边缘 AI 的黎明，刚刚破晓 ​

参考资料 ​