Skip to content

谷歌Gemma 4 12B震撼发布!全球下载破1.5亿,16G轻薄本封神

来源:微信公众号(新智元)| 原文链接:https://mp.weixin.qq.com/s/j-2LJluiZZ1hR_CqiebftA 版权归原作者所有,如有侵权请联系删除

新智元导读

就在今天,全球 AI 开发者的朋友圈和 X 被同一个名字刷屏了——Google DeepMind Gemma 4 12B。

所有人还在为千亿模型烧掉上千万美元算力时,谷歌突然转头,向消费级硬件市场投下一枚神器!

这个模型,完全抛弃了传统编码器,原生支持文本、图像和音频直接输入,能在 16GB 轻薄本上全离线运行,堪称"多模态六边形战士"。

DeepMind CEO Demis Hassabis 亲自下场发文庆功:Gemma 4 全系列的下载量已经正式突破 1.5 亿次!

Demis Hassabis 发文

这个让边缘 AI 狂飙、把显卡逼到极限的 Gemma 4 12B,到底有多恐怖?

单张 4090 实测,12B 模型竟成"轻薄本封神神器"

Gemma 4 12B 刚发布,著名评测机构 atomic.chat 就把它拉到单张 RTX 4090 显卡上,与 Gemma 4 26B-A4B 进行 PK。

这场测试,是极度变态的"纯手写单文件 HTML5 Canvas 复杂物理动效"。

要求极其苛刻:不依赖任何第三方库,完全靠 AI 的物理直觉和代码能力,凭空手搓出包含"高尔顿钉板"、"方块碰撞"以及混沌学经典的"三摆系统"。

atomic.chat 评测

测试结果,让人惊掉下巴。

前代模型 Gemma 4 26B-A4B 毫无悬念地展现了碾压级的统治力,速度狂飙到惊人的 138 tok/s,生成了 6.9k token 的代码。但代价是,它吃掉了 15GB 的显存。

这次的新模型 Gemma 4 12B,虽然在这场终极极客对决中以 80 token/s 的速度(生成 8.9k token)惜败于老大哥,但它直接全线通关了所有物理测试场景。

Gemma 4 12B vs 26B

最可怕的数据在于:Gemma 4 12B 完成这一切,仅仅只占用了 9GB 的显存!

要知道,二者整整差了 140 亿的参数。Gemma 4 12B 用不到前代模型一半的体量,几乎打出了同等质量的战绩。

atomic.chat 这样评价:"同样的 Gemma 4 家族,26B 跑得快赢了所有场景,但 12B 紧追其后。在只需要 9GB 显存的情况下,12B 绝对是 16GB 内存笔记本用户的本地部署完美神机!"

高尔顿钉板测试

以前,如果要跑这种级别的多模态物理代码推理,要么忍受云端 API 的延迟和计费,要么得买昂贵的双路工作站。

现在,你只需要一台普通的 MacBook 或者搭载消费级显卡的游戏本,就可以让 AI 离线为你写出一个物理引擎!

颠覆常理的黑科技——"无编码器"大一统架构

为什么一个 12B 的中量级模型,能爆发出如此惊人的多模态理解力?

核心秘密在于谷歌 DeepMind 这次引入的颠覆性设计:无编码器统一架构。

无编码器架构

在过去,所有的多模态大模型,本质上是一个"缝合怪"。看图或者听声音时,必须请两个"翻译官"。首先,视觉编码器把图片像素翻译成向量。然后是音频编码器,把声音波形翻译成向量,然后再喂给 LLM 的大脑。

而 Gemma 4 12B 告诉你:"我全都要,而且我直接吃原数据!"

主导这项研究的 DeepMind 科学家 Michael Tschannen 在 X 上激动分享:"过去几年我的研究重点就是统一跨模态的模型和训练范式。今天我们发布了 Gemma 4 12B,一个高密度的无编码器模型,它直接处理原始文本、图像和音频输入!"

视觉直接注入

谷歌残忍地"砍掉"了原本包含 27 层的视觉 Transformer。取而代之的,是一个仅仅 35M 的超轻量级嵌入模块。

视觉注入架构

原始的 48x48 像素块进来,只需经过一次简单的矩阵乘法,加上分解坐标查找,视觉信息就像文本 Token 一样,直接流进了 LLM 的骨干网络中。

原生音频直通

原先在 Gemma 4 E2B 里用到的 12 层 Conformer 音频编码器被彻底拔掉。

音频直通

原始的 16kHz 语音信号进来,被切成 40 毫秒的片段(每个片段 640 个浮点数),然后通过线性投影,直接塞进和文本 Token 完全相同的维度空间里。

这种"大一统",首先就实现了极速响应。没有了中间商赚差价,端到端的延迟大幅降低。

Gemma 4 12B 使用 Google AI Edge Eloquent 应用完全离线转录、格式化和翻译语音输入。

语音转录

其次,还实现了无缝微调。因为视觉、音频和文本共享同一套权重,开发者在使用 Hugging Face 或 Unsloth 进行 LoRA 微调时,只需要一次前向传递,就能同时更新所有的多模态循环。

Michael Tschannen 骄傲地表示:"尽管抛弃了编码器,12B 依然稳稳地坐在了 Gemma 4 家族的帕累托前沿上。它不仅能看能听,在纯文本和 Agent 任务上的表现,更是远超那些只专注视觉-语言的开源模型。"

真正属于普通人的 AI 时代——16GB 显存的狂欢

"Apache 2.0 协议 + 能在 16GB 显卡上运行,这才是真正的亮点!"知名 AI 安全与量化博主 Oussema 一针见血地指出。

显存需求对比

Gemma 4 12B 的设计初衷,就是将高性能的多模态智能直接带到你的笔记本电脑上。

16GB VRAM(显存)或统一内存意味着什么?意味着目前市面上主流的 MacBook Pro(M1/M2/M3 Pro 16GB 及以上版本),以及搭载了 RTX 4060 Ti / 4070 / 4080 的 Windows 游戏本和开发机,统统可以毫无压力地将其纳入麾下!

Mac 实测

为了让本地部署爽到极致,谷歌这次连"周边配套"都做到了令人发指的完善:

  1. 自带"草稿箱"加速:模型内置了多 Token 预测机制,能极大地降低本地生成的延迟。
  2. 全面适配桌面端:谷歌不仅开源了模型,还把原本属于移动端的 Google AI Edge Gallery 官方移植到了桌面 macOS 平台!
  3. 甚至带沙盒环境:在 Mac 本地应用中,你甚至可以直接在聊天气泡里执行 Python 代码并绘制科学图表,完全在一个安全的沙盒环境中进行,全程断网,无惧隐私泄露!

沙盒环境

正如网友 Blissy 激动地留言:"终于有一个我不需要卖肾就能跑得起的模型了!在笔记本上跑原生多模态,这才是真正的炫技。"

Agentic 智能体杀手:用魔法打败魔法的实战案例

在谷歌官方提供的《开发者指南》中,12B 展现出了惊人的 Agentic 能力。

它不仅能回答你的问题,还能自己规划步骤、使用工具、写代码并执行任务。

案例一:AI 的"俄罗斯套娃"——自己写代码调用自己

Gemma 4 12B 直接手敲出了完整的 Python 和 Gradio 代码,构建出了一个带有图形界面的图像处理工具。而更绝的是,这个工具背后的图像分析核心引擎,依然是调用本地的 Gemma 4 12B 自己!

图像处理工具

用 Gemma 写一个套壳应用来运行 Gemma,这就是未来的开发常态。

案例二:一帧一帧啃视频——精准识别"隐喻"

团队将一段长达 5 分钟的 Google I/O 大会演讲视频(1313 帧画面,每秒 1 帧,加上现场的原始音频)喂给了 Gemma 4 12B。

面对这长达 5 分钟的海量多模态数据,12B 模型不仅完美消化了 256K 的上下文,更给出了堪称"人类专家级"的洞察:它 get 到了人类演讲中的视觉隐喻!

视频理解

这种深度的视频理解能力,过去只有顶级闭源模型上才具备。

1.5 亿次下载背后的开源信仰与生态狂欢

1.5 亿次下载是什么概念?

这 1.5 亿次包含了自动化构建、全球服务器的部署、以及超 7 万个衍生微调版本的诞生。

这证明了,Gemma 4 已经成为了像 Linux 操作系统一样的新基建!

1.5亿下载

而 Apache 2.0 开源协议的加持,更是为商业化落地彻底扫清了障碍。你可以随意修改、微调、甚至把它打包进你的商业软件里去卖钱,不需要向谷歌交一分钱版权费。

在这个生态中,无数人的命运正在被改变。

开发者反馈

建筑行业的开发者 Steven Tibbs 构建了一个 PDF 编辑器,称赞说边缘 AI 就是我们这个行业的未来。

独立开发者 Balu0X 感慨:"Gemma 让人印象最深的,是它真的太容易运行、微调和发布了,完全不需要昂贵的硬件。"

科技评论员 Tech News 更是直言:"Apache 2.0 协议的本地推理,才是真正诞生商业应用的地方。"

而且,谷歌已经为你铺平了所有的路。

部署工具

今天,你只需要点开 LM Studio、Ollama,或者使用 llama.cpp、MLX、vLLM,就能用几条命令行,在自己的电脑上使用 Gemma 4 12B 了。

命令行部署

边缘 AI 的黎明,刚刚破晓

Gemma 4 12B 的发布,就像是普罗米修斯将火种带到了人间。

边缘AI黎明

它不再是被锁在云端机房里、按次计费的奢侈品;它是你笔记本里那个永远不会断网、永远保护你隐私、永远不知疲倦的数字搭档。

多模态能力展示

当 AI 从云端降落到每个人的书桌上,一场属于超级个体和 Agent 开发的超级大爆炸,才刚刚开始。

参考资料


本文版权归原作者所有,转载目的在于传递更多信息,如有侵权请联系删除。