Skip to content

原文链接:https://mp.weixin.qq.com/s/fCO-LB_ruOHU9TaPcTFJ8Q

作者:喵叔

发布时间:2026-05-16 20:40

阿里开源了个怪物:27B的模型打爆397B,还有人把它优化到184 token/秒

昨天半夜刷 B 站,看到一个标题,我直接从椅子上弹了起来。

有人把 Qwen3.6-27B 的生成速度,从默认的 20 tokens/秒怼到了184 tokens/秒

9 倍。没看错, 9 倍。

我第一反应是"标题党又来了",结果点进去一看,人家 repo 里测试报告、数据、配置文件全在,明明白白。不是嘴炮,是真把活儿干完了。

更离谱的是这个模型本身——27B 参数的稠密模型,在我最关心的代码智能体能力上,全面超越了阿里自家 397B 参数的 MoE 旗舰

等于说,你花了 1/15 的钱,买到了更强的效果。然后还有人跳出来说,我还能让你跑得更快。

这种好事在 AI 圈不常见。一般规律是,便宜没好货。但这回像是天上掉馅饼。

先别急着动手,看看这模型到底多能打

4 月 22 号,阿里把 Qwen3.6-27B 开源了。很多人第一反应是:又一个大模型,有啥特别的?

首先,它不是那种"又大又慢"的 MoE (混合专家)模型,而是稠密模型( Dense )。什么意思?就是你不需要操心什么路由、负载均衡这些破事,装上去直接用。 27B 参数, Apache-2.0 协议,谁都能用,谁都能改。

原生支持 26 万 token 上下文,大概能一口气吃完大半本《三体》。

来看看这玩意儿在各个评测里的表现:

SWE-bench Verified 拿了77.2, Terminal-Bench 2.0 拿了59.3,直接打平 Claude 4.5 Opus 。 Claw-Eval Pass³更是超过了 Opus——这个测试特别狠,考的是同一件事连续三次都做对。不是碰运气蒙对一次,是真稳定。

AIME 2026 数学竞赛拿了 94.1 , GPQA Diamond 博士级科学推理拿了 87.8 。

你知道这些分数意味着什么吗?打个比方说,你请了个实习生,工资是正式员工的十五分之一,结果他干出来的活比老员工还好,还稳定——你让老员工怎么想?

我有个朋友是做外包开发的,他看了这数据跟我说:"这不就是我自己吗,拿一个人的工资干三个人的活。"我说你格局小了,人家是拿十五分之一的资源干翻旗舰。

当然,它的强项不在聊天,在代码智能体。官方自己都说了,这个模型就是为 Agent 场景设计的。你让它打开终端、理解需求、敲命令、执行、检查结果——它能一步一步搞完,不用人在旁边看着。

还支持看图、看视频、看文档。 RTX 4090 做视觉推理的时候,显卡直接吃到 96-97%的利用率,风扇开始起飞。

但是默认速度是真的慢

好,强是真强,没得黑。但你用过本地大模型就知道,有个天花板绕不过去。

默认情况下, Qwen3.6-27B 在本地推理速度大概只有20 tokens/秒

什么概念?你打字问它一个问题,它吭哧吭哧开始"想",你盯着光标一闪一闪,一个字一个字往外蹦。你说慢吧,也不算特别慢——但跟 ChatGPT 那种你还没打完字它就开始回答的体验比,差距确实明显。

我用 LM Studio 加载 Q4_K_M 量化版测过, 17-22t/s 之间晃。刷一屏文本,等个三四秒。用着用着就会不由自主地说:"你倒是快点儿啊。"

但 B 站 UP 主"小天 fotos"(做实战型 AI 内容的那位)愣是把这个数字怼到了 184t/s 。注意,不是换了张更贵的显卡,不是说"你买张 5090 就行了"。他还是用消费级显卡,纯靠优化方案拿到的。

而且他的方案不是单一技巧,是四管齐下的组合拳。有点像做饭,不是只换个好锅就行的——要选对食材、火候、调料、工序,哪步都不能省。

当时我有个在公司做数据分析的朋友问我:"这玩意儿我又不是程序员,跟我有关系吗?"

我说你听我讲完,就知道跟你有没有关系了。你看完这个优化方案,哪怕自己不装,也能明白为什么最近大家都在说"本地 AI 要翻身了"。

第一拳:投机解码 + MTP ,这是核心里的核心

先讲个最简单的道理。

大模型生成文字的时候,是一个字一个字往外蹦的。好比你在打字,打完一个字才能打下一个字——不能提前把后面五个字一起打出来。

所以每次生成都要等前一次算完, GPU 就在那闲着。你想让它快,但它在等你。

浪费不浪费?太浪费了。

投机解码的解决思路很聪明:先让一个又快又小的"草稿模型"快速猜后面几个字,然后让主模型一次性验证这些猜测对不对

想象一下,你在写 PPT 。你先让实习生(草稿模型)快速写个初稿,然后你(大模型)一次性审完批注——是不是比你自己一个字一个字地写快多了?

如果实习生猜对了 5 个字,那相当于你一次就完成了 5 个字的工作量,速度直接翻 5 倍。

更妙的是, Qwen3.6-27B 有个天生的本事——它原生支持MTP (多 Token 预测)。这个模型在训练的时候,就被教会了一次性预测多个 token 。换句话说,它自己就能当"猜词冠军",不需要再去外面找一个草稿模型。

这就好比你的实习生不是从街上随便拉来的,而是提前培训过的,一上来就能干活。

有个搞运维的朋友跟我说:"你说的这个投机解码,不就是我们用的缓存策略吗?把可能用到的数据先加载进来,用的时候直接拿。"

我说对,原理差不多,都是"猜到了就赚"。

关键参数: 投机草稿长度( draft length ),一般设 5-10 个 token 。不是越长越好——设太短收益不够,设太长如果猜错了反而浪费。好比实习生写 10 页 PPT ,结果你一看,前三页还行,后七页全错了——还不如他自己写呢。

第二拳: FP8 量化,把模型"瘦身"

20t/s 的问题不完全在计算慢,更多卡在显存带宽上。

打个比方,你有个特别厉害的厨师,但厨房在五楼,食材在一楼。每次做饭,厨师都得下楼取一趟——大部分时间花在了"取东西"上,而不是"做菜"上。

模型权重在显存里,每次推理都要把权重从显存搬到计算单元。这个"搬东西"的速度,决定了你能跑多快。

FP8 量化就是把食材的体积减半。把模型权重从 FP16 ( 16 位浮点)压缩到 FP8 ( 8 位浮点),体积直接减半。搬运量少了一半,自然快很多。

而且 RTX 40 系显卡有专门的 FP8 计算单元,跑 FP8 比 FP16 快得多,相当于这个厨师不仅食材少了一半、路近了一半,而且他的新厨房有传送带,不用自己跑上跑下了。

你问我这个跟普通人有啥关系?有啊。你用的 AI 软件,背后运行的就是这些模型。 你今天刷到一个 AI 生成的小红书笔记,明天收到 AI 写的产品介绍文案,后天用 AI 生成视频字幕——背后都是这些技术在支撑。

模型跑得越快,你能用到的 AI 产品就越多、越便宜

我在一家电商公司做运营的朋友跟我说:"你这么说我就懂了。就像以前发快递三天到,现在当天到——价格还一样。"

我说对,就是这个道理。

官方已经提供了 Qwen3.6-27B-FP8 的量化版,直接从 Hugging Face 下载就能用。不是让你自己去量化的,直接拿来用就行。

第三拳: DFlash + DDTree ,给投机解码装上涡轮增压

这两个技术名听着唬人,但其实逻辑不复杂。

标准的 Flash Attention 已经能大幅减少显存读写,好比把厨房从五楼搬到了一楼,不用上下跑了。 DFlash 在此基础上更进一步,专门优化了"草稿-验证"阶段的注意力计算效率。

至于 DDTree ( Draft Decoding Tree ),这个就更有意思了——它不满足于只猜一条路,而是同时猜好几条路,再从中挑最好的

你写邮件给客户,可能有三四个开头方式。 DDTree 的做法就是:先把这几个可能性都写出来,然后挑一个最合适的。而不是一个个试过去。

有次我让 AI 帮我润色一段产品介绍,它改完我觉得还行,但总觉得有更好的版本。如果用的是 DDTree 思想,它应该给我几个版本让我挑——而不是给我一个"最可能正确"的。

不过这两项优化有个前提:只有在你用了投机解码时才生效。 如果你还在用传统方式跑模型,这些优化就跟你没关系。就像你买了辆跑车,却一直开着普通模式,那些"赛道模式""弹射起步"的功能全部浪费了。

第四拳:换掉 Ollama ,用 vLLM

这是最实在的一条——把推理框架换掉

Ollama 确实容易上手,装完就能用,对小白极其友好。但友好是有代价的——Ollama 的性能优化深度不够。

UP 主用的是vLLM,这叫真正的工业级推理框架。支持连续批处理、 PagedAttention 、 Flash Attention 这些高级功能。

"连续批处理"什么意思?好比你在便利店排队,传统的方式是一人结完账再叫下一个。 vLLM 的做法是,你还在掏钱包的时候,下一个人已经把东西放柜台上了。两个人同时处理,谁都不耽误。

对普通用户来说,这最直接的影响就是:你用一个本地 AI 服务的时候,不会因为有多个人在用就卡成狗。 团队里三四个人同时用,每个人体验都不错。

我记得两年前我试过本地部署一个模型做会议纪要,结果一个同事问了个问题,我这边直接卡了 20 秒才继续输出。当时的感受就是:算了,还是用云端吧,贵就贵点。但现在不一样了。

实操:想复现 184t/s ,该怎么做

好,理论讲完了,说点能动手的。我知道很多人看文章就是想知道"我该怎么做"。

如果你有 RTX 4090 (或者 4070 以上),操作步骤大概是这样的——我尽量往简单了说:

第一步,下载模型

去 Hugging Face 搜 Qwen/Qwen3.6-27B-FP8,下载下来。大概 15GB 。你可以一边下载一边去干别的,反正现在的宽带下 15G 也就十几分钟。

第二步,装 vLLM

打开终端,敲一行:

pip install vllm

装完之后,启动服务:

python -m vllm.entrypoints.openai.api_server \   --model Qwen3.6-27B-FP8 \   --enable-flash-attention \   --max-model-len 65536

第三步,开启投机解码

加上关键参数:

--speculative-model Qwen/Qwen3.6-27B \ --num-speculative-tokens 5 \ --enable-mtp

草稿长度先从 5 开始试,然后用测速工具看实际效果。如果发现经常猜错,就减小到 3 或 4 ;如果猜得挺准,就试着加到 7 或 8 。

第四步,测速

python benchmarks/benchmark_latency.py \   --model Qwen3.6-27B-FP8 \   --input-len 512 --output-len 256 \   --batch-size 1

一般来说,到了这一步速度已经能到 100+t/s 了。 DDTree 和 DFlash 的进一步优化,可以去 UP 主的 repo 里找对应配置。

从 20 到 184 ,核心就这四步。谁都能照着做,不需要是 AI 专家

但我有个朋友看完这个操作步骤问我:"你说的这些我懂了,但我日常又不写代码,我拿来干嘛?"

我说你听我说完下面这些就明白了。

这些东西对普通人到底有什么用

所以我花了点时间,认真想了想:一个普通上班族,没写过一行代码, Qwen3.6-27B 跑出 184t/s——关他什么事?

答案是:短期来看,不直接相关。但半年之内,你一定会感受到它带来的变化

举个例子:你现在打开任何一个免费的 AI 写作工具、 AI 翻译工具、 AI 配图工具——背后的模型大概率跑在云端。每次你用,厂家都要付给云服务商钱。

如果 Qwen3.6-27B 这种级别的模型,能在本地显卡上跑出接近云端的体验——那意味着什么?

意味着你常用的这些 AI 工具,可以更便宜、更快、更隐私

拿翻译来说。你每天要看英文资料、写英文邮件,每次都把内容贴到网页翻译里。如果你的本地 AI 跑得够快、够好,翻译直接在本地完成——不传数据到云端,不担心机密泄露。你今天在公司写的那份方案,明天给客户看的那个报价单,这些敏感信息不需要经过任何第三方服务器

我有个朋友是做法律翻译的,他说他们公司明文禁止用在线翻译工具处理合同——因为数据必须保密。但不用 AI 翻译,效率低得让人崩溃。如果能在本地部署一个顶配模型,这个问题就全解决了。

再比如,你是个设计师或者做新媒体运营的,经常要批量出图、写文案、改稿。以前 AI 帮你干活要等,现在本地跑起来跟云端几乎没区别,而且不需要担心你的素材被别人拿去训练了。

还有一个你可能没想过的事:断网。 下次出差坐高铁,隧道里信号不好。或者去客户现场,对方说不让连外网。这个时候,你电脑上本地跑的 AI 就是你的救命稻草。

我认识一个做售前方案的哥们,有次去一个大客户的会议室做方案,对方说这间会议室没外网,你所有东西都得提前准备好。他那天现场改方案,全靠本地跑的 AI 帮忙润色和查资料(虽然资料是本地的)。他说那一刻觉得"买 4090 的钱真的没白花"。

但我也想说几句大实话

速度上去了,爽归爽。但我还是得说几句实话,不怕你扫兴。

首先, 184t/s 是最佳工况下测出来的。 你的 4090 跑这个速度的时候,差不多已经吃满了。你要是还想同时剪个视频、开个直播什么的——算了,别想了。显卡风扇呼呼转,你写代码它跑模型,互相抢资源。不是你想象中那种"安安静静挂后台"的体验。

其次,这套配置还是有门槛的。 FP8 量化、投机解码、 vLLM——这些词听着就劝退。不是每个人都是"打开终端敲命令"的人。你需要知道怎么装 vLLM 、怎么调参数、怎么处理报错。虽然我在上面已经尽量往简单了写,但对完全不碰命令行的朋友来说,还是有一定距离。

有一个解法是等各家 AI 应用把 Qwen3.6-27B 内置进去。现在 LM Studio 、 Ollama 都已经支持了,界面化操作,不用碰命令行。 LM Studio 直接打开,找模型,下载,加载,完了。

但我最想说的还不是这两点

我最想说的是:一个能打平 Claude Opus 的模型,在自己显卡上跑出 184t/s 的速度。

这事放在两年前,谁信?两年前本地能跑个 7B 的小模型就算不错了,跟 GPT-4 差了几个数量级。现在你买一张游戏显卡,就能跑一个比肩顶尖商业模型的 AI——而且速度和体验正在快速逼近云端

隐私这事,咱们平时不是不在意,是在意了也没用——你用的每个 AI 工具,背后都是别人的服务器。你的聊天记录、翻译内容、写的方案,理论上对方都能看到。大多数公司会承诺"不用你的数据训练"——但你真的放心吗?

但当你有能力在自己电脑上跑出接近云端的速度时,天平就开始动了。

不是说本地要替代云端——拉倒吧,替代不了。但关键任务、敏感数据、高频调用——这些场景完全可以先走本地,云端当个 plan B 。

比如你每天要处理几十个客户的报价信息,这类数据你敢全部上传到云端 AI 去处理吗?如果你让本地跑一个 Qwen3.6-27B 来处理,敏感信息不出你的电脑——这不光是速度问题,这是原则问题。

一个 27B 的模型干翻自家 397B 的旗舰,你这还嫌不够快,还给人优化到 184t/s——这个事实本身就够让人坐不住了:本地 AI 的能力天花板,还远远没到

它现在能不能赢云端?说实话,还不能全面超越。但重要的是它坐上桌了——这盘菜,量是真大,味是真不错。

我给自己定了个小目标:三个月以内,把自己的日常工作流里能用本地 AI 完成的,全部切换到本地模型。 不是图省那点 API 费用,是图一个"我说了算"。

你也不妨试试。


好,啰嗦完了。给你三个明确的行动建议,挑一个能做到的:

1. 如果你有 4090:按上面步骤装 vLLM ,跑一下 Qwen3.6-27B 。不用追求 184t/s ,能到 100t/s 就已经碾压云端体验了。装好之后用几天,你就知道差距。

2. 如果你没有 4090:没关系。去 LM Studio 或 Ollama ,先装个 Qwen3.6-27B 的 4-bit 量化版试试手。速度可能只有 20-30t/s ,但你先感受一下"模型在自己电脑上跑"这件事本身。等你真的用上了,再想升级的事。

3. 如果你没有好的显卡也没时间折腾:那就跟住这个趋势,别掉队。下次选 AI 工具的时候,多问问一句"这个能不能本地部署"——厂商听到用户这么问,就会重视起来。

AI 是放大器,不是托管人。 能跑在你自己机器上的 AI ,才是真正属于你的 AI 。