原文链接：https://mp.weixin.qq.com/s/fCO-LB_ruOHU9TaPcTFJ8Q
作者：喵叔
发布时间：2026-05-16 20:40

阿里开源了个怪物：27B的模型打爆397B，还有人把它优化到184 token/秒

昨天半夜刷 B 站，看到一个标题，我直接从椅子上弹了起来。

有人把 Qwen3.6-27B 的生成速度，从默认的 20 tokens/秒怼到了184 tokens/秒。

9 倍。没看错， 9 倍。

我第一反应是"标题党又来了"，结果点进去一看，人家 repo 里测试报告、数据、配置文件全在，明明白白。不是嘴炮，是真把活儿干完了。

更离谱的是这个模型本身——27B 参数的稠密模型，在我最关心的代码智能体能力上，全面超越了阿里自家 397B 参数的 MoE 旗舰。

等于说，你花了 1/15 的钱，买到了更强的效果。然后还有人跳出来说，我还能让你跑得更快。

这种好事在 AI 圈不常见。一般规律是，便宜没好货。但这回像是天上掉馅饼。

先别急着动手，看看这模型到底多能打

4 月 22 号，阿里把 Qwen3.6-27B 开源了。很多人第一反应是：又一个大模型，有啥特别的？

首先，它不是那种"又大又慢"的 MoE （混合专家）模型，而是稠密模型（ Dense ）。什么意思？就是你不需要操心什么路由、负载均衡这些破事，装上去直接用。 27B 参数， Apache-2.0 协议，谁都能用，谁都能改。

原生支持 26 万 token 上下文，大概能一口气吃完大半本《三体》。

来看看这玩意儿在各个评测里的表现：

SWE-bench Verified 拿了77.2， Terminal-Bench 2.0 拿了59.3，直接打平 Claude 4.5 Opus 。 Claw-Eval Pass³更是超过了 Opus——这个测试特别狠，考的是同一件事连续三次都做对。不是碰运气蒙对一次，是真稳定。

AIME 2026 数学竞赛拿了 94.1 ， GPQA Diamond 博士级科学推理拿了 87.8 。

你知道这些分数意味着什么吗？打个比方说，你请了个实习生，工资是正式员工的十五分之一，结果他干出来的活比老员工还好，还稳定——你让老员工怎么想？

我有个朋友是做外包开发的，他看了这数据跟我说："这不就是我自己吗，拿一个人的工资干三个人的活。"我说你格局小了，人家是拿十五分之一的资源干翻旗舰。

当然，它的强项不在聊天，在代码智能体。官方自己都说了，这个模型就是为 Agent 场景设计的。你让它打开终端、理解需求、敲命令、执行、检查结果——它能一步一步搞完，不用人在旁边看着。

还支持看图、看视频、看文档。 RTX 4090 做视觉推理的时候，显卡直接吃到 96-97%的利用率，风扇开始起飞。

但是默认速度是真的慢

好，强是真强，没得黑。但你用过本地大模型就知道，有个天花板绕不过去。

默认情况下， Qwen3.6-27B 在本地推理速度大概只有20 tokens/秒。

什么概念？你打字问它一个问题，它吭哧吭哧开始"想"，你盯着光标一闪一闪，一个字一个字往外蹦。你说慢吧，也不算特别慢——但跟 ChatGPT 那种你还没打完字它就开始回答的体验比，差距确实明显。

我用 LM Studio 加载 Q4_K_M 量化版测过， 17-22t/s 之间晃。刷一屏文本，等个三四秒。用着用着就会不由自主地说："你倒是快点儿啊。"

但 B 站 UP 主"小天 fotos"（做实战型 AI 内容的那位）愣是把这个数字怼到了 184t/s 。注意，不是换了张更贵的显卡，不是说"你买张 5090 就行了"。他还是用消费级显卡，纯靠优化方案拿到的。

而且他的方案不是单一技巧，是四管齐下的组合拳。有点像做饭，不是只换个好锅就行的——要选对食材、火候、调料、工序，哪步都不能省。

当时我有个在公司做数据分析的朋友问我："这玩意儿我又不是程序员，跟我有关系吗？"

我说你听我讲完，就知道跟你有没有关系了。你看完这个优化方案，哪怕自己不装，也能明白为什么最近大家都在说"本地 AI 要翻身了"。

第一拳：投机解码 + MTP ，这是核心里的核心

先讲个最简单的道理。

大模型生成文字的时候，是一个字一个字往外蹦的。好比你在打字，打完一个字才能打下一个字——不能提前把后面五个字一起打出来。

所以每次生成都要等前一次算完， GPU 就在那闲着。你想让它快，但它在等你。

浪费不浪费？太浪费了。

投机解码的解决思路很聪明：先让一个又快又小的"草稿模型"快速猜后面几个字，然后让主模型一次性验证这些猜测对不对。

想象一下，你在写 PPT 。你先让实习生（草稿模型）快速写个初稿，然后你（大模型）一次性审完批注——是不是比你自己一个字一个字地写快多了？

如果实习生猜对了 5 个字，那相当于你一次就完成了 5 个字的工作量，速度直接翻 5 倍。

更妙的是， Qwen3.6-27B 有个天生的本事——它原生支持MTP （多 Token 预测）。这个模型在训练的时候，就被教会了一次性预测多个 token 。换句话说，它自己就能当"猜词冠军"，不需要再去外面找一个草稿模型。

这就好比你的实习生不是从街上随便拉来的，而是提前培训过的，一上来就能干活。

有个搞运维的朋友跟我说："你说的这个投机解码，不就是我们用的缓存策略吗？把可能用到的数据先加载进来，用的时候直接拿。"

我说对，原理差不多，都是"猜到了就赚"。

关键参数：投机草稿长度（ draft length ），一般设 5-10 个 token 。不是越长越好——设太短收益不够，设太长如果猜错了反而浪费。好比实习生写 10 页 PPT ，结果你一看，前三页还行，后七页全错了——还不如他自己写呢。

第二拳： FP8 量化，把模型"瘦身"

20t/s 的问题不完全在计算慢，更多卡在显存带宽上。

打个比方，你有个特别厉害的厨师，但厨房在五楼，食材在一楼。每次做饭，厨师都得下楼取一趟——大部分时间花在了"取东西"上，而不是"做菜"上。

模型权重在显存里，每次推理都要把权重从显存搬到计算单元。这个"搬东西"的速度，决定了你能跑多快。

FP8 量化就是把食材的体积减半。把模型权重从 FP16 （ 16 位浮点）压缩到 FP8 （ 8 位浮点），体积直接减半。搬运量少了一半，自然快很多。

而且 RTX 40 系显卡有专门的 FP8 计算单元，跑 FP8 比 FP16 快得多，相当于这个厨师不仅食材少了一半、路近了一半，而且他的新厨房有传送带，不用自己跑上跑下了。

你问我这个跟普通人有啥关系？有啊。你用的 AI 软件，背后运行的就是这些模型。你今天刷到一个 AI 生成的小红书笔记，明天收到 AI 写的产品介绍文案，后天用 AI 生成视频字幕——背后都是这些技术在支撑。

模型跑得越快，你能用到的 AI 产品就越多、越便宜。

我在一家电商公司做运营的朋友跟我说："你这么说我就懂了。就像以前发快递三天到，现在当天到——价格还一样。"

我说对，就是这个道理。

官方已经提供了 Qwen3.6-27B-FP8 的量化版，直接从 Hugging Face 下载就能用。不是让你自己去量化的，直接拿来用就行。

第三拳： DFlash + DDTree ，给投机解码装上涡轮增压

这两个技术名听着唬人，但其实逻辑不复杂。

标准的 Flash Attention 已经能大幅减少显存读写，好比把厨房从五楼搬到了一楼，不用上下跑了。 DFlash 在此基础上更进一步，专门优化了"草稿-验证"阶段的注意力计算效率。

至于 DDTree （ Draft Decoding Tree ），这个就更有意思了——它不满足于只猜一条路，而是同时猜好几条路，再从中挑最好的。

你写邮件给客户，可能有三四个开头方式。 DDTree 的做法就是：先把这几个可能性都写出来，然后挑一个最合适的。而不是一个个试过去。

有次我让 AI 帮我润色一段产品介绍，它改完我觉得还行，但总觉得有更好的版本。如果用的是 DDTree 思想，它应该给我几个版本让我挑——而不是给我一个"最可能正确"的。

不过这两项优化有个前提：只有在你用了投机解码时才生效。如果你还在用传统方式跑模型，这些优化就跟你没关系。就像你买了辆跑车，却一直开着普通模式，那些"赛道模式""弹射起步"的功能全部浪费了。

第四拳：换掉 Ollama ，用 vLLM

这是最实在的一条——把推理框架换掉。

Ollama 确实容易上手，装完就能用，对小白极其友好。但友好是有代价的——Ollama 的性能优化深度不够。

UP 主用的是vLLM，这叫真正的工业级推理框架。支持连续批处理、 PagedAttention 、 Flash Attention 这些高级功能。

"连续批处理"什么意思？好比你在便利店排队，传统的方式是一人结完账再叫下一个。 vLLM 的做法是，你还在掏钱包的时候，下一个人已经把东西放柜台上了。两个人同时处理，谁都不耽误。

对普通用户来说，这最直接的影响就是：你用一个本地 AI 服务的时候，不会因为有多个人在用就卡成狗。团队里三四个人同时用，每个人体验都不错。

我记得两年前我试过本地部署一个模型做会议纪要，结果一个同事问了个问题，我这边直接卡了 20 秒才继续输出。当时的感受就是：算了，还是用云端吧，贵就贵点。但现在不一样了。

实操：想复现 184t/s ，该怎么做

好，理论讲完了，说点能动手的。我知道很多人看文章就是想知道"我该怎么做"。

如果你有 RTX 4090 （或者 4070 以上），操作步骤大概是这样的——我尽量往简单了说：

第一步，下载模型。

去 Hugging Face 搜 Qwen/Qwen3.6-27B-FP8，下载下来。大概 15GB 。你可以一边下载一边去干别的，反正现在的宽带下 15G 也就十几分钟。

第二步，装 vLLM。

打开终端，敲一行：

pip install vllm

装完之后，启动服务：

python -m vllm.entrypoints.openai.api_server \   --model Qwen3.6-27B-FP8 \   --enable-flash-attention \   --max-model-len 65536

第三步，开启投机解码。

加上关键参数：

--speculative-model Qwen/Qwen3.6-27B \ --num-speculative-tokens 5 \ --enable-mtp

草稿长度先从 5 开始试，然后用测速工具看实际效果。如果发现经常猜错，就减小到 3 或 4 ；如果猜得挺准，就试着加到 7 或 8 。

第四步，测速。

python benchmarks/benchmark_latency.py \   --model Qwen3.6-27B-FP8 \   --input-len 512 --output-len 256 \   --batch-size 1

一般来说，到了这一步速度已经能到 100+t/s 了。 DDTree 和 DFlash 的进一步优化，可以去 UP 主的 repo 里找对应配置。

从 20 到 184 ，核心就这四步。谁都能照着做，不需要是 AI 专家。

但我有个朋友看完这个操作步骤问我："你说的这些我懂了，但我日常又不写代码，我拿来干嘛？"

我说你听我说完下面这些就明白了。

这些东西对普通人到底有什么用

所以我花了点时间，认真想了想：一个普通上班族，没写过一行代码， Qwen3.6-27B 跑出 184t/s——关他什么事？

答案是：短期来看，不直接相关。但半年之内，你一定会感受到它带来的变化。

举个例子：你现在打开任何一个免费的 AI 写作工具、 AI 翻译工具、 AI 配图工具——背后的模型大概率跑在云端。每次你用，厂家都要付给云服务商钱。

如果 Qwen3.6-27B 这种级别的模型，能在本地显卡上跑出接近云端的体验——那意味着什么？

意味着你常用的这些 AI 工具，可以更便宜、更快、更隐私。

拿翻译来说。你每天要看英文资料、写英文邮件，每次都把内容贴到网页翻译里。如果你的本地 AI 跑得够快、够好，翻译直接在本地完成——不传数据到云端，不担心机密泄露。你今天在公司写的那份方案，明天给客户看的那个报价单，这些敏感信息不需要经过任何第三方服务器。

我有个朋友是做法律翻译的，他说他们公司明文禁止用在线翻译工具处理合同——因为数据必须保密。但不用 AI 翻译，效率低得让人崩溃。如果能在本地部署一个顶配模型，这个问题就全解决了。

再比如，你是个设计师或者做新媒体运营的，经常要批量出图、写文案、改稿。以前 AI 帮你干活要等，现在本地跑起来跟云端几乎没区别，而且不需要担心你的素材被别人拿去训练了。

还有一个你可能没想过的事：断网。下次出差坐高铁，隧道里信号不好。或者去客户现场，对方说不让连外网。这个时候，你电脑上本地跑的 AI 就是你的救命稻草。

我认识一个做售前方案的哥们，有次去一个大客户的会议室做方案，对方说这间会议室没外网，你所有东西都得提前准备好。他那天现场改方案，全靠本地跑的 AI 帮忙润色和查资料（虽然资料是本地的）。他说那一刻觉得"买 4090 的钱真的没白花"。

但我也想说几句大实话

速度上去了，爽归爽。但我还是得说几句实话，不怕你扫兴。

首先， 184t/s 是最佳工况下测出来的。你的 4090 跑这个速度的时候，差不多已经吃满了。你要是还想同时剪个视频、开个直播什么的——算了，别想了。显卡风扇呼呼转，你写代码它跑模型，互相抢资源。不是你想象中那种"安安静静挂后台"的体验。

其次，这套配置还是有门槛的。 FP8 量化、投机解码、 vLLM——这些词听着就劝退。不是每个人都是"打开终端敲命令"的人。你需要知道怎么装 vLLM 、怎么调参数、怎么处理报错。虽然我在上面已经尽量往简单了写，但对完全不碰命令行的朋友来说，还是有一定距离。

有一个解法是等各家 AI 应用把 Qwen3.6-27B 内置进去。现在 LM Studio 、 Ollama 都已经支持了，界面化操作，不用碰命令行。 LM Studio 直接打开，找模型，下载，加载，完了。

但我最想说的还不是这两点。

我最想说的是：一个能打平 Claude Opus 的模型，在自己显卡上跑出 184t/s 的速度。

这事放在两年前，谁信？两年前本地能跑个 7B 的小模型就算不错了，跟 GPT-4 差了几个数量级。现在你买一张游戏显卡，就能跑一个比肩顶尖商业模型的 AI——而且速度和体验正在快速逼近云端。

隐私这事，咱们平时不是不在意，是在意了也没用——你用的每个 AI 工具，背后都是别人的服务器。你的聊天记录、翻译内容、写的方案，理论上对方都能看到。大多数公司会承诺"不用你的数据训练"——但你真的放心吗？

但当你有能力在自己电脑上跑出接近云端的速度时，天平就开始动了。

不是说本地要替代云端——拉倒吧，替代不了。但关键任务、敏感数据、高频调用——这些场景完全可以先走本地，云端当个 plan B 。

比如你每天要处理几十个客户的报价信息，这类数据你敢全部上传到云端 AI 去处理吗？如果你让本地跑一个 Qwen3.6-27B 来处理，敏感信息不出你的电脑——这不光是速度问题，这是原则问题。

一个 27B 的模型干翻自家 397B 的旗舰，你这还嫌不够快，还给人优化到 184t/s——这个事实本身就够让人坐不住了：本地 AI 的能力天花板，还远远没到。

它现在能不能赢云端？说实话，还不能全面超越。但重要的是它坐上桌了——这盘菜，量是真大，味是真不错。

我给自己定了个小目标：三个月以内，把自己的日常工作流里能用本地 AI 完成的，全部切换到本地模型。不是图省那点 API 费用，是图一个"我说了算"。

你也不妨试试。

好，啰嗦完了。给你三个明确的行动建议，挑一个能做到的：

1. 如果你有 4090：按上面步骤装 vLLM ，跑一下 Qwen3.6-27B 。不用追求 184t/s ，能到 100t/s 就已经碾压云端体验了。装好之后用几天，你就知道差距。

2. 如果你没有 4090：没关系。去 LM Studio 或 Ollama ，先装个 Qwen3.6-27B 的 4-bit 量化版试试手。速度可能只有 20-30t/s ，但你先感受一下"模型在自己电脑上跑"这件事本身。等你真的用上了，再想升级的事。

3. 如果你没有好的显卡也没时间折腾：那就跟住这个趋势，别掉队。下次选 AI 工具的时候，多问问一句"这个能不能本地部署"——厂商听到用户这么问，就会重视起来。

AI 是放大器，不是托管人。能跑在你自己机器上的 AI ，才是真正属于你的 AI 。

阿里开源了个怪物：27B的模型打爆397B，还有人把它优化到184 token/秒 ​

先别急着动手，看看这模型到底多能打 ​

但是默认速度是真的慢 ​

第一拳：投机解码 + MTP ，这是核心里的核心 ​

第二拳： FP8 量化，把模型"瘦身" ​

第三拳： DFlash + DDTree ，给投机解码装上涡轮增压 ​

第四拳：换掉 Ollama ，用 vLLM ​

实操：想复现 184t/s ，该怎么做 ​

这些东西对普通人到底有什么用 ​

但我也想说几句大实话 ​