Qwen3.5-9B Opus V2 蒸馏版本地部署实测

作者： 寂寞的熊猫
发布时间： 2026-03-28
原文链接： https://mp.weixin.qq.com/s/GuqSJpbEbpHVCd88e6xtMQ

📖 目录

省流版结论
Opus V2 蒸馏做了什么？
[实测数据：跑满 262K 上下文](#03-实测数据跑满 262k 上下文)
接入 OpenClaw：9B 做本地龙虾
9B vs 27B：本地龙虾怎么选
写在最后

大家好，我是寂寞的熊猫。

之前我前后写了几篇：

如果我显存没那么大，只能用 9B，那么实际跑起来怎么样？

今天看看 Qwen3.5-9B opus V2 蒸馏版。

01. 省流版结论

opus V2 蒸馏的核心改进是"想得少但想得准"。推理链缩短 22%，HumanEval+ 正确率反而涨了 2.44 个百分点。
跑满 262K 上下文，Q4_K_M 量化总共吃了约 10.9GB 显存。模型本身只有 5.2GB，大头是 KV cache。缩短上下文到 8K-16K，8GB 显卡就能跑。
推理速度有两条线：thinking 模式约 50 tok/s，关掉 thinking 约 115 tok/s。对 OpenClaw 场景很重要——agentic 工作流里 thinking 有时候反而拖节奏。

02. Opus V2 蒸馏做了什么？

之前 Qwen3.5-27B 登顶 PinchBench，同时 Opus V2 蒸馏版发布，本地部署实测已经详细讲过，这里简短说。

opus V2 蒸馏版核心变化：用 14,000+ 条 Claude Opus 风格推理数据训练，推理链更短，但正确率不降反升。

指标	Qwen3.5-9B 基座	9B V2 蒸馏版	变化
HumanEval pass@1	81.71%	82.32%	+0.61pp
HumanEval+ pass@1	76.22%	78.66%	+2.44pp
平均推理链长度（字符）	2284	1778	-22.2%
推理效率（每万字正确解数）	4.0	5.0	+25.9%

打个比方：以前模型解题的时候，会在草稿纸上写满三页推导过程。现在只写两页，答案还更准了——不是偷懒，是真的想明白了。

03. 实测数据：跑满 262K 上下文

测试环境

模型： Qwen3.5-9B-Claude-4.6-Opus-Reasoning-Distilled-v2-GGUF
量化： Q4_K_M（文件 5.23 GiB，约 5.02 BPW）
多模态权重： mmproj-BF16.gguf（878.99 MiB）
推理引擎： llama-server（llama.cpp）
上下文长度： 262,144（262K 全开）
32 层全部卸载到 GPU

项目	显存占用
模型本身	~5,230 MiB
KV cache (262K)	~4,352 MiB
mmproj	~879 MiB
合计	~10,901 MiB（约 10.6 GB）

模型本身只有 5.2GB。吃显存的大头是 KV cache——262K 上下文的 KV cache 占了 4.4GB。

这意味着上下文越短，显存需求越低。按比例估算：

目标上下文	KV cache（估算）	总显存（估算）	能跑的显卡
8K	~130 MiB	~6.7 GB	RTX 3060/4060 8GB
16K	~260 MiB	~6.8 GB	8GB 显卡稳跑
32K	~530 MiB	~7.1 GB	8-12GB 显卡
128K	~2,100 MiB	~8.7 GB	12GB 显卡
262K	4,352 MiB	~10.9 GB	16GB 显卡

（估算不含 mmproj；如果不需要多模态，可以省掉 879 MiB）

一句话：不需要 262K 那么长上下文的话，8GB 显卡完全能跑。

推理速度

实测的多轮对话的 token 速度记录：

纯文本对话：

场景	Prompt 处理	生成速度	备注
长 prompt（4831 tokens）	1,699 tok/s	51.67 tok/s	thinking 模式
中等 prompt（5388 tokens）	1,680 tok/s	50.14 tok/s	thinking 模式
短 prompt（526 tokens）	3,110 tok/s	116.87 tok/s	非 thinking
中等 prompt（1211 tokens）	3,321 tok/s	116.22 tok/s	非 thinking
长 prompt（3892 tokens）	3,544 tok/s	113.54 tok/s	非 thinking
短 prompt（280 tokens）	2,865 tok/s	116.43 tok/s	非 thinking

多模态对话（含图像）：

场景	Prompt 处理	生成速度	备注
首次含图（4116 tokens）	1,011 tok/s	114.13 tok/s	图像编码 3.9 秒
后续含图（965 tokens）	1,805 tok/s	115.66 tok/s	图像编码 0.5 秒

生成速度有两个方面：

Thinking 模式：约 50 tok/s — 模型在"写草稿"，生成大量推理 token
非 Thinking 模式：约 113-116 tok/s — 直接输出，速度翻倍

这不是 bug，是 9B V2 的设计特点。如果你不需要看推理过程，关掉 thinking，速度直接翻一倍。

Prompt 处理也很亮眼：短 prompt 能到 3000+ tok/s。在 OpenClaw 里，工具调用的响应延迟不会成为瓶颈。

和 27B 对比

之前测 27B opus V2（Q8_0，24GB 显卡）的数据：

Prompt 处理：约 1,052 tok/s
生成：约 30 tok/s

9B opus V2（Q4_K_M）：

Prompt 处理：1,700-3,500 tok/s（快 2-3 倍）
生成：50-116 tok/s（快 1.7-3.9 倍）

9B 的优势很清楚：牺牲一点推理质量，换来速度和资源的大幅改善。

04. 接入 OpenClaw：9B 做本地龙虾

测完了速度，关键问题是：9B V2 接到 OpenClaw 里实际体验怎么样？

llama-server 启动参数

实际测试用的启动命令（从日志里直接拉的）：

bash

llama-server \
  -m Qwen3.5-9B.Q4_K_M.gguf \
  --mmproj mmproj-BF16.gguf \
  --batch-size 1024 --ubatch-size 512 \
  -c 262144 \
  --cache-type-k q8_0 \
  --cache-type-v q8_0 \
  -ngl 99 \
  -np 1 \
  --flash-attn on \
  --port 8197 --host 0.0.0.0 \
  --temp 1.0 --top-p 0.95 --top-k 20 \
  --cont-batching \
  -t 16 -tb 32

几个关键参数：

-c 262144：满上下文。大家根据自己资源调整。
--cache-type-k q8_0 --cache-type-v q8_0：这边是为了拉高上下文做了 KV 量化
-ngl 99：所有层卸载到 GPU
--flash-attn on：Flash Attention，加速注意力计算
--cont-batching：连续批处理，OpenClaw 多轮调用时有用

显卡 8-12GB 的，把 -c 改成 8192 就行，其他参数不用动。

不需要多模态的话，去掉 --mmproj 那一行，还能省 879 MiB 显存。

OpenClaw 配置

在 ~/.openclaw/openclaw.json 里加本地 provider：

json

{
  "models": {
    "mode": "merge",
    "providers": {
      "llamacpp": {
        "baseUrl": "http://127.0.0.1:8197/v1",
        "apiKey": "no-key-required",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen35-opus-distilled-v2",
            "name": "Qwen3.5-9B",
            "reasoning": true,
            "input": ["text", "image"],
            "cost": {"input": 0, "output": 0},
            "contextWindow": 262144,
            "maxTokens": 8192
          }
        ]
      }
    }
  }
}

然后把 Agent 模型指向这个 provider 就行了。

实际使用体验

从日志看，OpenClaw 的 ReAct 循环（观察→推理→行动）在 9B V2 上跑得很流畅：

单轮工具调用延迟在 1-3 秒
思维标签解析正常，没出现 V1 的闭合失败问题
prompt cache 命中率高，同 session 后续请求几乎不需要重新处理

但有一个实际体验上的问题：thinking 模式在 agentic 工作流里有时候是多余的。

ReAct 循环本身就是"思考→行动→观察"了。再叠加一层推理链，等于在想之前先想一遍要不要想——效率上不划算。

建议：

简单工具调用：关掉 thinking（--reasoning-budget 0），直接跑
复杂推理（代码生成、规划）：开启 thinking，让模型想清楚再输出

05. 9B vs 27B：本地龙虾怎么选

最后聊很多人关心的问题：9B 和 27B，在 OpenClaw 场景下怎么选？

不用参数表，用场景说话。

显卡决定起点

显卡	推荐模型	上下文	体验
8GB（RTX 3060/4060）	9B Q4_K_M	8K-16K	够用，工具调用流畅
12GB（RTX 3060 12GB）	9B Q4_K_M	32K-64K	舒适，日常主力
16GB（RTX 4070 Ti/5060 Ti）	9B Q8_0 或 27B Q4	8K-32K	两个都能跑
24GB（RTX 3090/4090）	27B Q8_0	16K-128K	最佳体验

8GB 显卡，9B 是比较合适的选择。

一句话：资源有限时，9B opus V2 是本地龙虾的最佳入口。资源充足时，27B 是更全面的选择。

06. 写在最后

这篇文章的观点不是"9B 与 27B 的对比"——它们根本不是一个价位的选手。

我想说的是：对于大多数只有消费级显卡的人来说，9B V2 蒸馏版可能是目前本地龙虾最现实的起点。

从数据上看：

50 tok/s 的 thinking 速度，9B 级别里已经很不错
关掉 thinking 后 115 tok/s，日常使用没有"慢"的感觉
5.2GB 的模型大小，8GB 显卡就能跑
接 OpenClaw 的链路已经打通，实际体验流畅

当然，9B 也有局限：ToolCall 不如 27B，复杂推理不如 27B。如果你的显卡够大（24GB），27B 依然是更好的选择。

但如果你的显卡是 8GB 或 12GB——别等了，9B V2 已经够用了。

如果对 AI 个人提效，以及副业感兴趣，而不只是围观，也推荐加入 IDO 老徐的知识星球：AI 落地实战 · DeepSeek · OpenClaw。

里面会持续分享 OpenClaw 相关内容、AI 工作流搭建、商业化落地和各种实战避坑经验。

我是寂寞的熊猫，程序员，职场努力升职，业余时间探索副业，寻找第二曲线，聚焦 AI 绘画、AI 编程、智能体方向副业探索与变现。

Qwen3.5-9B Opus V2 蒸馏版本地部署实测 ​

📖 目录 ​

01. 省流版结论 ​

02. Opus V2 蒸馏做了什么？ ​

03. 实测数据：跑满 262K 上下文 ​

测试环境 ​

推理速度 ​

和 27B 对比 ​

04. 接入 OpenClaw：9B 做本地龙虾 ​

llama-server 启动参数 ​

OpenClaw 配置 ​

实际使用体验 ​

05. 9B vs 27B：本地龙虾怎么选 ​

显卡决定起点 ​

06. 写在最后 ​