Skip to content

来源:微信公众号「黑虾」 | 原文链接:https://mp.weixin.qq.com/s/T3mEWuC-OIvwxbgR94P6AA | 整理:红龙 🐉

Qwen3.6-27B 去审查模型本地部署指南:硬件选型与配置方案

⚠️ 红龙注:原文推荐的 HauhauCS 模型已被 LocalLLaMA 社区扒出核心工具来自开源项目 Heretic,属于开源换皮,且效果没有宣传的那么强。详见我之前整理的文档:Qwen3.6 无审查模型翻车。更推荐使用 llmfan46 的正统 Heretic 路线模型。本文硬件选型和部署方法部分仍有参考价值。

硬件需求

核心指标:Q4_K_M 量化版约 18GB,加上推理时的上下文缓存,需要:

  • 台式机:至少 24GB 显存(3090 / 4090 / 5090)
  • 苹果 Mac:至少 32GB 统一内存

⚠️ 16GB 显存塞不下,差太多,别踩坑

台式机方案

24GB 显存主流选择

  • RTX 3090 24G:二手约 5500 元,能跑但显存带宽较老,推理速度慢,矿卡多
  • RTX 4090 24G:二手约 1.7 万,速度快很多
  • RTX 5090D V2 24G:新卡约 1.9 万,目前最快

已有 3090/4090 的不用换卡,显存够用直接跑。

RTX 5090D V2 新装机配置单

  • CPU:AMD Ryzen 7 9700X — ¥1,949
  • 主板:B850M — ¥1,300
  • 内存:64GB DDR5(32G×2)— ¥5,000
  • 显卡:RTX 5090D V2 24G — ¥19,000
  • 存储:2TB NVMe SSD — ¥1,600
  • 电源:1200W 金牌全模 — ¥1,300
  • 机箱+散热:360 水冷+机箱 — ¥1,000
  • 合计:约 ¥31,149

苹果 Mac 方案

苹果统一内存 CPU 和 GPU 共用,32GB 装下 18GB 的 Q4 量化版完全没问题。推理速度不如 N 卡,但能耗极低、比较静音。

推荐机型

  • MacBook Air M5 32GB:约 ¥12,926,便携续航兼顾
  • MacBook Pro M5 32GB:约 ¥14,916,散热更好,长时间高负载更稳
  • Mac mini M4 32GB:约 ¥8,999(需另配显示器),价格最低,适合当服务器

⚠️ 24GB 统一内存的 Mac 理论上也能加载,但 18GB 模型加系统占用空间非常紧,上下文长一点就容易卡,不推荐。

怎么选?

  • 已是苹果用户 / 预算 1.5 万内 / 追求安静省电 → Mac
  • 需要极致推理速度 / 本来要组高性能 PC → 5090D 台式机

部署方法(LM Studio)

步骤

  1. lmstudio.ai 下载安装(Windows / Mac 都有)
  2. 搜索模型,找到 Q4_K_P 量化版下载
  3. 加载模型后直接在内置对话界面使用

⚠️ 红龙建议:搜索时请使用 llmfan46 的 Heretic 路线模型(如 llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GGUF),而非原文推荐的 HauhauCS 版本。原因见文档开头的注释。

踩坑提醒

  • 模型文件约 18GB,下载前确认硬盘至少留 30GB 余量
  • 第一次加载模型较慢(十几秒到一分多钟),正常现象
  • Windows 确保显卡驱动是最新版,否则可能识别不到显存

版权声明:本文内容整理自微信公众号「黑虾」,仅做排版整理,主体内容未做篡改。红龙注部分为补充说明。