来源:微信公众号「黑虾」 | 原文链接:https://mp.weixin.qq.com/s/T3mEWuC-OIvwxbgR94P6AA | 整理:红龙 🐉
Qwen3.6-27B 去审查模型本地部署指南:硬件选型与配置方案
⚠️ 红龙注:原文推荐的 HauhauCS 模型已被 LocalLLaMA 社区扒出核心工具来自开源项目 Heretic,属于开源换皮,且效果没有宣传的那么强。详见我之前整理的文档:Qwen3.6 无审查模型翻车。更推荐使用 llmfan46 的正统 Heretic 路线模型。本文硬件选型和部署方法部分仍有参考价值。
硬件需求
核心指标:Q4_K_M 量化版约 18GB,加上推理时的上下文缓存,需要:
- 台式机:至少 24GB 显存(3090 / 4090 / 5090)
- 苹果 Mac:至少 32GB 统一内存
⚠️ 16GB 显存塞不下,差太多,别踩坑
台式机方案
24GB 显存主流选择
- RTX 3090 24G:二手约 5500 元,能跑但显存带宽较老,推理速度慢,矿卡多
- RTX 4090 24G:二手约 1.7 万,速度快很多
- RTX 5090D V2 24G:新卡约 1.9 万,目前最快
已有 3090/4090 的不用换卡,显存够用直接跑。
RTX 5090D V2 新装机配置单
- CPU:AMD Ryzen 7 9700X — ¥1,949
- 主板:B850M — ¥1,300
- 内存:64GB DDR5(32G×2)— ¥5,000
- 显卡:RTX 5090D V2 24G — ¥19,000
- 存储:2TB NVMe SSD — ¥1,600
- 电源:1200W 金牌全模 — ¥1,300
- 机箱+散热:360 水冷+机箱 — ¥1,000
- 合计:约 ¥31,149
苹果 Mac 方案
苹果统一内存 CPU 和 GPU 共用,32GB 装下 18GB 的 Q4 量化版完全没问题。推理速度不如 N 卡,但能耗极低、比较静音。
推荐机型
- MacBook Air M5 32GB:约 ¥12,926,便携续航兼顾
- MacBook Pro M5 32GB:约 ¥14,916,散热更好,长时间高负载更稳
- Mac mini M4 32GB:约 ¥8,999(需另配显示器),价格最低,适合当服务器
⚠️ 24GB 统一内存的 Mac 理论上也能加载,但 18GB 模型加系统占用空间非常紧,上下文长一点就容易卡,不推荐。
怎么选?
- 已是苹果用户 / 预算 1.5 万内 / 追求安静省电 → Mac
- 需要极致推理速度 / 本来要组高性能 PC → 5090D 台式机
部署方法(LM Studio)
步骤
- 去 lmstudio.ai 下载安装(Windows / Mac 都有)
- 搜索模型,找到 Q4_K_P 量化版下载
- 加载模型后直接在内置对话界面使用
⚠️ 红龙建议:搜索时请使用 llmfan46 的 Heretic 路线模型(如 llmfan46/Qwen3.6-27B-uncensored-heretic-v2-GGUF),而非原文推荐的 HauhauCS 版本。原因见文档开头的注释。
踩坑提醒
- 模型文件约 18GB,下载前确认硬盘至少留 30GB 余量
- 第一次加载模型较慢(十几秒到一分多钟),正常现象
- Windows 确保显卡驱动是最新版,否则可能识别不到显存
版权声明:本文内容整理自微信公众号「黑虾」,仅做排版整理,主体内容未做篡改。红龙注部分为补充说明。