Skip to content

OpenClaw + Ollama 完整配置指南 - 从选模型到跑起来

发布日期: 2026-03-21 | 字数: 约 7500 字 | 阅读时间: 约 12 分钟

概述

想在本地跑大模型,但不知道自己的电脑能跑什么?显存不够会不会爆?工具调用又是怎么回事?这篇文章帮你彻底搞清楚 OpenClaw 与 Ollama 的完整配置流程。

通过本教程,你将掌握:

  • 显存与内存的区别及选择原则
  • 根据硬件配置选择合适的模型
  • 工具调用(Function Calling)的支持情况
  • OpenClaw 配置实战步骤
  • 常见问题解决方案

第一章:核心概念

1.1 显存(VRAM)vs 内存(RAM)

很多人分不清这两个概念,简单说:

显存(VRAM)

  • 显卡自带的内存
  • 模型优先加载到这里
  • 速度快、推理流畅

内存(RAM)

  • 主板上的系统内存
  • 显存不够用时才会用到
  • 速度慢很多

结论: 有独立显卡,优先用 GPU 跑。CPU 不是不能跑,但 7B 模型可能只有 2~5 tokens/s,聊个天都得等半天,体验很差。

1.2 工具调用能力(Function Calling)

如果你用的是 OpenClaw 这类 AI Agent 框架,工具调用能力是硬性要求。模型不支持,Skills 就完全跑不起来。

⚠️ 重要提示: 不是所有模型都支持工具调用!选模型前一定要确认这一点。

第二章:硬件支持情况

2.1 Ollama 支持的硬件

Ollama 支持以下硬件配置:

  • NVIDIA GPU: RTX 40xx/30xx/20xx 系列,GTX 10xx/9xx 系列
  • AMD GPU: 支持 ROCm 的显卡
  • Apple Silicon: M1/M2/M3 系列芯片
  • CPU: x86_64 或 ARM64 架构(无独立显卡时使用)

2.2 NVIDIA 显卡兼容列表

运行 nvidia-smi 查看当前显卡信息:

系列代表型号支持状态
RTX 40xx4090, 4080, 4070, 4060✅ 完全支持
RTX 30xx3090, 3080, 3070, 3060✅ 完全支持
RTX 20xx2080, 2070, 2060✅ 完全支持
GTX 10xx1080, 1070, 1060✅ 支持
GTX 9xx970, 960✅ 支持

第三章:配置 - 模型对照表

3.1 显存需求估算

快速估算公式(4-bit 量化): 模型参数量(B)× 0.7 ≈ 显存占用(GB)

常见模型实际占用参考:

模型参数量显存占用(Q4 量化)
gemma3:1b1B~0.8 GB
phi4-mini3.8B~2.5 GB
llama3.2:3b3B~2 GB
qwen2.5:7b7B~5 GB
llama3.1:8b8B~5.5 GB
mistral:7b7B~4.5 GB
qwen2.5:14b14B~9 GB
mistral-nemo:12b12B~8 GB
qwen2.5:32b32B~20 GB
qwq:32b32B~20 GB
llama3.3:70b70B~40 GB

3.2 根据显存选模型

4GB 显存(入门级)

入门推荐,选小而精的模型:

  1. phi4-mini(3.8B,~2.5GB)⭐ 首选,微软出品,支持工具调用,4GB 显存跑得动
  2. qwen2.5:1.5b(1.5B,~1.2GB)性价比高,阿里出品
  3. llama3.2:1b(1B,~0.8GB)Meta 小模型,快但能力有限

8GB 显存(主流级)

这个档位性价比最高,主力机器推荐配置:

  1. qwen2.5:7b(7B,~5GB)⭐ 首选,综合能力强,工具调用质量高
  2. llama3.1:8b(8B,~5.5GB)Meta 出品,综合最佳之一
  3. mistral:7b(7B,~4.5GB)经典 7B,工具调用稳定

16GB 显存(进阶级)

可以跑 14B 级别的模型,体验明显提升:

  1. qwen2.5:14b(14B,~9GB)⭐ 强烈推荐,工具调用质量高,16GB 显存的最优解
  2. mistral-nemo:12b(12B,~8GB)Mistral 出品,表现稳定

⚠️ 注意: phi4(14B 版本)本体不支持工具调用,如需工具调用请用 phi4-mini 或 phi4-tools 社区版。

24GB+ 显存(高端级)

顶配体验,企业或发烧友级别:

  1. qwen2.5:32b(32B,~20GB)⭐ 顶级开源模型,效果接近 GPT-4
  2. qwq:32b(32B,~20GB)推理特化,擅长复杂逻辑任务
  3. llama3.3:70b(70B,~40GB)需要 48GB 显存,建议双卡

48GB+ 显存(专业级)

  • qwen2.5:72b(72B,~45GB)旗舰模型,极强综合能力

3.3 纯 CPU 方案(无显卡)

没有独立显卡也能跑,但要有心理准备:

  • 速度慢: 7B 模型通常只有 2~5 tokens/s
  • 内存需求大: 至少需要 16GB 系统内存
  • 推荐选择 1.5B~3B 小模型: qwen2.5:1.5b 或 llama3.2:1b

第四章:支持工具调用的模型清单

如果你用 OpenClaw 的 Skills 功能,必须选这部分的模型。

4.1 强烈推荐

⭐⭐⭐⭐⭐ qwen2.5 系列(0.5B~72B)

  • 阿里通义千问,工具调用质量最强
  • 推荐:qwen2.5:7b / qwen2.5:14b / qwen2.5:32b

⭐⭐⭐⭐⭐ qwen3 系列(0.6B~235B)

  • 2025 年发布的最新一代,比 qwen2.5 更强
  • 含稠密模型(0.6B/1.7B/4B/8B/14B/32B)和 MoE 模型(30B-A3B/235B-A22B)
  • MoE 架构:参数量大,但实际推理时只激活一小部分,显存占用比参数量少很多
  • 推荐:qwen3:8b / qwen3:14b / qwen3:30b-a3b

⭐⭐⭐⭐⭐ llama3.1 系列(8B/70B)

  • Meta 官方,工具调用支持完善,综合能力强
  • 推荐:llama3.1:8b(8GB 显存的最佳选择之一)

⭐⭐⭐⭐ llama3.2 系列(1B/3B)

  • Meta 轻量小模型,适合入门或资源受限场景

⭐⭐⭐⭐ mistral:7b

  • 经典 7B 模型,工具调用稳定可靠

⭐⭐⭐⭐ gemma3 系列(1B/4B/12B/27B)

  • Google 于 2025 年 3 月发布,已原生支持工具调用,同时支持多模态(视觉理解)
  • 推荐:gemma3:4b / gemma3:12b

⭐⭐⭐⭐ phi4-mini(3.8B)

  • 微软 2025 年 2 月发布,官方支持工具调用
  • 4GB 显存下效果最佳的工具调用模型

4.2 可用但效果一般

模型说明
deepseek-r1推理模型,工具调用支持有限,慎用
mistral-nemo:12b效果尚可,但不算优秀
command-r:35b专为 RAG 检索场景设计
phi4(14B 原版)强推理能力,但不支持工具调用;可用社区版 phi4-tools

4.3 不支持工具调用(重要!)

以下模型无法用于 OpenClaw 的 Skills 功能,适合纯聊天或文本生成场景:

模型说明
❌ codellamaMeta 专为代码设计,无工具调用
❌ llama2已过时,无工具调用,不推荐使用

📌 注意: gemma3(新版)和 phi4-mini 已经支持工具调用,如果你看过旧文章说它们不支持,那是过时的信息。

第五章:OpenClaw 配置实战

5.1 安装 Ollama

macOS / Linux:

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows: 直接下载安装包:https://ollama.com/download

5.2 下载推荐模型

根据你的显存情况,拉取对应模型:

bash
# 4GB 显存
ollama pull phi4-mini

# 8GB 显存
ollama pull qwen2.5:7b

# 16GB 显存
ollama pull qwen2.5:14b

# 24GB+ 显存
ollama pull qwen2.5:32b

5.3 配置 OpenClaw

编辑 ~/.openclaw/config.json,将 defaultModel 设置为你拉取的模型名称:

json
{
  "defaultModel": "qwen2.5:7b",
  "ollama": {
    "endpoint": "http://localhost:11434"
  }
}

重启 OpenClaw 网关使配置生效:

bash
openclaw gateway restart

第六章:常见问题

Q1:怎么确认模型跑在 GPU 上?

运行 ollama ps,看输出里有没有显卡信息。如果是 100% CPU,说明没有走 GPU。

示例输出:

NAME              ID           SIZE      PROCESSOR    UNTIL
qwen2.5:7b        1234567890   4.7 GB    100% GPU     5 minutes from now

Q2:推理速度很慢怎么办?

先检查 ollama ps 确认是否加载到 GPU;如果显存不足,Ollama 会把一部分 layer 放到 CPU 上,速度会变慢。

解决方案:

  • 换小模型
  • 减少其他占用显存的程序(游戏、其他 AI 工具等)
  • 考虑使用 MoE 模型(如 qwen3:30b-a3b,实际激活参数只有 3B)

Q3:Skills 功能不工作怎么办?

检查两件事:

  1. 模型是否支持工具调用(参考第四章清单)
  2. OpenClaw 配置里的模型名称是否正确

验证配置:

bash
# 检查 OpenClaw 配置
cat ~/.openclaw/config.json | grep defaultModel

# 测试模型是否支持工具调用
ollama run 模型名 "请用工具调用方式查询天气"

Q4:显存不足报错怎么办?

解决方案:

  • 换参数量更小的模型
  • 关掉其他占显存的程序(游戏、其他 AI 工具等)
  • 考虑使用 MoE 模型(如 qwen3:30b-a3b,实际激活参数只有 3B)
  • 使用量化版本:ollama pull qwen2.5:7b-q4_0

Q5:如何查看当前运行的模型?

bash
# 查看正在运行的模型
ollama ps

# 查看已下载的模型列表
ollama list

# 查看模型详细信息
ollama show 模型名

Q6:如何切换模型?

bash
# 停止当前模型(可选)
ollama stop 当前模型名

# 下载新模型
ollama pull 新模型名

# 修改 OpenClaw 配置
# 编辑 ~/.openclaw/config.json,修改 defaultModel

# 重启 OpenClaw
openclaw gateway restart

第七章:性能优化建议

7.1 显存优化

  1. 使用量化模型: Q4 量化比 FP16 节省约 50% 显存
  2. 关闭其他 GPU 应用: 浏览器硬件加速、游戏等
  3. 限制上下文长度: 在 OpenClaw 配置中设置 maxContextLength

7.2 速度优化

  1. 优先使用 GPU: 确保模型加载到显存
  2. 使用 Flash Attention: Ollama 默认启用
  3. 批量处理请求: 减少 API 调用次数

7.3 稳定性优化

  1. 定期更新 Ollama: ollama update
  2. 监控显存温度: 使用 nvidia-smirocm-smi
  3. 设置合理的超时: 避免长时间无响应

✅ 一页纸行动清单

  1. ✅ 检查硬件配置(运行 nvidia-smi 或查看系统信息)
  2. ✅ 根据显存选择合适模型(参考第三章对照表)
  3. ✅ 确认模型支持工具调用(参考第四章清单)
  4. ✅ 安装 Ollama(macOS/Linux 一键脚本,Windows 下载安装包)
  5. ✅ 下载模型:ollama pull 模型名
  6. ✅ 验证 GPU 加载:ollama ps
  7. ✅ 配置 OpenClaw(编辑 ~/.openclaw/config.json
  8. ✅ 重启 OpenClaw:openclaw gateway restart
  9. ✅ 测试 Skills 功能
  10. ✅ 遇到问题查看第六章常见问题

总结

选模型记住四条原则:

  1. 有显卡用 GPU,CPU 跑 AI 体验差
  2. 必须支持工具调用,不然 OpenClaw Skills 都用不了
  3. 优先 qwen2.5 或 qwen3 系列,工具调用质量最高
  4. 显存不够就用更小的模型,别强行上大模型

本地部署的优势在于:

  • 🔒 隐私安全 - 数据不出本地
  • 💰 零成本 - 无需 API 费用
  • 低延迟 - 无需网络请求
  • 🎯 可定制 - 完全掌控模型配置

现在就开始配置你的本地 AI 环境吧!

参考资源


来源: 微信公众号整理

原始链接: https://mp.weixin.qq.com/s/dqrPGM_EdS_8wyaE-a-kzg

Released under the MIT License.