OpenClaw + Ollama 完整配置指南 - 从选模型到跑起来

发布日期： 2026-03-21 | 字数： 约 7500 字 | 阅读时间： 约 12 分钟

概述

想在本地跑大模型，但不知道自己的电脑能跑什么？显存不够会不会爆？工具调用又是怎么回事？这篇文章帮你彻底搞清楚 OpenClaw 与 Ollama 的完整配置流程。

通过本教程，你将掌握：

显存与内存的区别及选择原则
根据硬件配置选择合适的模型
工具调用（Function Calling）的支持情况
OpenClaw 配置实战步骤
常见问题解决方案

第一章：核心概念

1.1 显存（VRAM）vs 内存（RAM）

很多人分不清这两个概念，简单说：

显存（VRAM）

显卡自带的内存
模型优先加载到这里
速度快、推理流畅

内存（RAM）

主板上的系统内存
显存不够用时才会用到
速度慢很多

结论： 有独立显卡，优先用 GPU 跑。CPU 不是不能跑，但 7B 模型可能只有 2~5 tokens/s，聊个天都得等半天，体验很差。

1.2 工具调用能力（Function Calling）

如果你用的是 OpenClaw 这类 AI Agent 框架，工具调用能力是硬性要求。模型不支持，Skills 就完全跑不起来。

⚠️ 重要提示： 不是所有模型都支持工具调用！选模型前一定要确认这一点。

第二章：硬件支持情况

2.1 Ollama 支持的硬件

Ollama 支持以下硬件配置：

NVIDIA GPU： RTX 40xx/30xx/20xx 系列，GTX 10xx/9xx 系列
AMD GPU： 支持 ROCm 的显卡
Apple Silicon： M1/M2/M3 系列芯片
CPU： x86_64 或 ARM64 架构（无独立显卡时使用）

2.2 NVIDIA 显卡兼容列表

运行 nvidia-smi 查看当前显卡信息：

系列	代表型号	支持状态
RTX 40xx	4090, 4080, 4070, 4060	✅ 完全支持
RTX 30xx	3090, 3080, 3070, 3060	✅ 完全支持
RTX 20xx	2080, 2070, 2060	✅ 完全支持
GTX 10xx	1080, 1070, 1060	✅ 支持
GTX 9xx	970, 960	✅ 支持

第三章：配置 - 模型对照表

3.1 显存需求估算

快速估算公式（4-bit 量化）： 模型参数量（B）× 0.7 ≈ 显存占用（GB）

常见模型实际占用参考：

模型	参数量	显存占用（Q4 量化）
gemma3:1b	1B	~0.8 GB
phi4-mini	3.8B	~2.5 GB
llama3.2:3b	3B	~2 GB
qwen2.5:7b	7B	~5 GB
llama3.1:8b	8B	~5.5 GB
mistral:7b	7B	~4.5 GB
qwen2.5:14b	14B	~9 GB
mistral-nemo:12b	12B	~8 GB
qwen2.5:32b	32B	~20 GB
qwq:32b	32B	~20 GB
llama3.3:70b	70B	~40 GB

3.2 根据显存选模型

4GB 显存（入门级）

入门推荐，选小而精的模型：

phi4-mini（3.8B，~2.5GB）⭐ 首选，微软出品，支持工具调用，4GB 显存跑得动
qwen2.5:1.5b（1.5B，~1.2GB）性价比高，阿里出品
llama3.2:1b（1B，~0.8GB）Meta 小模型，快但能力有限

8GB 显存（主流级）

这个档位性价比最高，主力机器推荐配置：

qwen2.5:7b（7B，~5GB）⭐ 首选，综合能力强，工具调用质量高
llama3.1:8b（8B，~5.5GB）Meta 出品，综合最佳之一
mistral:7b（7B，~4.5GB）经典 7B，工具调用稳定

16GB 显存（进阶级）

可以跑 14B 级别的模型，体验明显提升：

qwen2.5:14b（14B，~9GB）⭐ 强烈推荐，工具调用质量高，16GB 显存的最优解
mistral-nemo:12b（12B，~8GB）Mistral 出品，表现稳定

⚠️ 注意： phi4（14B 版本）本体不支持工具调用，如需工具调用请用 phi4-mini 或 phi4-tools 社区版。

24GB+ 显存（高端级）

顶配体验，企业或发烧友级别：

qwen2.5:32b（32B，~20GB）⭐ 顶级开源模型，效果接近 GPT-4
qwq:32b（32B，~20GB）推理特化，擅长复杂逻辑任务
llama3.3:70b（70B，~40GB）需要 48GB 显存，建议双卡

48GB+ 显存（专业级）

qwen2.5:72b（72B，~45GB）旗舰模型，极强综合能力

3.3 纯 CPU 方案（无显卡）

没有独立显卡也能跑，但要有心理准备：

速度慢： 7B 模型通常只有 2~5 tokens/s
内存需求大： 至少需要 16GB 系统内存
推荐选择 1.5B~3B 小模型： qwen2.5:1.5b 或 llama3.2:1b

第四章：支持工具调用的模型清单

如果你用 OpenClaw 的 Skills 功能，必须选这部分的模型。

4.1 强烈推荐

⭐⭐⭐⭐⭐ qwen2.5 系列（0.5B~72B）

阿里通义千问，工具调用质量最强
推荐：qwen2.5:7b / qwen2.5:14b / qwen2.5:32b

⭐⭐⭐⭐⭐ qwen3 系列（0.6B~235B）

2025 年发布的最新一代，比 qwen2.5 更强
含稠密模型（0.6B/1.7B/4B/8B/14B/32B）和 MoE 模型（30B-A3B/235B-A22B）
MoE 架构：参数量大，但实际推理时只激活一小部分，显存占用比参数量少很多
推荐：qwen3:8b / qwen3:14b / qwen3:30b-a3b

⭐⭐⭐⭐⭐ llama3.1 系列（8B/70B）

Meta 官方，工具调用支持完善，综合能力强
推荐：llama3.1:8b（8GB 显存的最佳选择之一）

⭐⭐⭐⭐ llama3.2 系列（1B/3B）

Meta 轻量小模型，适合入门或资源受限场景

⭐⭐⭐⭐ mistral:7b

经典 7B 模型，工具调用稳定可靠

⭐⭐⭐⭐ gemma3 系列（1B/4B/12B/27B）

Google 于 2025 年 3 月发布，已原生支持工具调用，同时支持多模态（视觉理解）
推荐：gemma3:4b / gemma3:12b

⭐⭐⭐⭐ phi4-mini（3.8B）

微软 2025 年 2 月发布，官方支持工具调用
4GB 显存下效果最佳的工具调用模型

4.2 可用但效果一般

模型	说明
deepseek-r1	推理模型，工具调用支持有限，慎用
mistral-nemo:12b	效果尚可，但不算优秀
command-r:35b	专为 RAG 检索场景设计
phi4（14B 原版）	强推理能力，但不支持工具调用；可用社区版 phi4-tools

4.3 不支持工具调用（重要！）

以下模型无法用于 OpenClaw 的 Skills 功能，适合纯聊天或文本生成场景：

模型	说明
❌ codellama	Meta 专为代码设计，无工具调用
❌ llama2	已过时，无工具调用，不推荐使用

📌 注意： gemma3（新版）和 phi4-mini 已经支持工具调用，如果你看过旧文章说它们不支持，那是过时的信息。

第五章：OpenClaw 配置实战

5.1 安装 Ollama

macOS / Linux：

bash

curl -fsSL https://ollama.com/install.sh | sh

Windows： 直接下载安装包：https://ollama.com/download

5.2 下载推荐模型

根据你的显存情况，拉取对应模型：

bash

# 4GB 显存
ollama pull phi4-mini

# 8GB 显存
ollama pull qwen2.5:7b

# 16GB 显存
ollama pull qwen2.5:14b

# 24GB+ 显存
ollama pull qwen2.5:32b

5.3 配置 OpenClaw

编辑 ~/.openclaw/config.json，将 defaultModel 设置为你拉取的模型名称：

json

{
  "defaultModel": "qwen2.5:7b",
  "ollama": {
    "endpoint": "http://localhost:11434"
  }
}

重启 OpenClaw 网关使配置生效：

bash

openclaw gateway restart

第六章：常见问题

Q1：怎么确认模型跑在 GPU 上？

运行 ollama ps，看输出里有没有显卡信息。如果是 100% CPU，说明没有走 GPU。

示例输出：

NAME              ID           SIZE      PROCESSOR    UNTIL
qwen2.5:7b        1234567890   4.7 GB    100% GPU     5 minutes from now

Q2：推理速度很慢怎么办？

先检查 ollama ps 确认是否加载到 GPU；如果显存不足，Ollama 会把一部分 layer 放到 CPU 上，速度会变慢。

解决方案：

换小模型
减少其他占用显存的程序（游戏、其他 AI 工具等）
考虑使用 MoE 模型（如 qwen3:30b-a3b，实际激活参数只有 3B）

Q3：Skills 功能不工作怎么办？

检查两件事：

模型是否支持工具调用（参考第四章清单）
OpenClaw 配置里的模型名称是否正确

验证配置：

bash

# 检查 OpenClaw 配置
cat ~/.openclaw/config.json | grep defaultModel

# 测试模型是否支持工具调用
ollama run 模型名 "请用工具调用方式查询天气"

Q4：显存不足报错怎么办？

解决方案：

换参数量更小的模型
关掉其他占显存的程序（游戏、其他 AI 工具等）
考虑使用 MoE 模型（如 qwen3:30b-a3b，实际激活参数只有 3B）
使用量化版本：ollama pull qwen2.5:7b-q4_0

Q5：如何查看当前运行的模型？

bash

# 查看正在运行的模型
ollama ps

# 查看已下载的模型列表
ollama list

# 查看模型详细信息
ollama show 模型名

Q6：如何切换模型？

bash

# 停止当前模型（可选）
ollama stop 当前模型名

# 下载新模型
ollama pull 新模型名

# 修改 OpenClaw 配置
# 编辑 ~/.openclaw/config.json，修改 defaultModel

# 重启 OpenClaw
openclaw gateway restart

第七章：性能优化建议

7.1 显存优化

使用量化模型： Q4 量化比 FP16 节省约 50% 显存
关闭其他 GPU 应用： 浏览器硬件加速、游戏等
限制上下文长度： 在 OpenClaw 配置中设置 maxContextLength

7.2 速度优化

优先使用 GPU： 确保模型加载到显存
使用 Flash Attention： Ollama 默认启用
批量处理请求： 减少 API 调用次数

7.3 稳定性优化

定期更新 Ollama： ollama update
监控显存温度： 使用 nvidia-smi 或 rocm-smi
设置合理的超时： 避免长时间无响应

✅ 一页纸行动清单

✅ 检查硬件配置（运行 nvidia-smi 或查看系统信息）
✅ 根据显存选择合适模型（参考第三章对照表）
✅ 确认模型支持工具调用（参考第四章清单）
✅ 安装 Ollama（macOS/Linux 一键脚本，Windows 下载安装包）
✅ 下载模型：ollama pull 模型名
✅ 验证 GPU 加载：ollama ps
✅ 配置 OpenClaw（编辑 ~/.openclaw/config.json）
✅ 重启 OpenClaw：openclaw gateway restart
✅ 测试 Skills 功能
✅ 遇到问题查看第六章常见问题

总结

选模型记住四条原则：

有显卡用 GPU，CPU 跑 AI 体验差
必须支持工具调用，不然 OpenClaw Skills 都用不了
优先 qwen2.5 或 qwen3 系列，工具调用质量最高
显存不够就用更小的模型，别强行上大模型

本地部署的优势在于：

🔒 隐私安全 - 数据不出本地
💰 零成本 - 无需 API 费用
⚡ 低延迟 - 无需网络请求
🎯 可定制 - 完全掌控模型配置

现在就开始配置你的本地 AI 环境吧！

参考资源

Ollama 官网： https://ollama.com/
Ollama 模型库： https://ollama.com/library
OpenClaw 文档： https://docs.openclaw.ai
qwen2.5 论文： https://arxiv.org/abs/2412.15115
qwen3 技术报告： https://qwenlm.github.io/

来源： 微信公众号整理

原始链接： https://mp.weixin.qq.com/s/dqrPGM_EdS_8wyaE-a-kzg

OpenClaw + Ollama 完整配置指南 - 从选模型到跑起来 ​

概述 ​

第一章：核心概念 ​

1.1 显存（VRAM）vs 内存（RAM） ​

1.2 工具调用能力（Function Calling） ​

第二章：硬件支持情况 ​

2.1 Ollama 支持的硬件 ​

2.2 NVIDIA 显卡兼容列表 ​

第三章：配置 - 模型对照表 ​

3.1 显存需求估算 ​

3.2 根据显存选模型 ​

4GB 显存（入门级） ​

8GB 显存（主流级） ​

16GB 显存（进阶级） ​

24GB+ 显存（高端级） ​

48GB+ 显存（专业级） ​

3.3 纯 CPU 方案（无显卡） ​

第四章：支持工具调用的模型清单 ​

4.1 强烈推荐 ​

⭐⭐⭐⭐⭐ qwen2.5 系列（0.5B~72B） ​

⭐⭐⭐⭐⭐ qwen3 系列（0.6B~235B） ​

⭐⭐⭐⭐⭐ llama3.1 系列（8B/70B） ​

⭐⭐⭐⭐ llama3.2 系列（1B/3B） ​

⭐⭐⭐⭐ mistral:7b ​

⭐⭐⭐⭐ gemma3 系列（1B/4B/12B/27B） ​

⭐⭐⭐⭐ phi4-mini（3.8B） ​

4.2 可用但效果一般 ​

4.3 不支持工具调用（重要！） ​

第五章：OpenClaw 配置实战 ​

5.1 安装 Ollama ​

5.2 下载推荐模型 ​

5.3 配置 OpenClaw ​

第六章：常见问题 ​

Q1：怎么确认模型跑在 GPU 上？ ​

Q2：推理速度很慢怎么办？ ​

Q3：Skills 功能不工作怎么办？ ​

Q4：显存不足报错怎么办？ ​

Q5：如何查看当前运行的模型？ ​

Q6：如何切换模型？ ​

第七章：性能优化建议 ​

7.1 显存优化 ​

7.2 速度优化 ​

7.3 稳定性优化 ​

✅ 一页纸行动清单 ​

总结 ​

参考资源 ​

OpenClaw + Ollama 完整配置指南 - 从选模型到跑起来

概述

第一章：核心概念

1.1 显存（VRAM）vs 内存（RAM）

1.2 工具调用能力（Function Calling）

第二章：硬件支持情况

2.1 Ollama 支持的硬件

2.2 NVIDIA 显卡兼容列表

第三章：配置 - 模型对照表

3.1 显存需求估算

3.2 根据显存选模型

4GB 显存（入门级）

8GB 显存（主流级）

16GB 显存（进阶级）

24GB+ 显存（高端级）

48GB+ 显存（专业级）

3.3 纯 CPU 方案（无显卡）

第四章：支持工具调用的模型清单

4.1 强烈推荐

⭐⭐⭐⭐⭐ qwen2.5 系列（0.5B~72B）

⭐⭐⭐⭐⭐ qwen3 系列（0.6B~235B）

⭐⭐⭐⭐⭐ llama3.1 系列（8B/70B）

⭐⭐⭐⭐ llama3.2 系列（1B/3B）

⭐⭐⭐⭐ mistral:7b

⭐⭐⭐⭐ gemma3 系列（1B/4B/12B/27B）

⭐⭐⭐⭐ phi4-mini（3.8B）

4.2 可用但效果一般

4.3 不支持工具调用（重要！）

第五章：OpenClaw 配置实战

5.1 安装 Ollama

5.2 下载推荐模型

5.3 配置 OpenClaw

第六章：常见问题

Q1：怎么确认模型跑在 GPU 上？

Q2：推理速度很慢怎么办？

Q3：Skills 功能不工作怎么办？

Q4：显存不足报错怎么办？

Q5：如何查看当前运行的模型？

Q6：如何切换模型？

第七章：性能优化建议

7.1 显存优化

7.2 速度优化

7.3 稳定性优化

✅ 一页纸行动清单

总结

参考资源