OpenClaw + Ollama 完整配置指南 - 从选模型到跑起来
发布日期: 2026-03-21 | 字数: 约 7500 字 | 阅读时间: 约 12 分钟
概述
想在本地跑大模型,但不知道自己的电脑能跑什么?显存不够会不会爆?工具调用又是怎么回事?这篇文章帮你彻底搞清楚 OpenClaw 与 Ollama 的完整配置流程。
通过本教程,你将掌握:
- 显存与内存的区别及选择原则
- 根据硬件配置选择合适的模型
- 工具调用(Function Calling)的支持情况
- OpenClaw 配置实战步骤
- 常见问题解决方案
第一章:核心概念
1.1 显存(VRAM)vs 内存(RAM)
很多人分不清这两个概念,简单说:
显存(VRAM)
- 显卡自带的内存
- 模型优先加载到这里
- 速度快、推理流畅
内存(RAM)
- 主板上的系统内存
- 显存不够用时才会用到
- 速度慢很多
结论: 有独立显卡,优先用 GPU 跑。CPU 不是不能跑,但 7B 模型可能只有 2~5 tokens/s,聊个天都得等半天,体验很差。
1.2 工具调用能力(Function Calling)
如果你用的是 OpenClaw 这类 AI Agent 框架,工具调用能力是硬性要求。模型不支持,Skills 就完全跑不起来。
⚠️ 重要提示: 不是所有模型都支持工具调用!选模型前一定要确认这一点。
第二章:硬件支持情况
2.1 Ollama 支持的硬件
Ollama 支持以下硬件配置:
- NVIDIA GPU: RTX 40xx/30xx/20xx 系列,GTX 10xx/9xx 系列
- AMD GPU: 支持 ROCm 的显卡
- Apple Silicon: M1/M2/M3 系列芯片
- CPU: x86_64 或 ARM64 架构(无独立显卡时使用)
2.2 NVIDIA 显卡兼容列表
运行 nvidia-smi 查看当前显卡信息:
| 系列 | 代表型号 | 支持状态 |
|---|---|---|
| RTX 40xx | 4090, 4080, 4070, 4060 | ✅ 完全支持 |
| RTX 30xx | 3090, 3080, 3070, 3060 | ✅ 完全支持 |
| RTX 20xx | 2080, 2070, 2060 | ✅ 完全支持 |
| GTX 10xx | 1080, 1070, 1060 | ✅ 支持 |
| GTX 9xx | 970, 960 | ✅ 支持 |
第三章:配置 - 模型对照表
3.1 显存需求估算
快速估算公式(4-bit 量化): 模型参数量(B)× 0.7 ≈ 显存占用(GB)
常见模型实际占用参考:
| 模型 | 参数量 | 显存占用(Q4 量化) |
|---|---|---|
| gemma3:1b | 1B | ~0.8 GB |
| phi4-mini | 3.8B | ~2.5 GB |
| llama3.2:3b | 3B | ~2 GB |
| qwen2.5:7b | 7B | ~5 GB |
| llama3.1:8b | 8B | ~5.5 GB |
| mistral:7b | 7B | ~4.5 GB |
| qwen2.5:14b | 14B | ~9 GB |
| mistral-nemo:12b | 12B | ~8 GB |
| qwen2.5:32b | 32B | ~20 GB |
| qwq:32b | 32B | ~20 GB |
| llama3.3:70b | 70B | ~40 GB |
3.2 根据显存选模型
4GB 显存(入门级)
入门推荐,选小而精的模型:
- phi4-mini(3.8B,~2.5GB)⭐ 首选,微软出品,支持工具调用,4GB 显存跑得动
- qwen2.5:1.5b(1.5B,~1.2GB)性价比高,阿里出品
- llama3.2:1b(1B,~0.8GB)Meta 小模型,快但能力有限
8GB 显存(主流级)
这个档位性价比最高,主力机器推荐配置:
- qwen2.5:7b(7B,~5GB)⭐ 首选,综合能力强,工具调用质量高
- llama3.1:8b(8B,~5.5GB)Meta 出品,综合最佳之一
- mistral:7b(7B,~4.5GB)经典 7B,工具调用稳定
16GB 显存(进阶级)
可以跑 14B 级别的模型,体验明显提升:
- qwen2.5:14b(14B,~9GB)⭐ 强烈推荐,工具调用质量高,16GB 显存的最优解
- mistral-nemo:12b(12B,~8GB)Mistral 出品,表现稳定
⚠️ 注意: phi4(14B 版本)本体不支持工具调用,如需工具调用请用 phi4-mini 或 phi4-tools 社区版。
24GB+ 显存(高端级)
顶配体验,企业或发烧友级别:
- qwen2.5:32b(32B,~20GB)⭐ 顶级开源模型,效果接近 GPT-4
- qwq:32b(32B,~20GB)推理特化,擅长复杂逻辑任务
- llama3.3:70b(70B,~40GB)需要 48GB 显存,建议双卡
48GB+ 显存(专业级)
- qwen2.5:72b(72B,~45GB)旗舰模型,极强综合能力
3.3 纯 CPU 方案(无显卡)
没有独立显卡也能跑,但要有心理准备:
- 速度慢: 7B 模型通常只有 2~5 tokens/s
- 内存需求大: 至少需要 16GB 系统内存
- 推荐选择 1.5B~3B 小模型: qwen2.5:1.5b 或 llama3.2:1b
第四章:支持工具调用的模型清单
如果你用 OpenClaw 的 Skills 功能,必须选这部分的模型。
4.1 强烈推荐
⭐⭐⭐⭐⭐ qwen2.5 系列(0.5B~72B)
- 阿里通义千问,工具调用质量最强
- 推荐:
qwen2.5:7b/qwen2.5:14b/qwen2.5:32b
⭐⭐⭐⭐⭐ qwen3 系列(0.6B~235B)
- 2025 年发布的最新一代,比 qwen2.5 更强
- 含稠密模型(0.6B/1.7B/4B/8B/14B/32B)和 MoE 模型(30B-A3B/235B-A22B)
- MoE 架构:参数量大,但实际推理时只激活一小部分,显存占用比参数量少很多
- 推荐:
qwen3:8b/qwen3:14b/qwen3:30b-a3b
⭐⭐⭐⭐⭐ llama3.1 系列(8B/70B)
- Meta 官方,工具调用支持完善,综合能力强
- 推荐:
llama3.1:8b(8GB 显存的最佳选择之一)
⭐⭐⭐⭐ llama3.2 系列(1B/3B)
- Meta 轻量小模型,适合入门或资源受限场景
⭐⭐⭐⭐ mistral:7b
- 经典 7B 模型,工具调用稳定可靠
⭐⭐⭐⭐ gemma3 系列(1B/4B/12B/27B)
- Google 于 2025 年 3 月发布,已原生支持工具调用,同时支持多模态(视觉理解)
- 推荐:
gemma3:4b/gemma3:12b
⭐⭐⭐⭐ phi4-mini(3.8B)
- 微软 2025 年 2 月发布,官方支持工具调用
- 4GB 显存下效果最佳的工具调用模型
4.2 可用但效果一般
| 模型 | 说明 |
|---|---|
| deepseek-r1 | 推理模型,工具调用支持有限,慎用 |
| mistral-nemo:12b | 效果尚可,但不算优秀 |
| command-r:35b | 专为 RAG 检索场景设计 |
| phi4(14B 原版) | 强推理能力,但不支持工具调用;可用社区版 phi4-tools |
4.3 不支持工具调用(重要!)
以下模型无法用于 OpenClaw 的 Skills 功能,适合纯聊天或文本生成场景:
| 模型 | 说明 |
|---|---|
| ❌ codellama | Meta 专为代码设计,无工具调用 |
| ❌ llama2 | 已过时,无工具调用,不推荐使用 |
📌 注意: gemma3(新版)和 phi4-mini 已经支持工具调用,如果你看过旧文章说它们不支持,那是过时的信息。
第五章:OpenClaw 配置实战
5.1 安装 Ollama
macOS / Linux:
curl -fsSL https://ollama.com/install.sh | shWindows: 直接下载安装包:https://ollama.com/download
5.2 下载推荐模型
根据你的显存情况,拉取对应模型:
# 4GB 显存
ollama pull phi4-mini
# 8GB 显存
ollama pull qwen2.5:7b
# 16GB 显存
ollama pull qwen2.5:14b
# 24GB+ 显存
ollama pull qwen2.5:32b5.3 配置 OpenClaw
编辑 ~/.openclaw/config.json,将 defaultModel 设置为你拉取的模型名称:
{
"defaultModel": "qwen2.5:7b",
"ollama": {
"endpoint": "http://localhost:11434"
}
}重启 OpenClaw 网关使配置生效:
openclaw gateway restart第六章:常见问题
Q1:怎么确认模型跑在 GPU 上?
运行 ollama ps,看输出里有没有显卡信息。如果是 100% CPU,说明没有走 GPU。
示例输出:
NAME ID SIZE PROCESSOR UNTIL
qwen2.5:7b 1234567890 4.7 GB 100% GPU 5 minutes from nowQ2:推理速度很慢怎么办?
先检查 ollama ps 确认是否加载到 GPU;如果显存不足,Ollama 会把一部分 layer 放到 CPU 上,速度会变慢。
解决方案:
- 换小模型
- 减少其他占用显存的程序(游戏、其他 AI 工具等)
- 考虑使用 MoE 模型(如 qwen3:30b-a3b,实际激活参数只有 3B)
Q3:Skills 功能不工作怎么办?
检查两件事:
- 模型是否支持工具调用(参考第四章清单)
- OpenClaw 配置里的模型名称是否正确
验证配置:
# 检查 OpenClaw 配置
cat ~/.openclaw/config.json | grep defaultModel
# 测试模型是否支持工具调用
ollama run 模型名 "请用工具调用方式查询天气"Q4:显存不足报错怎么办?
解决方案:
- 换参数量更小的模型
- 关掉其他占显存的程序(游戏、其他 AI 工具等)
- 考虑使用 MoE 模型(如 qwen3:30b-a3b,实际激活参数只有 3B)
- 使用量化版本:
ollama pull qwen2.5:7b-q4_0
Q5:如何查看当前运行的模型?
# 查看正在运行的模型
ollama ps
# 查看已下载的模型列表
ollama list
# 查看模型详细信息
ollama show 模型名Q6:如何切换模型?
# 停止当前模型(可选)
ollama stop 当前模型名
# 下载新模型
ollama pull 新模型名
# 修改 OpenClaw 配置
# 编辑 ~/.openclaw/config.json,修改 defaultModel
# 重启 OpenClaw
openclaw gateway restart第七章:性能优化建议
7.1 显存优化
- 使用量化模型: Q4 量化比 FP16 节省约 50% 显存
- 关闭其他 GPU 应用: 浏览器硬件加速、游戏等
- 限制上下文长度: 在 OpenClaw 配置中设置
maxContextLength
7.2 速度优化
- 优先使用 GPU: 确保模型加载到显存
- 使用 Flash Attention: Ollama 默认启用
- 批量处理请求: 减少 API 调用次数
7.3 稳定性优化
- 定期更新 Ollama:
ollama update - 监控显存温度: 使用
nvidia-smi或rocm-smi - 设置合理的超时: 避免长时间无响应
✅ 一页纸行动清单
- ✅ 检查硬件配置(运行
nvidia-smi或查看系统信息) - ✅ 根据显存选择合适模型(参考第三章对照表)
- ✅ 确认模型支持工具调用(参考第四章清单)
- ✅ 安装 Ollama(macOS/Linux 一键脚本,Windows 下载安装包)
- ✅ 下载模型:
ollama pull 模型名 - ✅ 验证 GPU 加载:
ollama ps - ✅ 配置 OpenClaw(编辑
~/.openclaw/config.json) - ✅ 重启 OpenClaw:
openclaw gateway restart - ✅ 测试 Skills 功能
- ✅ 遇到问题查看第六章常见问题
总结
选模型记住四条原则:
- 有显卡用 GPU,CPU 跑 AI 体验差
- 必须支持工具调用,不然 OpenClaw Skills 都用不了
- 优先 qwen2.5 或 qwen3 系列,工具调用质量最高
- 显存不够就用更小的模型,别强行上大模型
本地部署的优势在于:
- 🔒 隐私安全 - 数据不出本地
- 💰 零成本 - 无需 API 费用
- ⚡ 低延迟 - 无需网络请求
- 🎯 可定制 - 完全掌控模型配置
现在就开始配置你的本地 AI 环境吧!
参考资源
- Ollama 官网: https://ollama.com/
- Ollama 模型库: https://ollama.com/library
- OpenClaw 文档: https://docs.openclaw.ai
- qwen2.5 论文: https://arxiv.org/abs/2412.15115
- qwen3 技术报告: https://qwenlm.github.io/
来源: 微信公众号整理