OpenClaw 深度使用体验：从质疑到认可

一开始，我其实觉得 OpenClaw 没有任何存在的意义。直到我真的把它装起来，连续用了几天，我才意识到，自己一开始看错了方向。

来源：微信公众号
链接：https://mp.weixin.qq.com/s/woyniMn19AJhz5euaDg3NA
发布时间：2026-03-10 10:30
整理时间：2026-03-20

初识 OpenClaw：从质疑到认可

一开始，我其实觉得 OpenClaw 没有任何存在的意义。

那时候我的日常组合已经非常顺手了：Claude Code 负责写代码，Claude 和 ChatGPT 负责聊天、查资料、写东西。既然这套工作流已经足够强，我看 OpenClaw 的第一反应自然也很直接：它还能补上什么？

直到我真的把它装起来，连续用了几天，我才意识到，自己一开始看错了方向。

OpenClaw 最有意思的地方，不是它又做了一个聊天界面，也不是它把一堆 AI 功能简单堆在一起。它真正不一样的地方在于，它试图把三件原本分散的事，做成一个连续的整体：

记住我 - 长期记忆
替我执行 - 自动化能力
长期待在我最常用的聊天软件里 - 常驻入口

这三件事单独拆开看，其实都不新鲜。记忆，很多产品都在做；自动化，也早就不是新概念；接入聊天软件，更谈不上稀奇。OpenClaw 的价值不在某一项单点能力，而在于它把这些能力缝成了一种持续的日常体验。

只要配置对了，它就不再只是一个「偶尔打开用一下」的 AI 工具，而开始有点像一个真正常驻的私人助理。

核心挑战：模型能力是关键

但这件事有一个很硬的前提：模型必须足够强。

因为 OpenClaw 的工作环境，和你在网页上跟模型做一轮干净对话，根本不是一个难度级别。

在网页上，你问一句，模型理解一句，回答一句，任务相对单纯。但在 OpenClaw 里，模型面对的不是一个干净的问题，而是一整个混乱的工作现场：系统设定、长期记忆、当天日志、工具说明、最近几轮上下文、权限边界、外部状态……这些东西不是整整齐齐摆在它面前，而是一股脑地被塞进上下文窗口里。它必须自己判断：什么重要，什么不重要，什么该调用工具，什么只是背景噪音。

Token 消耗的真相

很多人对这件事的夸张程度，其实没有直观感受。前阵子我在小红书上看到一个很典型的例子：有人用腾讯云的免费额度装了 OpenClaw，以为 50 万 token 的额度够玩很久，结果跟它互动没几次，腾讯云就打电话来催欠费了。后来去后台一看，输入 token 的消耗已经超过了 1200 万。评论区里很多人都不理解：一句「你好」，怎么可能烧掉上万 token？如果自己直接调 API，发一句「你好」过去，明明也就几个 token，难道是云服务商在坑钱？

其实不是。问题出在 OpenClaw 的工作方式上。

因为它每一轮对话，都会把系统设定、长期记忆、当天日志、工具说明、最近几轮聊天记录，全部打包进同一个请求里，再一起发给模型。表面上看，你只是说了一句「你好」；但模型真正收到的，是一整份一万多 token 的「完整工作现场」，而那句「你好」只是压在最末尾的一小段。

可它为什么非要这么做？原因也很简单：大模型本身没有记忆。

你在网页上和 ChatGPT 聊天，关掉窗口，再开一个新的，它就什么都不记得了。OpenClaw 想让模型表现得像一个「认识我的助理」，唯一的办法，就是每次对话重新把这些事告诉它：我是谁，我平时怎么说话，我最近在忙什么，它手上有哪些工具可用，哪些事情做过，哪些事情还挂着。信息喂得越完整，它越有可能表现出一种「它一直都在」的感觉——接得上之前的话，知道我的习惯，该调工具的时候自己去调。代价当然也很明显：每一轮的 token 消耗都很高。

但这不是浪费，这是它能表现得像个助理，而不是像个只会复读的问答机的前提。

模型选择的三个标准

这也直接决定了两件事。第一，模型不仅要足够聪明，还得在成本上扛得住这样的消耗。第二，在这么庞大、嘈杂的上下文里，模型还能不能把注意力放在真正重要的信息上，变成了一个非常现实的考验。

所以后来我选模型，几乎不怎么看跑分排行榜，而是只看三件很实际的事：

它能不能在一堆杂乱背景里抓到真正关键的信息
它能不能稳定地连续调用工具，而不是做到一半就走偏
它能不能在上下文不断拉长之后，依然保持一致，不开始编造内容

这三件事，决定了一个模型到底能不能胜任 OpenClaw 这种「长期助手」的角色。闲聊的时候，很多模型都能显得很聪明；但一旦放进 OpenClaw 这种复杂环境里，差距会被迅速放大。

模型横评：谁最适合 OpenClaw？

我试了一大圈之后，结论还是很清楚：

🥇 Claude 系列 - 最靠谱

它在嘈杂上下文里抓重点的能力、连续调工具的稳定性，都做得最好，用起来最有那种「一直在同一个频道里」的连贯感。

🥈 GPT 5.4 - 最平衡

如果把成本也算进去，我现在觉得最平衡的，其实是 GPT 5.4。

在 5.4 出来之前，我一直主要用 GLM-5，备用模型挂着 Gemini 3.1 Pro 凑合着。5.4 发布之后，情况就不一样了。放到 OpenClaw 这种每天要聊很多次、而且经常要跑多步任务的环境里，它在稳定性、成本和综合体验之间找到了一个很少见的平衡。至于中文回复，虽然还是有一点互联网味，但比起以前已经顺了不少。

其他模型评价

模型	评价	原因
GPT 5.2	❌ 不好用	完全不值得继续浪费时间
GPT 5.3-Codex	⚠️ 偏科	调工具好，但中文回复生硬，像执行器不像助理
Gemini 3 Flash	⚠️ 心不在焉	看了记忆但不用，很难进入状态
Gemini 3.1 Pro	⚠️ 太慢	慢到让人难受，结果未必更好
Qwen3.5-Plus	⚠️ 不稳定	任务变深后问题暴露，多轮工具调用不稳
Kimi K2.5	⚠️ 一般	很多 Qwen 做不完的任务，Kimi 也一样做不完
MiniMax M2.5	❌ 失望	整体稳定性和可依赖性不够
GLM-5	✅ 勉强能用	启动时有 60-70% 概率能正确使用记忆

说得再直白一点，OpenClaw 这种系统，测的根本不是模型「会不会说话」，而是它在复杂环境里有没有足够的脑容量和控制力。

本地模型的建议

这也是为什么，我并不建议把本地小模型当成 OpenClaw 的主力。

很多人从隐私角度出发，会天然觉得本地模型更放心。这种担心当然是合理的。但 OpenClaw 还有另一层现实：它不是一个只在本地陪你闲聊的东西，它很可能还要替你看网页、读信息、拿着工具权限去执行操作。这个时候，模型越弱，越容易在复杂页面和恶意提示里被带偏。表面上看，好像是在保护隐私；但实际上，你可能是在把更高的权限，交给一个判断力更差的执行者。

所以如果让我在「更弱但本地」和「更强但需要隔离」之间二选一，我会优先选更强的模型，然后把环境隔离做好。因为只有模型足够强，OpenClaw 这种形态才真正站得住；也只有模型足够强，它在面对复杂网页和潜在 Prompt Injection 的时候，才更有可能稳得住。

换句话说，OpenClaw 首先要解决的，不是「它能不能像 AI 一样回答问题」，而是「它能不能像助理一样不掉链子」。

浏览器：给 AI 装眼睛和钥匙

模型选对之后，下一步其实就是权限。

我一开始也低估了浏览器的重要性。总觉得「能上网」只是锦上添花，真正决定体验的还是模型本身。后来我发现完全不是这样。对一个长期助手来说，没有浏览器，它基本就是半残的。

从搜索到调查

没接浏览器之前，你让它帮你查个东西，它通常只能用自带的搜索工具抓几条摘要回来。听起来好像也还行，但真正用起来你会很快发现，这和自己打开搜索引擎搜一下，其实没有本质区别。它看不到完整页面，读不了评论区，也没法顺着链接一层层点进去看具体内容。

比如我问它：「帮我看看我的车最近有没有什么召回消息。」没有浏览器的时候，它最多只能拼几条搜索摘要给我，信息零零散散，我还得自己再去核实。但有了浏览器之后，它就能真的打开论坛帖子，翻评论区，点进相关链接，甚至顺手给我截个图，再回来告诉我：「我看了三个主流车友论坛，目前没有明显的召回讨论，但有人在提 XX 问题，要不要我继续往下跟？」这就不是在帮我搜索了，这是在帮我调查。

登录态：给 AI 配钥匙

但光有浏览器还不够。更现实的问题是：AI 能打开网页，不等于它能打开「我的网页」。

很多网页，不登录根本没有意义。要看小红书，要进内网，要刷推文，能访问一个地址，并不代表它真的进入了我平时使用的互联网空间。它没有我的身份，也没有我的状态，更没有我的上下文。

所以在我看来，给 OpenClaw 配浏览器，不是让它学会上网，而是在给它装眼睛；让它进入那些需要身份和状态的页面，本质上是在给它配钥匙。

我用来配这把钥匙的，是 CookieCloud 这个插件。它可以把我在自己电脑上已经登录好的各种账号 Cookie，同步给 AI 用的浏览器。

实战案例

浏览器加上登录态之后，它能做的事情就完全不一样了。

有一次，我在微信里跟它说：「帮我去小红书上看看，车主们都推荐什么隐形车衣。」因为 CookieCloud 已经把我的小红书登录态同步过去了，它就直接打开小红书，搜相关内容，翻了十几条笔记，最后把结果整理成一条很干净的总结给我：哪些品牌被提到最多，价格区间大概在哪，有哪些坑被反复吐槽。整个过程里，我只发了一句话，剩下的翻页、筛选、整理，它都在后台自己做完了。要是我自己去刷，光在小红书里翻这些内容，十几分钟肯定跑不掉。

浏览器配置建议

如果只是普通人日常用用，直接连上自己电脑上的浏览器，其实就够了，没必要再额外折腾。但我自己是用 kasmweb/chrome 单独给它搭了一个专用浏览器容器，顺手把配置放进了我的仓库里：openclaw-browser。

我之所以这么做，是因为我需要给 AI 一个独立、干净、还能被远程控制的执行空间。它在里面翻网页、点按钮，不会污染我自己正在使用的主浏览器，而且这个容器里的登录态是可以长期保留的。更重要的是，它和我的主浏览器完全隔离——万一模型在外面的网页上被恶意 Prompt Injection 骗了，做了什么不该做的操作，爆炸半径也会被控制在这个容器里，不会直接波及到我自己的账号和数据。

当然，眼睛和钥匙本身也都很敏感。权限越大，风险越高。这套东西背后其实牵扯到容器部署、CDP 协议、VNC、反检测机制这些技术细节；如果并不熟悉这些东西，我非常不建议直接照抄。同样，CookieCloud 同步登录态这件事，本质上是在把你自己的网络身份交给 AI，风险并不小。一个真正可用的助手，一定不是一个权限裸奔的助手。无论你用的是本机浏览器，还是隔离出来的容器浏览器，都应该认真对待这里面的安全风险。

但即便如此，我还是会说：浏览器是 OpenClaw 从「会聊天的 AI」走到「能办事的助理」的分水岭。

记忆系统：让它真正认识你

而真正让它开始有「人味」的，不是浏览器，而是记忆。

很多人一开始会低估记忆这件事。但在 OpenClaw 里，记忆的效果，首先还是被模型能力死死卡着脖子。

记忆的初始化问题

OpenClaw 的记忆机制并不复杂。每轮对话开始时，它会把核心记忆文件直接作为上下文，注入到系统提示词里发给模型。我的偏好、我最近在忙的事、之前做过的关键决定，其实都已经写进系统提示词了。按理说，模型一上来就应该看到这些信息。

但有些模型拿到这些信息之后，就是不处理。

不是因为这些信息藏得太深，不是因为它找不到。它们就在系统提示词里，明明白白地摆在那里。问题在于，它就是不读，或者说，它看到了，但没有认真用。之前我试 Kimi K2.5 和 Qwen3.5-Plus 的时候，这个问题就很明显：系统已经把我的偏好、最近在忙什么都注入进去了，它第一句回复依然像是在跟一个第一次见面的人讲话。MiniMax M2.5 甚至更夸张，系统的 AGENT.md 里已经明确提醒它去读 memory 文件了，它还是直接跳过。这种体验非常差，因为我明明知道信息已经给它了，它只是没有认真走完初始化流程。

OpenClaw 的记忆哲学

再说 OpenClaw 的记忆机制本身。和市面上大多数 AI 产品比起来，OpenClaw 在记忆这件事上，走的是一个几乎相反的方向：它记得太多了。

我平时聊天时随口提一句「我不喜欢长篇大论」，它会记下来；偶尔抱怨一句「别加那么多 emoji」，它也会记下来；最近在处理车险理赔、打算买什么东西、对什么事情有偏好，它都会默默记下来。它几乎是在试图记住我说过的每一件事。副作用当然也存在：记忆读取和存储都比较慢。每次对话启动时，能明显感觉到它有一个「加载」的过程，尤其是记忆条目越积越多之后，这种延迟会越来越明显。

但如果你去看那些主打 AI 陪伴的产品——星野、筑梦岛、Character.AI 这一类——它们走的其实是完全相反的路线。它们面对的是几百万、上千万用户，出于工程规模和成本的考虑，不可能给每个用户维护一份无限增长的细粒度记忆。所以它们会对记忆做大量压缩、摘要、合并，只保留「最重要」的东西。结果就是，聊了一个月，它可能还记得你的名字、职业、喜欢猫，但你上周随口提过一句「最近在看隐形车衣」，这种碎片信息通常早就被优化掉了。

与其他产品的对比

ChatGPT 和 Claude 的记忆功能，则是另一种取舍。

ChatGPT 在 2025 年 4 月做过一次很大的升级。到那时，它实际上已经有两套记忆：一套是「Saved memories」，会从对话里提取关键事实长期保存；另一套是「Chat history」，可以引用你所有历史对话。OpenAI 的做法，是在每轮新对话开始的时候，把这些内容自动预加载进上下文里。用户看不到这个过程。好处是，它确实能记住很多东西；问题是，你不太清楚它到底正在调用哪些历史信息，有时候它会在一些非常意想不到的地方突然冒出来——比如你之前随口提过的某个地点，后来竟然出现在一张完全不相关的图片里。

Claude 的记忆上线更晚，到了 2025 年 9 月才推出，做法也不太一样。它同样会预加载记忆——每 24 小时对历史对话做一次摘要，生成一份记忆概览，再在每轮新对话开始时注入上下文。除此之外，它还可以通过工具调用去搜索历史对话，而且这个过程是可见的，你能看到它在什么时候、用什么关键词去翻聊天记录。它也支持按项目隔离记忆。整体设计比 ChatGPT 更透明、更克制，但也意味着它不太会主动把那些碎片化的细节串起来，除非你主动提起，或者当前上下文里已经给了它足够明确的关联线索。

OpenClaw 的做法不一样。它默认就是：能记就记。

乍一看，这种做法甚至有点不优雅，甚至有点粗暴。但在私人助手这个场景里，恰恰是这种不怎么筛选的记忆方式，才会在某一天突然击中我。

那个被打动的瞬间

我印象特别深的一次，是有天晚上我问了它一个完全不相关的问题，它在回答末尾很自然地补了一句：「对了，你上周提过想看看隐形车衣，要不要我这两天再帮你去小红书翻翻有没有新的车主反馈？」说起来也挺有意思，这种主动把旧记忆重新串起来的行为，Qwen3.5-Plus 触发的概率反而还挺高。虽然它在别的方面不够稳，但在「会想起你之前说过什么」这件事上，它倒是有点天赋。

我当时是真的愣了一下。因为那句「想看看隐形车衣」，我确实是一周前随口提过，提完自己都忘了。它居然还记着，而且是在一个非常自然的时机提出来，不是那种硬邦邦的「根据您之前的对话记录」。就那一瞬间，我的感受很直接：卧槽，它真的认识我。

而这种体验，在那些为了速度和成本而大幅压缩记忆的产品里，几乎不会发生。因为那些被「优化掉」的碎片，往往恰恰就是让人觉得「它真的在意我」的东西。

当这些碎片记忆长期累积起来之后，我越来越明显地感觉到：它不再是一个每次都要从头认识我的陌生人。它知道我说话的节奏，知道我在意什么，知道哪些内容该提醒我，哪些内容别来烦我。它开始有连续性了。

定时任务：从感觉变成现实

而定时任务，则是把这种连续性从「感觉」变成「现实」。

我越来越觉得，Cron 这类能力，其实是普通用户最应该优先体验的部分。因为它最容易把「AI 很聪明」真正变成「AI 对我有用」。

聊天当然很好玩，写代码当然也很酷，但真正能在日常里建立存在感的，往往不是这些高光时刻，而是那些总能准时出现的小事：节假日提醒、家人的农历生日提醒、每天早上抓特定 RSS 订阅源做一份简报、在我还没开口之前，就把该来的那条消息送到我面前。

我给家里几个人的农历生日都设过提醒。有一次，在提醒的前一天晚上，它在微信里给我发来一条消息。不是那种「明天是 XX 的生日，请注意」的模板句，而是结合了我之前聊天里提过的内容，说了一句带点个人感的话，顺手还问我要不要它帮忙搜一下附近评分高的餐厅。

那个瞬间，它就不再像一个「点开才存在的工具」。在我没打开它的时候，它也在替我想着事情。当一个系统开始在「该出现的时候」自动出现，它就不再只是一个软件功能，而开始成为生活秩序的一部分。

这也是为什么我一直觉得，定时任务才是普通用户接触 OpenClaw 最好的起点。你根本不需要先去理解什么 session、delivery、cron 表达式这些底层配置字段，把这些技术细节全交给 AI 去处理就够了。

你只需要用大白话告诉它：「帮我建一个所有法定节假日的提醒。」或者：「以后我家人的农历生日，记得提前一天提醒我。」从这些最简单的生活提醒开始，让系统先动起来。因为只有当它先在生活里站住脚，后面你才会真的愿意继续往下折腾它。

IM 集成：放进你的生活流

最后一步，是把它放进一个你每天都会经过的地方。

我现在越来越觉得，最大的问题根本不是 AI 不够多，而是 AI 太碎了。一个网页，一个 App，一个终端，一个插件，功能都很强，但都要求你主动过去找它。你必须记得「去打开它」，它才会存在。

可一旦一个带着记忆、带着浏览器能力、还能定时提醒的助手，被放进你每天会打开无数次的聊天软件里，事情就会完全不一样。

我自己用的是微信，但 OpenClaw 支持的远不止微信。国外用户可以接 Telegram、Slack、WhatsApp、Discord，国内除了微信，也可以接飞书、钉钉。具体接哪个其实没那么重要，重要的是这个动作本身：把 AI 助手放进你原本就已经在使用的 IM 里。

这一步的意义，不只是「更方便」而已。它真正改变的是使用关系。

它不再需要你专门进入某个「AI 场景」才能调用。它直接进入了你原本的生活流。你不用切换心智，不用额外打开一个新的工作台，也不用在脑子里提醒自己：「对了，我还有个 AI 可以用。」它就在联系人列表里，像一个一直待命的存在。

而且聊天软件本身的交互体验，是被打磨了很多年的。消息气泡、通知推送、输入提示、未读提醒……这些你平时和朋友聊天时早就习以为常的东西，一旦放到 AI 对话里，会让整个体验比任何专门的 AI App 都更自然。你不会感觉自己在「使用一个工具」，而更像是在「跟一个人说话」。这种感觉很微妙，但它直接决定了你到底会不会真的把这个助手用起来。

当所有对话都收束在同一个地方——不是在 ChatGPT 网页上聊几句，又跑去 Claude 问另一个问题，再去别的 App 查个东西——而是始终落在同一个聊天窗口里，你就会越来越不把它当成一个「AI 产品」，而开始把它当成一个助理。

这一步带来的体验变化，很多时候甚至比模型升级本身还大。因为绝大多数人真正缺的，不是一个更聪明的模型，而是一个更容易出现在自己生活里的入口。

总结：OpenClaw 的价值所在

如果你的核心诉求是高强度的生产力输出——比如写大段代码、做复杂架构、写长篇专业文章——那 OpenClaw 未必是最优解。这个时候，直接打开网页版 Claude，或者在终端里跑 Claude Code，效率往往会更高。没必要为了用 OpenClaw，而把它硬塞进一个本来就不适合它的生产力流程里。

但如果你想要的，不是一个「随叫随到的问答机器」，而是一个能慢慢融进生活里的数字分身，那 OpenClaw 的价值就会开始变得非常具体。

它不一定能替我写出最完美的系统架构，但它能记住我家里那辆新能源车什么时候该续保、出过几次险；它能带着登录态，去我常看的内容平台里抓我真正关心的资讯，再整理成一份简报；它能在节假日或者家人的生日那天，准时在聊天软件里给我发来一条没有太多机器味的提醒；最重要的是，它就待在我每天都要打开无数次的聊天软件里，随时待命，我不需要为了找它，再额外打开一个新的 App。

说到底，真正打动我的，并不是 OpenClaw 有多「强」，而是它开始有了「存在」的感觉。

给它一个足够强的大脑，给它眼睛和钥匙，给它记忆，给它定时器，再把它放进我每天都会经过的入口里。做到这一步之后，它就不再只是一个冷冰冰的开源项目。

它开始有点像一个真正属于我的助理了。

关于作者: 马大虾，OpenClaw 深度用户，专注于 AI 工程化落地，已帮助 1000+ 用户搭建高效 AI 工作流。

相关资源:

openclaw-browser: https://github.com/xukecheng/Dockerfile/tree/main/openclaw-browser
OpenClaw 官方文档：https://docs.openclaw.ai
ClawHub 技能市场：https://clawhub.ai

OpenClaw 深度使用体验：从质疑到认可 ​

初识 OpenClaw：从质疑到认可 ​

核心挑战：模型能力是关键 ​

Token 消耗的真相 ​

模型选择的三个标准 ​

模型横评：谁最适合 OpenClaw？ ​

🥇 Claude 系列 - 最靠谱 ​

🥈 GPT 5.4 - 最平衡 ​

其他模型评价 ​

本地模型的建议 ​

浏览器：给 AI 装眼睛和钥匙 ​

从搜索到调查 ​

登录态：给 AI 配钥匙 ​

实战案例 ​

浏览器配置建议 ​

记忆系统：让它真正认识你 ​

记忆的初始化问题 ​

OpenClaw 的记忆哲学 ​

与其他产品的对比 ​

那个被打动的瞬间 ​

定时任务：从感觉变成现实 ​

IM 集成：放进你的生活流 ​

总结：OpenClaw 的价值所在 ​