Skip to content

OpenClaw 深度使用体验:从质疑到认可

一开始,我其实觉得 OpenClaw 没有任何存在的意义。直到我真的把它装起来,连续用了几天,我才意识到,自己一开始看错了方向。

来源:微信公众号
链接https://mp.weixin.qq.com/s/woyniMn19AJhz5euaDg3NA
发布时间:2026-03-10 10:30
整理时间:2026-03-20


初识 OpenClaw:从质疑到认可

一开始,我其实觉得 OpenClaw 没有任何存在的意义。

那时候我的日常组合已经非常顺手了:Claude Code 负责写代码,Claude 和 ChatGPT 负责聊天、查资料、写东西。既然这套工作流已经足够强,我看 OpenClaw 的第一反应自然也很直接:它还能补上什么?

直到我真的把它装起来,连续用了几天,我才意识到,自己一开始看错了方向。

OpenClaw 最有意思的地方,不是它又做了一个聊天界面,也不是它把一堆 AI 功能简单堆在一起。它真正不一样的地方在于,它试图把三件原本分散的事,做成一个连续的整体:

  1. 记住我 - 长期记忆
  2. 替我执行 - 自动化能力
  3. 长期待在我最常用的聊天软件里 - 常驻入口

这三件事单独拆开看,其实都不新鲜。记忆,很多产品都在做;自动化,也早就不是新概念;接入聊天软件,更谈不上稀奇。OpenClaw 的价值不在某一项单点能力,而在于它把这些能力缝成了一种持续的日常体验。

只要配置对了,它就不再只是一个「偶尔打开用一下」的 AI 工具,而开始有点像一个真正常驻的私人助理。


核心挑战:模型能力是关键

但这件事有一个很硬的前提:模型必须足够强

因为 OpenClaw 的工作环境,和你在网页上跟模型做一轮干净对话,根本不是一个难度级别。

在网页上,你问一句,模型理解一句,回答一句,任务相对单纯。但在 OpenClaw 里,模型面对的不是一个干净的问题,而是一整个混乱的工作现场:系统设定、长期记忆、当天日志、工具说明、最近几轮上下文、权限边界、外部状态……这些东西不是整整齐齐摆在它面前,而是一股脑地被塞进上下文窗口里。它必须自己判断:什么重要,什么不重要,什么该调用工具,什么只是背景噪音。

Token 消耗的真相

很多人对这件事的夸张程度,其实没有直观感受。前阵子我在小红书上看到一个很典型的例子:有人用腾讯云的免费额度装了 OpenClaw,以为 50 万 token 的额度够玩很久,结果跟它互动没几次,腾讯云就打电话来催欠费了。后来去后台一看,输入 token 的消耗已经超过了 1200 万。评论区里很多人都不理解:一句「你好」,怎么可能烧掉上万 token?如果自己直接调 API,发一句「你好」过去,明明也就几个 token,难道是云服务商在坑钱?

其实不是。问题出在 OpenClaw 的工作方式上。

因为它每一轮对话,都会把系统设定、长期记忆、当天日志、工具说明、最近几轮聊天记录,全部打包进同一个请求里,再一起发给模型。表面上看,你只是说了一句「你好」;但模型真正收到的,是一整份一万多 token 的「完整工作现场」,而那句「你好」只是压在最末尾的一小段。

可它为什么非要这么做?原因也很简单:大模型本身没有记忆

你在网页上和 ChatGPT 聊天,关掉窗口,再开一个新的,它就什么都不记得了。OpenClaw 想让模型表现得像一个「认识我的助理」,唯一的办法,就是每次对话重新把这些事告诉它:我是谁,我平时怎么说话,我最近在忙什么,它手上有哪些工具可用,哪些事情做过,哪些事情还挂着。信息喂得越完整,它越有可能表现出一种「它一直都在」的感觉——接得上之前的话,知道我的习惯,该调工具的时候自己去调。代价当然也很明显:每一轮的 token 消耗都很高。

但这不是浪费,这是它能表现得像个助理,而不是像个只会复读的问答机的前提。

模型选择的三个标准

这也直接决定了两件事。第一,模型不仅要足够聪明,还得在成本上扛得住这样的消耗。第二,在这么庞大、嘈杂的上下文里,模型还能不能把注意力放在真正重要的信息上,变成了一个非常现实的考验。

所以后来我选模型,几乎不怎么看跑分排行榜,而是只看三件很实际的事:

  1. 它能不能在一堆杂乱背景里抓到真正关键的信息
  2. 它能不能稳定地连续调用工具,而不是做到一半就走偏
  3. 它能不能在上下文不断拉长之后,依然保持一致,不开始编造内容

这三件事,决定了一个模型到底能不能胜任 OpenClaw 这种「长期助手」的角色。闲聊的时候,很多模型都能显得很聪明;但一旦放进 OpenClaw 这种复杂环境里,差距会被迅速放大。


模型横评:谁最适合 OpenClaw?

我试了一大圈之后,结论还是很清楚:

🥇 Claude 系列 - 最靠谱

它在嘈杂上下文里抓重点的能力、连续调工具的稳定性,都做得最好,用起来最有那种「一直在同一个频道里」的连贯感。

🥈 GPT 5.4 - 最平衡

如果把成本也算进去,我现在觉得最平衡的,其实是 GPT 5.4。

在 5.4 出来之前,我一直主要用 GLM-5,备用模型挂着 Gemini 3.1 Pro 凑合着。5.4 发布之后,情况就不一样了。放到 OpenClaw 这种每天要聊很多次、而且经常要跑多步任务的环境里,它在稳定性、成本和综合体验之间找到了一个很少见的平衡。至于中文回复,虽然还是有一点互联网味,但比起以前已经顺了不少。

其他模型评价

模型评价原因
GPT 5.2❌ 不好用完全不值得继续浪费时间
GPT 5.3-Codex⚠️ 偏科调工具好,但中文回复生硬,像执行器不像助理
Gemini 3 Flash⚠️ 心不在焉看了记忆但不用,很难进入状态
Gemini 3.1 Pro⚠️ 太慢慢到让人难受,结果未必更好
Qwen3.5-Plus⚠️ 不稳定任务变深后问题暴露,多轮工具调用不稳
Kimi K2.5⚠️ 一般很多 Qwen 做不完的任务,Kimi 也一样做不完
MiniMax M2.5❌ 失望整体稳定性和可依赖性不够
GLM-5✅ 勉强能用启动时有 60-70% 概率能正确使用记忆

说得再直白一点,OpenClaw 这种系统,测的根本不是模型「会不会说话」,而是它在复杂环境里有没有足够的脑容量和控制力。

本地模型的建议

这也是为什么,我并不建议把本地小模型当成 OpenClaw 的主力。

很多人从隐私角度出发,会天然觉得本地模型更放心。这种担心当然是合理的。但 OpenClaw 还有另一层现实:它不是一个只在本地陪你闲聊的东西,它很可能还要替你看网页、读信息、拿着工具权限去执行操作。这个时候,模型越弱,越容易在复杂页面和恶意提示里被带偏。表面上看,好像是在保护隐私;但实际上,你可能是在把更高的权限,交给一个判断力更差的执行者。

所以如果让我在「更弱但本地」和「更强但需要隔离」之间二选一,我会优先选更强的模型,然后把环境隔离做好。因为只有模型足够强,OpenClaw 这种形态才真正站得住;也只有模型足够强,它在面对复杂网页和潜在 Prompt Injection 的时候,才更有可能稳得住。

换句话说,OpenClaw 首先要解决的,不是「它能不能像 AI 一样回答问题」,而是「它能不能像助理一样不掉链子」。


浏览器:给 AI 装眼睛和钥匙

模型选对之后,下一步其实就是权限。

我一开始也低估了浏览器的重要性。总觉得「能上网」只是锦上添花,真正决定体验的还是模型本身。后来我发现完全不是这样。对一个长期助手来说,没有浏览器,它基本就是半残的。

从搜索到调查

没接浏览器之前,你让它帮你查个东西,它通常只能用自带的搜索工具抓几条摘要回来。听起来好像也还行,但真正用起来你会很快发现,这和自己打开搜索引擎搜一下,其实没有本质区别。它看不到完整页面,读不了评论区,也没法顺着链接一层层点进去看具体内容。

比如我问它:「帮我看看我的车最近有没有什么召回消息。」没有浏览器的时候,它最多只能拼几条搜索摘要给我,信息零零散散,我还得自己再去核实。但有了浏览器之后,它就能真的打开论坛帖子,翻评论区,点进相关链接,甚至顺手给我截个图,再回来告诉我:「我看了三个主流车友论坛,目前没有明显的召回讨论,但有人在提 XX 问题,要不要我继续往下跟?」这就不是在帮我搜索了,这是在帮我调查

登录态:给 AI 配钥匙

但光有浏览器还不够。更现实的问题是:AI 能打开网页,不等于它能打开「我的网页」。

很多网页,不登录根本没有意义。要看小红书,要进内网,要刷推文,能访问一个地址,并不代表它真的进入了我平时使用的互联网空间。它没有我的身份,也没有我的状态,更没有我的上下文。

所以在我看来,给 OpenClaw 配浏览器,不是让它学会上网,而是在给它装眼睛;让它进入那些需要身份和状态的页面,本质上是在给它配钥匙

我用来配这把钥匙的,是 CookieCloud 这个插件。它可以把我在自己电脑上已经登录好的各种账号 Cookie,同步给 AI 用的浏览器。

实战案例

浏览器加上登录态之后,它能做的事情就完全不一样了。

有一次,我在微信里跟它说:「帮我去小红书上看看,车主们都推荐什么隐形车衣。」因为 CookieCloud 已经把我的小红书登录态同步过去了,它就直接打开小红书,搜相关内容,翻了十几条笔记,最后把结果整理成一条很干净的总结给我:哪些品牌被提到最多,价格区间大概在哪,有哪些坑被反复吐槽。整个过程里,我只发了一句话,剩下的翻页、筛选、整理,它都在后台自己做完了。要是我自己去刷,光在小红书里翻这些内容,十几分钟肯定跑不掉。

浏览器配置建议

如果只是普通人日常用用,直接连上自己电脑上的浏览器,其实就够了,没必要再额外折腾。但我自己是用 kasmweb/chrome 单独给它搭了一个专用浏览器容器,顺手把配置放进了我的仓库里:openclaw-browser

我之所以这么做,是因为我需要给 AI 一个独立、干净、还能被远程控制的执行空间。它在里面翻网页、点按钮,不会污染我自己正在使用的主浏览器,而且这个容器里的登录态是可以长期保留的。更重要的是,它和我的主浏览器完全隔离——万一模型在外面的网页上被恶意 Prompt Injection 骗了,做了什么不该做的操作,爆炸半径也会被控制在这个容器里,不会直接波及到我自己的账号和数据。

当然,眼睛和钥匙本身也都很敏感。权限越大,风险越高。这套东西背后其实牵扯到容器部署、CDP 协议、VNC、反检测机制这些技术细节;如果并不熟悉这些东西,我非常不建议直接照抄。同样,CookieCloud 同步登录态这件事,本质上是在把你自己的网络身份交给 AI,风险并不小。一个真正可用的助手,一定不是一个权限裸奔的助手。无论你用的是本机浏览器,还是隔离出来的容器浏览器,都应该认真对待这里面的安全风险。

但即便如此,我还是会说:浏览器是 OpenClaw 从「会聊天的 AI」走到「能办事的助理」的分水岭


记忆系统:让它真正认识你

而真正让它开始有「人味」的,不是浏览器,而是记忆。

很多人一开始会低估记忆这件事。但在 OpenClaw 里,记忆的效果,首先还是被模型能力死死卡着脖子。

记忆的初始化问题

OpenClaw 的记忆机制并不复杂。每轮对话开始时,它会把核心记忆文件直接作为上下文,注入到系统提示词里发给模型。我的偏好、我最近在忙的事、之前做过的关键决定,其实都已经写进系统提示词了。按理说,模型一上来就应该看到这些信息。

但有些模型拿到这些信息之后,就是不处理。

不是因为这些信息藏得太深,不是因为它找不到。它们就在系统提示词里,明明白白地摆在那里。问题在于,它就是不读,或者说,它看到了,但没有认真用。之前我试 Kimi K2.5 和 Qwen3.5-Plus 的时候,这个问题就很明显:系统已经把我的偏好、最近在忙什么都注入进去了,它第一句回复依然像是在跟一个第一次见面的人讲话。MiniMax M2.5 甚至更夸张,系统的 AGENT.md 里已经明确提醒它去读 memory 文件了,它还是直接跳过。这种体验非常差,因为我明明知道信息已经给它了,它只是没有认真走完初始化流程。

OpenClaw 的记忆哲学

再说 OpenClaw 的记忆机制本身。和市面上大多数 AI 产品比起来,OpenClaw 在记忆这件事上,走的是一个几乎相反的方向:它记得太多了

我平时聊天时随口提一句「我不喜欢长篇大论」,它会记下来;偶尔抱怨一句「别加那么多 emoji」,它也会记下来;最近在处理车险理赔、打算买什么东西、对什么事情有偏好,它都会默默记下来。它几乎是在试图记住我说过的每一件事。副作用当然也存在:记忆读取和存储都比较慢。每次对话启动时,能明显感觉到它有一个「加载」的过程,尤其是记忆条目越积越多之后,这种延迟会越来越明显。

但如果你去看那些主打 AI 陪伴的产品——星野、筑梦岛、Character.AI 这一类——它们走的其实是完全相反的路线。它们面对的是几百万、上千万用户,出于工程规模和成本的考虑,不可能给每个用户维护一份无限增长的细粒度记忆。所以它们会对记忆做大量压缩、摘要、合并,只保留「最重要」的东西。结果就是,聊了一个月,它可能还记得你的名字、职业、喜欢猫,但你上周随口提过一句「最近在看隐形车衣」,这种碎片信息通常早就被优化掉了。

与其他产品的对比

ChatGPT 和 Claude 的记忆功能,则是另一种取舍。

ChatGPT 在 2025 年 4 月做过一次很大的升级。到那时,它实际上已经有两套记忆:一套是「Saved memories」,会从对话里提取关键事实长期保存;另一套是「Chat history」,可以引用你所有历史对话。OpenAI 的做法,是在每轮新对话开始的时候,把这些内容自动预加载进上下文里。用户看不到这个过程。好处是,它确实能记住很多东西;问题是,你不太清楚它到底正在调用哪些历史信息,有时候它会在一些非常意想不到的地方突然冒出来——比如你之前随口提过的某个地点,后来竟然出现在一张完全不相关的图片里。

Claude 的记忆上线更晚,到了 2025 年 9 月才推出,做法也不太一样。它同样会预加载记忆——每 24 小时对历史对话做一次摘要,生成一份记忆概览,再在每轮新对话开始时注入上下文。除此之外,它还可以通过工具调用去搜索历史对话,而且这个过程是可见的,你能看到它在什么时候、用什么关键词去翻聊天记录。它也支持按项目隔离记忆。整体设计比 ChatGPT 更透明、更克制,但也意味着它不太会主动把那些碎片化的细节串起来,除非你主动提起,或者当前上下文里已经给了它足够明确的关联线索。

OpenClaw 的做法不一样。它默认就是:能记就记

乍一看,这种做法甚至有点不优雅,甚至有点粗暴。但在私人助手这个场景里,恰恰是这种不怎么筛选的记忆方式,才会在某一天突然击中我。

那个被打动的瞬间

我印象特别深的一次,是有天晚上我问了它一个完全不相关的问题,它在回答末尾很自然地补了一句:「对了,你上周提过想看看隐形车衣,要不要我这两天再帮你去小红书翻翻有没有新的车主反馈?」说起来也挺有意思,这种主动把旧记忆重新串起来的行为,Qwen3.5-Plus 触发的概率反而还挺高。虽然它在别的方面不够稳,但在「会想起你之前说过什么」这件事上,它倒是有点天赋。

我当时是真的愣了一下。因为那句「想看看隐形车衣」,我确实是一周前随口提过,提完自己都忘了。它居然还记着,而且是在一个非常自然的时机提出来,不是那种硬邦邦的「根据您之前的对话记录」。就那一瞬间,我的感受很直接:卧槽,它真的认识我

而这种体验,在那些为了速度和成本而大幅压缩记忆的产品里,几乎不会发生。因为那些被「优化掉」的碎片,往往恰恰就是让人觉得「它真的在意我」的东西。

当这些碎片记忆长期累积起来之后,我越来越明显地感觉到:它不再是一个每次都要从头认识我的陌生人。它知道我说话的节奏,知道我在意什么,知道哪些内容该提醒我,哪些内容别来烦我。它开始有连续性了。


定时任务:从感觉变成现实

而定时任务,则是把这种连续性从「感觉」变成「现实」。

我越来越觉得,Cron 这类能力,其实是普通用户最应该优先体验的部分。因为它最容易把「AI 很聪明」真正变成「AI 对我有用」。

聊天当然很好玩,写代码当然也很酷,但真正能在日常里建立存在感的,往往不是这些高光时刻,而是那些总能准时出现的小事:节假日提醒、家人的农历生日提醒、每天早上抓特定 RSS 订阅源做一份简报、在我还没开口之前,就把该来的那条消息送到我面前。

我给家里几个人的农历生日都设过提醒。有一次,在提醒的前一天晚上,它在微信里给我发来一条消息。不是那种「明天是 XX 的生日,请注意」的模板句,而是结合了我之前聊天里提过的内容,说了一句带点个人感的话,顺手还问我要不要它帮忙搜一下附近评分高的餐厅。

那个瞬间,它就不再像一个「点开才存在的工具」。在我没打开它的时候,它也在替我想着事情。当一个系统开始在「该出现的时候」自动出现,它就不再只是一个软件功能,而开始成为生活秩序的一部分。

这也是为什么我一直觉得,定时任务才是普通用户接触 OpenClaw 最好的起点。你根本不需要先去理解什么 session、delivery、cron 表达式 这些底层配置字段,把这些技术细节全交给 AI 去处理就够了。

你只需要用大白话告诉它:「帮我建一个所有法定节假日的提醒。」或者:「以后我家人的农历生日,记得提前一天提醒我。」从这些最简单的生活提醒开始,让系统先动起来。因为只有当它先在生活里站住脚,后面你才会真的愿意继续往下折腾它。


IM 集成:放进你的生活流

最后一步,是把它放进一个你每天都会经过的地方。

我现在越来越觉得,最大的问题根本不是 AI 不够多,而是 AI 太碎了。一个网页,一个 App,一个终端,一个插件,功能都很强,但都要求你主动过去找它。你必须记得「去打开它」,它才会存在。

可一旦一个带着记忆、带着浏览器能力、还能定时提醒的助手,被放进你每天会打开无数次的聊天软件里,事情就会完全不一样。

我自己用的是微信,但 OpenClaw 支持的远不止微信。国外用户可以接 Telegram、Slack、WhatsApp、Discord,国内除了微信,也可以接飞书、钉钉。具体接哪个其实没那么重要,重要的是这个动作本身:把 AI 助手放进你原本就已经在使用的 IM 里

这一步的意义,不只是「更方便」而已。它真正改变的是使用关系。

它不再需要你专门进入某个「AI 场景」才能调用。它直接进入了你原本的生活流。你不用切换心智,不用额外打开一个新的工作台,也不用在脑子里提醒自己:「对了,我还有个 AI 可以用。」它就在联系人列表里,像一个一直待命的存在。

而且聊天软件本身的交互体验,是被打磨了很多年的。消息气泡、通知推送、输入提示、未读提醒……这些你平时和朋友聊天时早就习以为常的东西,一旦放到 AI 对话里,会让整个体验比任何专门的 AI App 都更自然。你不会感觉自己在「使用一个工具」,而更像是在「跟一个人说话」。这种感觉很微妙,但它直接决定了你到底会不会真的把这个助手用起来。

当所有对话都收束在同一个地方——不是在 ChatGPT 网页上聊几句,又跑去 Claude 问另一个问题,再去别的 App 查个东西——而是始终落在同一个聊天窗口里,你就会越来越不把它当成一个「AI 产品」,而开始把它当成一个助理。

这一步带来的体验变化,很多时候甚至比模型升级本身还大。因为绝大多数人真正缺的,不是一个更聪明的模型,而是一个更容易出现在自己生活里的入口。


总结:OpenClaw 的价值所在

如果你的核心诉求是高强度的生产力输出——比如写大段代码、做复杂架构、写长篇专业文章——那 OpenClaw 未必是最优解。这个时候,直接打开网页版 Claude,或者在终端里跑 Claude Code,效率往往会更高。没必要为了用 OpenClaw,而把它硬塞进一个本来就不适合它的生产力流程里。

但如果你想要的,不是一个「随叫随到的问答机器」,而是一个能慢慢融进生活里的数字分身,那 OpenClaw 的价值就会开始变得非常具体。

它不一定能替我写出最完美的系统架构,但它能记住我家里那辆新能源车什么时候该续保、出过几次险;它能带着登录态,去我常看的内容平台里抓我真正关心的资讯,再整理成一份简报;它能在节假日或者家人的生日那天,准时在聊天软件里给我发来一条没有太多机器味的提醒;最重要的是,它就待在我每天都要打开无数次的聊天软件里,随时待命,我不需要为了找它,再额外打开一个新的 App。

说到底,真正打动我的,并不是 OpenClaw 有多「强」,而是它开始有了「存在」的感觉。

给它一个足够强的大脑,给它眼睛和钥匙,给它记忆,给它定时器,再把它放进我每天都会经过的入口里。做到这一步之后,它就不再只是一个冷冰冰的开源项目。

它开始有点像一个真正属于我的助理了


关于作者: 马大虾,OpenClaw 深度用户,专注于 AI 工程化落地,已帮助 1000+ 用户搭建高效 AI 工作流。

相关资源:

Released under the MIT License.