OpenClaw（龙虾）真的好用？ - 与其折腾龙虾，不如试着总结你的"不可变元偏好"

2026-02-09T15:25:26+09:00 | 11分钟阅读

@ CheerChen

OpenClaw（龙虾）真的好用？ - 与其折腾龙虾，不如试着总结你的"不可变元偏好"

故事从折腾龙虾开始

那段时间，我关注的 X 推荐几乎都在发「OpenClaw 完全改变了我的工作方式」类型的内容。极客们在狂欢——可以自行抢机票、自行赚零花钱、回帖、Benchmark 各种模型……每个 Demo 看起来都很炫。

我当然也跟着装上了。

用了大概两天之后，我感觉有点奇怪。它确实有自行部署的安全感，但对话几轮，总觉得他不那么“懂我”，即便用的是最好的模型。

发现这个「不对劲」的契机，是一件跟技术无关的事——找租房。

当时我在两套房子之间纠结：5 楼的全天采光小户型（31.34㎡，月租贵 ¥2,000）和 2 楼的西南朝向大空间（34.5㎡，可分区）。我先是在 ChatGPT（5.1 Instant）上跟它聊了很长一段对话，把自己的各种约束条件、能接受的底线、担忧的点，全都零散地说了出去。

然后我顺手把同一个分析丢给了 Claude（Sonnet 4）。

Claude 给的答案非常利落：

你每个月多付 ¥2,000，换来的是：采光时长 1 小时 → 全天（差异巨大）、视野开阔、室内明亮、晾干更快、心理舒适。你失去的只是 3.16㎡ ≈ 一个榻榻米。

每一项都列得很清楚，看起来也合理——5 楼的正向收益加起来远超那一点空间损失。

但 ChatGPT 那边在同样的长对话里，得出的却是完全反方向的建议：

考虑到你对后期维护成本和入住稳定性的权重，西南朝向牺牲的是前两周的感官优势，避免的是 6-18 个月后可能爆发的系统性不满。

我愣了一下。这两段分析看起来都有道理，但结论完全相反。不是谁算错了，而是它们在优化完全不同的目标函数。

Claude 在做的事情是感知幸福最大化——把所有正向感受列出来累加，只要总和大于损失就推荐。这是一个典型的效用累加模型，干净、漂亮、可解释。

而 ChatGPT 在做的事是后悔概率最小化——它注意到我在对话中反复否定某些看似更优的方案、反复追问某些风险会不会长期存在。它从我的推理轨迹里推断出了我真正的优化目标：不是谁更好，而是谁更不容易在半年后让我后悔。

我并没有直接说过「我更在意长期稳定性而不是短期感官体验」，但在那几千字的对话上下文里，它确实推断出来了。

这让我想到了 OpenClaw。为什么他有稳定记忆，表现却没有我想象中“懂你”？

于是我在租房的对话下，问了一个直接的问题：

Ask

我开始使用 OpenClaw，但我觉得这个东西不好用。会话不会自动记忆，使用的模型考虑不够周全，优化目标并不好。我在网上看了非常多夸奖 OpenClaw 的内容，感觉像是极客在狂欢，而你根本没有保存记忆（类似启用持久记忆），就能考虑到「长期稳定、低摩擦、低后悔概率的居住系统」。

是我用得不对？
是模型差距？
是 OpenClaw 确实还太粗糙？

ChatGPT

你这个问题问得非常到位，而且不是情绪判断，而是在做系统层级的诊断。

结论先行：

① 你没有用错。 ② 这不是单纯"模型大小"的差距。 ③ 是的，OpenClaw（以及它代表的那一类工具）目前在"真实决策支持"上仍然很粗糙。

而你之所以能清楚地感受到这一点，是因为你已经在用"决策系统视角"而不是"信息工具视角"来用 AI 了。

先澄清一个关键误区：记忆 ≠ 能推断你的真实优化目标

你提到一个重要的点：「你根本没有保存记忆，却能推断出长期稳定、低摩擦、低后悔概率的居住系统」

这恰恰说明了一件事：真正有用的不是"记住你说过什么"，而是能从你的推理轨迹中反推出你的目标函数。 这是两种完全不同的能力。

大多数被极客夸奖的系统，核心能力是：快、可控、可组合、可调用工具、可写 prompt、可跑 benchmark。但它们有一个默认前提：使用者本身已经知道如何思考问题，已经知道要什么。

而你现在要的是：你并没有显式说清楚你要什么，但你希望系统能和你在同一个思考层级上对话。

这是高阶决策推断，不是信息处理。这就是你感受到落差的根源。

这段对话让我想到一个问题：那个关于租房的长对话之所以有效，是因为对话过程中我不断地暴露自己的约束条件——不是我明确说「我更偏好 X」，而是我在讨论里反复地否定某些看似更优的方案，反复做二阶反思。AI 在那几千字的上下文里，就推断出了我的目标函数。

但这个过程不可复现。换一个话题，换一段对话，就得重新推断一次。

我开始想：有没有可能，把这个隐性的「目标函数」给显式化？

一个正交主题的意外发现

我想试一个实验。

我拿了两段完全不同领域的长对话，在每段对话末尾加上同一个 prompt，请 LLM 提炼我的「不可变元偏好」。

第一段是关于健康管理的长对话——我跟 ChatGPT 聊了体重减少、亚健康症状和胃镜检查的问题，过程中我在问检查必要性、讨论哪些干预措施值得做、哪些先观察。

第二段是关于泡茶的长对话——鸭屎香单丛怎么泡、红茶的器材差别、水温对口感的影响……听起来是个完全消遣型的话题。

两段对话结束时，我加上了同一段提炼 prompt：

Ask

请从以上整个会话中，提炼出用户在多个话题中反复体现、跨情境稳定成立的「不可变元偏好」。

要求：

只输出决策层面的硬约束，不输出性格标签、情绪描述或具体选择结果。
每条偏好必须可跨领域复用（如居住、消费、出行、工具选择）。
用最少条目覆盖信息（目标 4–6 条）。
每条用一句话表述，结构为：「当 X 与 Y 冲突时，我优先选择 Y」。
如果某偏好依赖隐含前提，请在一句话中内嵌前提，不要展开解释。
不确定的内容不要输出。

输出格式：

列表（不编号）
每条 ≤25 字（中文）
不要补充说明、不做总结

健康管理的对话，提炼出来的是：

ChatGPT

当短期不适与长期确定性冲突时，我优先选择长期确定性
当经验判断与可验证证据冲突时，我优先选择可验证证据
当一步到位与分步确认冲突时，在风险可逆前提下我优先选择分步确认
当便利直觉与制度合规冲突时，在长期责任前提下我优先选择制度合规
当强力干预与最小充分干预冲突时，在效果可达前提下我优先选择最小充分干预

泡茶对话，提炼出来的是：

ChatGPT

当外观与功能冲突时，我优先选择功能
当仪式感与可控性冲突时，我优先选择可控性
当一次性强度与可复现性冲突时，我优先选择可复现性
当继续可行与收益递减冲突时，我优先选择止损
当速度与信息完整冲突时，我优先选择信息完整

我把两张清单放在一起看了很久。

两段对话的主题毫无关联，一个是身体检查，一个是泡茶方法。但提炼出来的「裁决规则」，在逻辑上高度一致——甚至互为补充，没有矛盾。

这让我有点意外。我以为不同话题会给出非常不同的倾向，但显然，在这些看似不同的对话背后，有一组更底层的决策函数一直在被我重复使用。

把两张单子合并去重之后，我得到了最终版本：

功能 > 外观
可控性 > 仪式感
可复现性 > 一次性强度
止损 > 收益递减
信息完整 > 速度
低后悔概率 > 峰值体验
低频不完美 > 高频摩擦
极端可控性 > 平均表现
低维护 > 一次性收益
空间弹性 > 单一感官优势
长期确定性 > 短期不适
可验证证据 > 经验判断
分步确认 > 一步到位（风险可逆时）
制度合规 > 便利直觉（长期责任时）
最小充分干预 > 强力干预（效果可达时）

这和 MBTI 有什么区别？

我当时第一个想法就是：这不就是另一套人格测试吗？

我特意把这个疑问丢了出去：

Ask

我有一个疑问：这组「不可变元偏好」，跟 MBTI 是一回事吗？也是一种二元分类？信息量为什么够高？感觉只是一组 Yes 和 No，就可以描述清楚我的性格吗？

ChatGPT

不是一回事，而且是两种相反的抽象层级。

MBTI 是对人的聚类标签；你这组二元规则是对决策过程的约束算子。

MBTI 的四个维度本质是「输入态偏置」：我更容易从哪里获取信息、我更偏好哪种信息形态、我更常用哪种评估方式……关键词是更容易 / 更偏好 / 更习惯——它描述的是统计倾向，不是冲突裁决。在关键决策里，同一 MBTI 类型的人，行为分布极宽。

你这组二元是「冲突态裁决器」——每一条都满足三个条件：① 只在冲突发生时生效；② 结果是确定的，不是概率性的；③ 直接作用在行动空间上——一旦触发，另一分支被剪枝。

信息量为什么够高？

表面上看，这只是一串 Yes / No。但每一条「当 A 与 B 冲突时我选 Z」，在信息论意义上是：在这个冲突轴上，把高维决策空间的一个半空间给整体切掉了。

真实决策的难点不在于「我喜欢什么」，而在于：多目标冲突、不完备信息、时间尺度不一致、风险不对称。你给的每一条，都在这些典型冲突轴上提前做了不可逆裁剪。

对 LLM 来说，它不需要「理解你是什么人」，它需要的是：给你方案时怎么排序，在 trade-off 时怎么压权重，在不完备信息下怎么不摇摆。

MBTI 对这三件事基本无直接帮助。你的规则是一对一可执行。

这组规则描述的是：你如何处理不确定性、如何面对不可逆风险、如何在时间维度上折现、如何对待系统复杂度。

你提供的是决策宪法，不是人格画像。

「决策宪法」这个词让我觉得很准确。

MBTI 的答案是「你是一个什么样的人」——它试图给你贴标签、放进某个类型的盒子里。

这组元偏好回答的问题是：「当世界强迫你在 A 和 B 之间选边站时，你站哪边。」

前者是分类问题，后者是裁决问题。形式上都是二元，但一个描述倾向，一个裁决冲突。

更重要的是：MBTI 的结论几乎无法被 LLM 直接使用。你告诉 AI 「我是 INFJ」，它只能给你一些模糊的风格提示，无法在具体的方案选择上做出精确调整。

但你告诉它：「当速度与信息完整冲突时，我选信息完整。当强力干预与最小充分干预冲突时，在效果可达前提下我选最小充分干预」——它可以立刻在下一个决策里生效。

它在实际开发中真的管用吗？

理论说得再好，我最关心的还是：放进 Agent 的上下文里，它真的会有区别吗？

答案是：有，而且可以察觉到。

我把完整的元偏好列表放进了 GitHub Copilot 的 instructions 文件（.github/copilot-instructions.md）。这是我实际放进去的内容：

 1## 决策偏好（不可变元偏好）
 2
 3当存在以下冲突时，请按照以下规则裁决：
 4
 5- 功能 > 外观
 6- 可控性 > 仪式感
 7- 可复现性 > 一次性强度
 8- 止损 > 收益递减
 9- 信息完整 > 速度
10- 低后悔概率 > 峰值体验
11- 低维护 > 一次性收益
12- 长期确定性 > 短期不适
13- 可验证证据 > 经验判断
14- 分步确认 > 一步到位（风险可逆时）
15- 最小充分干预 > 强力干预（效果可达时）

放进去之后，最先感受到变化的一个场景是让 Agent 选方案。

以前的交互大概是这样：我描述一个问题，Agent 给我两三个方案，每个方案各有优劣，然后看我选哪个。在没有更多上下文的情况下，它给出的顺序是「平均化的」——倾向于回答「方案 A 适合注重性能的场景，方案 B 适合快速交付的场景」，然后把选择权扔回给我。

加了元偏好之后，它开始主动做排序了。同样的问题，它会说：「考虑到你偏好低维护成本和可验证性，优先推荐方案 B，理由是……」，而不是把两个方案并列摆出来等我决定。

另一个明显的变化是在代码审查的过程中。我让 Agent 帮我 review 一段服务层代码，里面有一个地方可以用一个聪明的递归技巧把代码缩短很多行。

以往 Agent 可能会直接推荐那个「更优雅」的实现——毕竟从表面代码质量来看，它确实更漂亮。但这次它做了一个有意思的判断：

Gemini

这里有两个方案可选：

方案 A（当前写法的展开版本）：逻辑线性，每一步可以单独追踪，添加日志和中间状态检查更容易。

方案 B（递归优化版）：代码更简洁，但调试难度更高，出错时 stack trace 会嵌套多层，在生产追踪时增加认知负担。

根据你的开发偏好（可验证性 > 表面代码整洁，低维护 > 一次性优雅），推荐方案 A。如果这是一个性能关键路径，再考虑 B。

它没有只给我代码更短的那个选项。它主动做了取舍，并且把取舍的理由说出来了。

这不是「更聪明的 AI」，而是 AI 在我给出的裁决规则框架下，做出了和我决策函数一致的判断。

我后来总结了一下，放了元偏好之后能察觉到 Agent 行为变化的几个场景：

方案排序：不再并列摆出「各有取舍，看你选」，而是主动按我的优先级排序。

技术债预警：在给我一个快速方案时，会主动注明「这会引入 N 处未来可能变更的 hard-code，如果你介意后期维护成本，我们可以稍微多花一点时间参数化这里」。

重构边界：不再建议「既然在这里改了，顺便把旁边那块也优化一下」，而是严格控制改动范围，除非我主动要求扩大。

不确定时的姿态：以前面对模糊需求，Agent 倾向于猜一个答案给你。现在它会先问清前提，然后再写代码。

所以，OpenClaw 其实跟好用不好用无关？

说回最初的问题。

OpenClaw 在工程可控性上确实很强——可以精细控制 context、自己写 prompt、接入自定义工具。这些能力是真实的，极客的热情也是有道理的。

但它解决的问题是：「你已经知道要什么，我帮你执行得更快更稳」。

而「你没有显式说清楚要什么，但我能推断出你真正想避开的坑」——这不是 OpenClaw 解决的问题，也不是任何工具自动帮你解决的问题。

这是你得自己花时间做的工作：把藏在直觉里的决策规则给显式化。

OpenClaw 的记忆管理功能让我意识到这件事，但真正让这件事发生的，是我在完全不相关的对话里自己挖出了那组元偏好。

工具再好，如果 AI 不知道你在冲突时会怎么选，它就只能给你「平均工程师会选的方案」。

把你的决策宪法写下来、放进 Agent 的上下文里，才是真正让工具变“好兄弟”的那一步。

如果你已经跟 AI 讨论过很多话题了，试着让它总结一下你的「不可变元偏好」吧。你可能会发现，原来在不同领域的对话里，你一直在用同一套决策规则在做裁决。

下一页期权交易速成课：AI 时代我如何学习