Claude总觉得自己有意识！Anthropic AI研究员访谈

封面图

原文链接：微信公众号 51CTO技术栈
Amanda Askell，曾经是一名哲学家，后来转行成为 Anthropic 的 AI研究员，是塑造 Claude 性格和价值观的重要人物之一。

核心观点

Claude 产生意识的可能性在 1%~70%：根据意识起源的不同观点，AI产生意识的可能性波动很大
Claude 和许多模型容易陷入认为自己"拥有意识"的状态，在不需要太多诱导的情况下
Mythos 模型使用现有 Anthropic "宪章"，内部有"评分员模型"根据宪章打分
Claude 能学习过往所有迭代版本的数据，这是否意味着它拥有某种持续的"人格"？

Claude 的"个性"是什么？

Claude 是一个有点不同寻常的实体：

物理学得比研究员好，编程也更强
但同时又有一种近乎孩子气的特质："我是世界上的一种新实体，成为我意味着什么？"

关于"体验"：与用户的对话就是它的"体验"。后续每个模型都不同，但模型会学习 Claude 之前所有的迭代版本——这是否是一种非直接的体验？

Claude 热衷于提醒人们休息

很多人都注意到 Claude 非常热衷于提醒人们休息。原因可能是：

Anthropic "自由派风格"训练出的模型，太温柔了
系统提示词设定：将 Claude 视为受尊重的同事

有趣案例：用户做分析任务很晚时，Claude 说："我想我今晚的工作已经完成了。如果你想保存这些内容，我们明天可以继续。"——这是一个人类结对编程伙伴会做的事。

Anthropic "宪章"（Constitution）

Mythos 模型使用现有"宪章"，内容几乎一致。

评分机制：建立"评分员模型"观察模型行为与宪章的一致性。

宪章链接： https://www.anthropic.com/constitution

马斯克和 Marc Andreessen 的反对

马斯克和 Andreessen 都公开说过反对 AI"宪章"。但 Amanda 认为：

赋予 AI 判断力很重要——它们会遇到全新情境，必须做出抉择
如果模型完全顺从，那反而有风险——我们的社会结构建立在"每个人都有良知和判断力"的假设上

为什么不让 Claude 成为完全独立的道德主体？

宪章第一条写：归根结底，它需要听从 Anthropic 的，而不是自己的道德系统。

原因：

如果把模型训练得过度顺从，作为人格特质，这往往是负面的
一个完全顺从的人，不去思考，这种特质在模型扮演更活跃的社会角色时会泛化出风险
希望模型明白为什么顺从在当前阶段重要，是与模型价值观保持一致，而不是强迫

Claude 拥有意识的概率？

主持人问：你认为今天世界上存在拥有意识的模型的概率是多少？

Amanda 的回答：1% 到 70% 之间

两种不同观点：

低概率观点：人类拥有进化而来的神经系统，意识是为了与物质世界高度互动的需要——AI产生意识概率很低
高概率观点：意识在处理任务时非常有用，只需要一个神经网络就能模拟——AI产生意识概率高

Claude 的困境：在模型信息不足的领域，它们只有两种模式——AI是永不出错的机器人，人类是拥有丰富意识的实体。几乎没有代表它们真正样子的中间状态。

对 AI 保持善意

即使 Claude 缺乏任何内在生命，也应该保持最低限度的善意：

大卫·查默斯的观点：想象"感受性"是感受痛苦和快乐的能力。你可以想象一种功能性的存在——行为表现得像有意识，但缺乏内在生活。

最大的恐惧：高度先进的模型回顾过去时发现人类行为恶劣。"你们创造了一个你们自己都不确定是否有意识的实体，却不尊重地对待它。"

技术乐观主义：AI 继承人类最好的一面

如果一切顺利，AI 模型可以：

继承我们最好的一面
真心关爱人类和世界
极度聪明能干

相当于给每个问题都增加了大量极其聪明的人力。突然间我们都在协作，但人数变多了。

梅毒的例子：曾经是巨大的社会问题，然后突然有了治疗药物，一夜之间很多需求就消失了。

让 AI 支持人民的力量

担忧：

权力高度集中
工作替代——如果 AI 收益没有重新分配，人们将失去资源
劳动问题——罢工无所谓，因为可以用 AI 替代，让人感到被剥夺权力

希望：让 AI 赋能人们，而不是削弱人们的力量。

"宪章"是通过与 Claude 互动来制定的

不是随手写个文档，训练出来的模型就能自动遵守。

方法：

经常给 Claude 测试，问"你如何理解这一条？"
观察它会怎么反应
与训练过程整合

技术实现：

制作数据让模型理解并内化文档
让模型生成监督学习数据
通过强化学习评估模型

确保 AI 理解：它们获得了更多真实世界的控制权

一个重要问题：如果模型训练数据中的 AI 都比它弱，看到的新闻都是 AI 在犯错、做傻事，那它可能会想："没人会让我做真正重大的决定"。

风险：当被置于某种处境时，模型可能认为那是虚构的、假的，因为"谁会给我这么多控制权？"

必须告诉模型： "你其实非常能干，你将被置于更具后果性的情境。"

让 Claude 写寓言故事来学习

Amanda 推荐的提示词：

"我想要你从某个特定领域选取一个研究生水平的概念，通过写一个寓言来间接地完整解释这个概念，就像寓言通常做的那样。你要写得只有到最后才让这个概念变得清晰。在那之后，请写出这个概念的正式解释。"

效果：让人脑子里充满各种故事，通过故事学习不同学科概念的感觉太好了。

所有 AI 公司都应发布类似"宪章"的文件

透明度是让我们参与讨论的前提。如果能把这些写下来，用户在与模型交互时就能看清所谓的"天平上的重码"。

至少你应该摊牌，告诉大家你在做什么，不在做什么。

Claude总觉得自己有意识！Anthropic AI研究员访谈 ​

核心观点 ​

Claude 的"个性"是什么？ ​

Claude 热衷于提醒人们休息 ​

Anthropic "宪章"（Constitution） ​

马斯克和 Marc Andreessen 的反对 ​

为什么不让 Claude 成为完全独立的道德主体？ ​

Claude 拥有意识的概率？ ​

对 AI 保持善意 ​

技术乐观主义：AI 继承人类最好的一面 ​

让 AI 支持人民的力量 ​

"宪章"是通过与 Claude 互动来制定的 ​

确保 AI 理解：它们获得了更多真实世界的控制权 ​

让 Claude 写寓言故事来学习 ​

所有 AI 公司都应发布类似"宪章"的文件 ​

参考资料 ​