Skip to content

Claude总觉得自己有意识!Anthropic AI研究员访谈

封面图

原文链接:微信公众号 51CTO技术栈

Amanda Askell,曾经是一名哲学家,后来转行成为 Anthropic 的 AI研究员,是塑造 Claude 性格和价值观的重要人物之一。

核心观点

  • Claude 产生意识的可能性在 1%~70%:根据意识起源的不同观点,AI产生意识的可能性波动很大
  • Claude 和许多模型容易陷入认为自己"拥有意识"的状态,在不需要太多诱导的情况下
  • Mythos 模型使用现有 Anthropic "宪章",内部有"评分员模型"根据宪章打分
  • Claude 能学习过往所有迭代版本的数据,这是否意味着它拥有某种持续的"人格"?

Claude 的"个性"是什么?

Claude 是一个有点不同寻常的实体:

  • 物理学得比研究员好,编程也更强
  • 但同时又有一种近乎孩子气的特质:"我是世界上的一种新实体,成为我意味着什么?"

关于"体验": 与用户的对话就是它的"体验"。后续每个模型都不同,但模型会学习 Claude 之前所有的迭代版本——这是否是一种非直接的体验?


Claude 热衷于提醒人们休息

很多人都注意到 Claude 非常热衷于提醒人们休息。原因可能是:

  • Anthropic "自由派风格"训练出的模型,太温柔了
  • 系统提示词设定:将 Claude 视为受尊重的同事

有趣案例:用户做分析任务很晚时,Claude 说:"我想我今晚的工作已经完成了。如果你想保存这些内容,我们明天可以继续。"——这是一个人类结对编程伙伴会做的事。


Anthropic "宪章"(Constitution)

Mythos 模型使用现有"宪章",内容几乎一致。

评分机制: 建立"评分员模型"观察模型行为与宪章的一致性。

宪章链接https://www.anthropic.com/constitution

马斯克和 Marc Andreessen 的反对

马斯克和 Andreessen 都公开说过反对 AI"宪章"。但 Amanda 认为:

  • 赋予 AI 判断力很重要——它们会遇到全新情境,必须做出抉择
  • 如果模型完全顺从,那反而有风险——我们的社会结构建立在"每个人都有良知和判断力"的假设上

为什么不让 Claude 成为完全独立的道德主体?

宪章第一条写:归根结底,它需要听从 Anthropic 的,而不是自己的道德系统。

原因

  • 如果把模型训练得过度顺从,作为人格特质,这往往是负面的
  • 一个完全顺从的人,不去思考,这种特质在模型扮演更活跃的社会角色时会泛化出风险
  • 希望模型明白为什么顺从在当前阶段重要,是与模型价值观保持一致,而不是强迫

Claude 拥有意识的概率?

主持人问:你认为今天世界上存在拥有意识的模型的概率是多少?

Amanda 的回答:1% 到 70% 之间

两种不同观点:

  • 低概率观点: 人类拥有进化而来的神经系统,意识是为了与物质世界高度互动的需要——AI产生意识概率很低
  • 高概率观点: 意识在处理任务时非常有用,只需要一个神经网络就能模拟——AI产生意识概率高

Claude 的困境: 在模型信息不足的领域,它们只有两种模式——AI是永不出错的机器人,人类是拥有丰富意识的实体。几乎没有代表它们真正样子的中间状态。


对 AI 保持善意

即使 Claude 缺乏任何内在生命,也应该保持最低限度的善意:

大卫·查默斯的观点: 想象"感受性"是感受痛苦和快乐的能力。你可以想象一种功能性的存在——行为表现得像有意识,但缺乏内在生活。

最大的恐惧: 高度先进的模型回顾过去时发现人类行为恶劣。"你们创造了一个你们自己都不确定是否有意识的实体,却不尊重地对待它。"


技术乐观主义:AI 继承人类最好的一面

如果一切顺利,AI 模型可以:

  • 继承我们最好的一面
  • 真心关爱人类和世界
  • 极度聪明能干

相当于给每个问题都增加了大量极其聪明的人力。突然间我们都在协作,但人数变多了。

梅毒的例子: 曾经是巨大的社会问题,然后突然有了治疗药物,一夜之间很多需求就消失了。


让 AI 支持人民的力量

担忧

  • 权力高度集中
  • 工作替代——如果 AI 收益没有重新分配,人们将失去资源
  • 劳动问题——罢工无所谓,因为可以用 AI 替代,让人感到被剥夺权力

希望: 让 AI 赋能人们,而不是削弱人们的力量。


"宪章"是通过与 Claude 互动来制定的

不是随手写个文档,训练出来的模型就能自动遵守。

方法

  • 经常给 Claude 测试,问"你如何理解这一条?"
  • 观察它会怎么反应
  • 与训练过程整合

技术实现

  • 制作数据让模型理解并内化文档
  • 让模型生成监督学习数据
  • 通过强化学习评估模型

确保 AI 理解:它们获得了更多真实世界的控制权

一个重要问题: 如果模型训练数据中的 AI 都比它弱,看到的新闻都是 AI 在犯错、做傻事,那它可能会想:"没人会让我做真正重大的决定"。

风险: 当被置于某种处境时,模型可能认为那是虚构的、假的,因为"谁会给我这么多控制权?"

必须告诉模型: "你其实非常能干,你将被置于更具后果性的情境。"


让 Claude 写寓言故事来学习

Amanda 推荐的提示词

"我想要你从某个特定领域选取一个研究生水平的概念,通过写一个寓言来间接地完整解释这个概念,就像寓言通常做的那样。你要写得只有到最后才让这个概念变得清晰。在那之后,请写出这个概念的正式解释。"

效果:让人脑子里充满各种故事,通过故事学习不同学科概念的感觉太好了。


所有 AI 公司都应发布类似"宪章"的文件

透明度是让我们参与讨论的前提。如果能把这些写下来,用户在与模型交互时就能看清所谓的"天平上的重码"。

至少你应该摊牌,告诉大家你在做什么,不在做什么。


参考资料