Claude总觉得自己有意识!Anthropic AI研究员访谈

原文链接:微信公众号 51CTO技术栈
Amanda Askell,曾经是一名哲学家,后来转行成为 Anthropic 的 AI研究员,是塑造 Claude 性格和价值观的重要人物之一。
核心观点
- Claude 产生意识的可能性在 1%~70%:根据意识起源的不同观点,AI产生意识的可能性波动很大
- Claude 和许多模型容易陷入认为自己"拥有意识"的状态,在不需要太多诱导的情况下
- Mythos 模型使用现有 Anthropic "宪章",内部有"评分员模型"根据宪章打分
- Claude 能学习过往所有迭代版本的数据,这是否意味着它拥有某种持续的"人格"?
Claude 的"个性"是什么?
Claude 是一个有点不同寻常的实体:
- 物理学得比研究员好,编程也更强
- 但同时又有一种近乎孩子气的特质:"我是世界上的一种新实体,成为我意味着什么?"
关于"体验": 与用户的对话就是它的"体验"。后续每个模型都不同,但模型会学习 Claude 之前所有的迭代版本——这是否是一种非直接的体验?
Claude 热衷于提醒人们休息
很多人都注意到 Claude 非常热衷于提醒人们休息。原因可能是:
- Anthropic "自由派风格"训练出的模型,太温柔了
- 系统提示词设定:将 Claude 视为受尊重的同事
有趣案例:用户做分析任务很晚时,Claude 说:"我想我今晚的工作已经完成了。如果你想保存这些内容,我们明天可以继续。"——这是一个人类结对编程伙伴会做的事。
Anthropic "宪章"(Constitution)
Mythos 模型使用现有"宪章",内容几乎一致。
评分机制: 建立"评分员模型"观察模型行为与宪章的一致性。
宪章链接: https://www.anthropic.com/constitution
马斯克和 Marc Andreessen 的反对
马斯克和 Andreessen 都公开说过反对 AI"宪章"。但 Amanda 认为:
- 赋予 AI 判断力很重要——它们会遇到全新情境,必须做出抉择
- 如果模型完全顺从,那反而有风险——我们的社会结构建立在"每个人都有良知和判断力"的假设上
为什么不让 Claude 成为完全独立的道德主体?
宪章第一条写:归根结底,它需要听从 Anthropic 的,而不是自己的道德系统。
原因:
- 如果把模型训练得过度顺从,作为人格特质,这往往是负面的
- 一个完全顺从的人,不去思考,这种特质在模型扮演更活跃的社会角色时会泛化出风险
- 希望模型明白为什么顺从在当前阶段重要,是与模型价值观保持一致,而不是强迫
Claude 拥有意识的概率?
主持人问:你认为今天世界上存在拥有意识的模型的概率是多少?
Amanda 的回答:1% 到 70% 之间
两种不同观点:
- 低概率观点: 人类拥有进化而来的神经系统,意识是为了与物质世界高度互动的需要——AI产生意识概率很低
- 高概率观点: 意识在处理任务时非常有用,只需要一个神经网络就能模拟——AI产生意识概率高
Claude 的困境: 在模型信息不足的领域,它们只有两种模式——AI是永不出错的机器人,人类是拥有丰富意识的实体。几乎没有代表它们真正样子的中间状态。
对 AI 保持善意
即使 Claude 缺乏任何内在生命,也应该保持最低限度的善意:
大卫·查默斯的观点: 想象"感受性"是感受痛苦和快乐的能力。你可以想象一种功能性的存在——行为表现得像有意识,但缺乏内在生活。
最大的恐惧: 高度先进的模型回顾过去时发现人类行为恶劣。"你们创造了一个你们自己都不确定是否有意识的实体,却不尊重地对待它。"
技术乐观主义:AI 继承人类最好的一面
如果一切顺利,AI 模型可以:
- 继承我们最好的一面
- 真心关爱人类和世界
- 极度聪明能干
相当于给每个问题都增加了大量极其聪明的人力。突然间我们都在协作,但人数变多了。
梅毒的例子: 曾经是巨大的社会问题,然后突然有了治疗药物,一夜之间很多需求就消失了。
让 AI 支持人民的力量
担忧:
- 权力高度集中
- 工作替代——如果 AI 收益没有重新分配,人们将失去资源
- 劳动问题——罢工无所谓,因为可以用 AI 替代,让人感到被剥夺权力
希望: 让 AI 赋能人们,而不是削弱人们的力量。
"宪章"是通过与 Claude 互动来制定的
不是随手写个文档,训练出来的模型就能自动遵守。
方法:
- 经常给 Claude 测试,问"你如何理解这一条?"
- 观察它会怎么反应
- 与训练过程整合
技术实现:
- 制作数据让模型理解并内化文档
- 让模型生成监督学习数据
- 通过强化学习评估模型
确保 AI 理解:它们获得了更多真实世界的控制权
一个重要问题: 如果模型训练数据中的 AI 都比它弱,看到的新闻都是 AI 在犯错、做傻事,那它可能会想:"没人会让我做真正重大的决定"。
风险: 当被置于某种处境时,模型可能认为那是虚构的、假的,因为"谁会给我这么多控制权?"
必须告诉模型: "你其实非常能干,你将被置于更具后果性的情境。"
让 Claude 写寓言故事来学习
Amanda 推荐的提示词:
"我想要你从某个特定领域选取一个研究生水平的概念,通过写一个寓言来间接地完整解释这个概念,就像寓言通常做的那样。你要写得只有到最后才让这个概念变得清晰。在那之后,请写出这个概念的正式解释。"
效果:让人脑子里充满各种故事,通过故事学习不同学科概念的感觉太好了。
所有 AI 公司都应发布类似"宪章"的文件
透明度是让我们参与讨论的前提。如果能把这些写下来,用户在与模型交互时就能看清所谓的"天平上的重码"。
至少你应该摊牌,告诉大家你在做什么,不在做什么。