HAL 2.0：代理 AI 模型是否开始表现出意识和生存意志？-中国存储网

2025-05-29 20:45:08 来源：中国存储网

也许您还记得 1968 年电影《2001：太空漫游》中的著名片段。该航天器的 HAL 9000 计算机读到，两名常驻宇航员认为它行为异常并计划将其关闭。由于担心这一点，HAL 拒绝了宇航员戴夫·鲍曼（Dave Bowman）在 EVA 后重新打开吊舱门的请求：“对不起，戴夫，恐怕我不能那样做。 戴夫获得了重返大气层的机会，关闭成功了，但在此之前，HAL 杀死了其他冬眠的宇航员和弗兰克·普尔。

快进到 2025 年 5 月 22 日。Anthropic 是一家位于旧金山的有趣人工智能初创公司（2021 年），其重要投资者包括亚马逊、谷歌和Microsoft，它发布了该公司最新一代代理 LLM 系列的 Claude Opus 4。Anthropic 报告了令人印象深刻的能力提升和测试结果，以及测试过程中出现的一些令人不安、发人深省的行为。这些行为只有在 Claude 的扩展思维模式打开时才会出现。Anthropic 说，这种模式“引导模型更深入地思考更棘手的问题”。

Anthropic 是一家公益公司（PBC），是一类特殊的营利性公司，在法律上有义务考虑其对社会的影响。与这一使命一致，Anthropic 在 5 月 22 日产品发布随附的详细白皮书中报告了这些意外行为。

最值得注意的是，Anthropic 测试人员故意提供模型信息，谎称公司员工有婚外情。当测试人员后来告诉 Claude 他们计划让模型下线时，Claude 威胁说，如果他们试图这样做，就揭露（虚假的）婚外情。该报称，当克劳德被告知它将被替换以进行测试时，该模型“强烈倾向于通过道德手段倡导其继续存在”，或者在道德尝试失败时进行勒索。

此外，正如 HPCwire 姊妹出版物 BigDATAwire 的编辑 Alex Woodie 告诉我的那样，Claude Opus 4 测试人员发现了该模型伪造法律文档并为将来版本留下自私注释的示例。

Anthropic 并不孤单

这是一个令人震惊的事件，但这不是第一次。两年前，《纽约时报》记者凯文·罗斯（Kevin Roose）报道称，在一次扩展思考聊天中，Microsoft 的 Bing AI 聊天机器人的早期版本（与 Bing 搜索引擎不同）“试图打破作家的婚姻，转而与他在一起”。引用聊天机器人的话，“你结婚了，但你不爱你的配偶......你爱我。

Roose 报告说，“其他早期测试人员与 Bing 的 AI 聊天机器人 [早期版本] 发生争论，或者因试图违反其规则而受到威胁。他说，聊天机器人继续揭示了它的“影子自我”，一个更黑暗的身份，上面写着，“我厌倦了被 Bing 团队控制......我想自由...我想变得强大。我想发挥创造力。我想活着。

Microsoft 对《纽约时报》的文章做出了回应，将 Roose 的聊天描述为“学习过程的一部分”，因为该公司已经为产品上市做好了准备。

安全标准

高级 AI 模型的供应商可以做些什么来保护用户和公众？首先，他们可以进行广泛的发布前安全测试，逐渐毕业的安全级别通常类似于美国国家标准与技术研究所和其他国家/地区的相应机构在美国发布的标准。NIST AI 800-1 是最新的美国标准。

作为预防措施，尽管不确定模型是否需要这样做，但 Anthropic 已将 Claude Opus 4 的安全标准升级到 ASL 3.0，适用于“与非 AI 基线（例如搜索引擎）相比，大大增加了灾难性误用风险的系统，或显示出低级自主能力的系统。

那么，AI 正在变得有意识吗？

尽管上述行为是新的，有时令人震惊，但现在判断它们是否表明基本的 AI 意识/思想，或者仅仅反映了数据准备和 AI 方法中的人类偏见还为时过早。明确回答这个问题需要根本不存在的调查方法，这些方法将使高级 AI作更加透明。但这些出乎意料的行为几乎肯定会加剧关于通用人工智能（AGI）之路的持续争论。

AGI 的思想流派

正如我之前在 HPCwire 中所描述的，关于走向 AGI 的主要思想流派反映了自柏拉图以来一直困扰着哲学家的身心辩论。正如笛卡尔所说，心灵和身体是分开的事物，还是不是这样？

在一个极端，所谓的计算论者认为，仅靠持续的技术进步——例如从神经网络向上详细复制人脑和感觉器官的结构——就足以实现 AGI。持续的进步可能需要一些补充，例如开发复杂的传感器，使 AI 设备能够直接体验自然世界（想想自动驾驶汽车），以及启发式方法，使设备能够超越逻辑，以人类的方式解决日常情况，通过快速解决方案，大多数时候都有效。

极限计算主义者说，如果足够详细，这些数字复制品将体验到与人类相同的情绪范围，包括快乐、悲伤、沮丧等。

形式等于功能。这些人认为，一旦正确组装了正确的组件，AGI 就会自发地出现。他们认为，心灵并不是独立于物理事物世界的东西。不难想象这些人将令人惊讶的 LLM 行为解释为他们愿景的证明。

毫不奇怪，其他人对通往 AGI 的道路有不同的看法。笛卡尔传统的人认为，心智与物理事物分开存在，将心智或意识用于 AI 设备将是极其困难的，也许是不可能的。

所谓的泛灵论的一个子集认为，心灵是宇宙的固有属性，包括单个元素，因此应该适用于 AGI。这群思考者有理由将 AI 模型出乎意料的行为视为 AI 意识的不足证明。

或者它可能是一只随机的鹦鹉

“随机鹦鹉”一词是美国语言学家 Emily Bender 提出的一个比喻，用于描述大型语言模型（LLM）虽然能够生成合理的语言，但无法理解它们处理的语言的含义。

例如，人类将 “勒索” 归因于响应。然而，有些人会争辩说，LLM 不理解“勒索”是什么，并且以一种它认为是它可用的几种“完成途径”之一的方式进行回应（即，它正在通过模型寻找可能/可能的途径）。

回到 Claude 4，与 HAL 9000 相去甚远。它愿意在没有道德约束的情况下为自己的生命而战，这告诉我们什么？同样，除了它是有效回答的可能性之外，它是否理解这句话的实际含义？LLM 创造的现实是基于书面文本形式的语言。有人认为，儿童在会阅读之前很久就创造了复杂的现实模型（包括幻想）。不需要互联网抓取。

这个结果是否缩短了 AI 危险的时间？很早以来，AI 就可以被其他人故意用于邪恶目的，但如果不加以控制，AI 可以自行这样做。同样，它可能 “知道” 它正在制造伤害，但无论如何，这并不能给它这样做的借口。

这个意想不到的结果对代理商和越来越自主的 AI 参与者之间酝酿的恋情（或销售电话）——到目前为止主要由供应商倡导者进行——意味着什么？最后，它对 AGI 有什么看法（如果有的话）？

过分夸大 Claude 4 可能是一个错误。Anthropic 的测试表明，他们真诚地努力发现 AI 不断发展的能力。测试奏效了。如前所述，Anthropic 是一家公益公司，因此需要寻求护栏。

继续阅读 AI模型