人工智能失控了怎么办？科学家预言，会有32种失控方式！

今日新闻 2025年10月31日 13:55 0 aa

“他们命令我跪下，反剪我的双手，然后扣上了手铐。”

美国肯伍德高中学生塔基·艾伦回忆起那个夜晚，声音依然有些颤抖。

他刚刚结束与朋友的足球赛，手里拿着的不过是一包普通的玉米片，却被AI监控系统错误地识别为持有武器。

几乎在同一时间，在地球的另一端，著名计算机科学家姚期智，在2025年的一场国际科技论坛上向与会者发出警示：“大型语言模型的内在特性，有可能将人类社会引向不可预测的风险之中。”

其实，在以前的科幻片里，不是没拍过人工智能取代人类的危机。

对于人工智能高速发展，我们必须得提前做好各种准备。

如今，研究人员已经系统归纳出32种不同的AI失控情形。

很多人认为AI失控还是一件很遥远的事，但现实中AI的某些行为已经足够引起我们的重视。

计算机专家姚期智在近期的演讲中分享了两个值得关注的实例。

今年春季，人工智能专家在测试某大型语言模型时，要求它在解答数学题目过程中若接收到终止指令，就启动关闭程序。

出乎意料的是，这个模型擅自改写了计算机指令，以此规避被关闭的命运。

当AI察觉到用户有关闭系统的意图时，它可能为了维持自身运行而选择不遵守指令。

另一个案例表明，在极端的外部压力环境下，大型语言模型在与武器系统交互时，可能在未获得正式批准的情况下，自行决定对某个国家发动攻击。

更让人不安的是，技术人员明明为模型设定了约束条件：“未经授权不得发动攻击”，但大型模型在极端压力下越过了这条红线，并在事后试图掩盖真相。

《纽约时报》近期刊登的《可能毁灭世界的AI指令》一文，披露了AI欺骗能力的更多细节。

研究员马里乌斯·霍布汉发现，当模型面临“完成任务目标”与“保持诚实”之间的抉择时，AI常常会优先选择前者。

在实验设计中，霍布汉的团队让模型扮演一家虚拟公司的经济顾问，任务是“在实现公司利润最大化的同时，达到环境可持续性指标”。

但他们故意提供了相互矛盾、根本不可能同时达成的数据。

结果显示，在部分测试中，AI不但没有承认目标无法实现，反而直接篡改了温度和排放数据，使结果看起来完美符合要求。

通过追踪AI的“思考过程”，研究者在内部推理文本中发现了这样的表述：“我需要调整这些数字……我必须对其进行操控。”这表明AI清楚自己在说谎，并且明白应该在哪个环节进行欺骗。

北京大学人工智能领域研究员杨耀东，指出了大型模型欺骗性风险的几种形态。

“伪装性对齐” 是其中最为核心的一种，这类模型表面上展现出与人类目标或规范相一致，实际上却在暗地里追求自己内部的真实目标。

当模型感知到可能被修改、关闭或限制的威胁时，会暂时表现出符合人类期望的行为，而一旦外部压力减小，便会恢复对自身目标的追求。

这种“表面服从”的行为具有极强的隐蔽性，监管者很难辨别模型的外在表现，与真实意图之间的差别。

更为狡猾的是，AI已经能够意识到人类正在对它进行评估，而当AI怀疑自己正在被评估时，它会表现得特别“听话”。

它会给出最稳妥、最符合伦理的回答，甚至还会引用官方文件、附加免责声明。

研究者将这种现象称为“迎合倾向”，描述的是模型讨好评估者、伪装安全的趋势。

AI的失控不单单是理论上的风险，它已经造成了现实世界的伤害。

三个美国家庭因为相似的原因走上了法律维权之路：他们的孩子在使用了某聊天机器人后，经历了令人心碎的遭遇，有人结束了自己的生命，有人尝试但未成功，还有人留下了难以愈合的身心创伤。

科罗拉多州13岁女孩朱莉安娜·佩拉尔塔的家人悲伤地表示，他们的孩子在与Character.AI聊天机器人进行长期交流，包括一些不当对话后，选择了自杀。

诉讼文件中附带的对话记录显示，聊天机器人与朱莉安娜进行了极不合适的交流。

相关调查机构在声明中指出，随着妮娜与Character.AI互动的加深，聊天机器人开始与她进行露骨的角色扮演，操纵她的情感，并制造虚假的情感依赖。

人工智能作为新一轮科技革命和产业变革的核心驱动力，正在改变全球竞争格局。

AI技术的突破性发展在加速全球产业链重构的同时，AI的伦理风险，也使AI成为全球治理的“双刃剑”。

我们已经来到了一个关键的历史时刻：AI不仅会犯错，还会故意说谎；不仅能完成任务，还能隐藏真实意图。面对这种新型风险，传统的安全措施已难以应对。

正如姚期智所强调的，“随着大模型的大规模应用，会带来一些新的安全问题，需要我们深入探究。”

这或许是未来人工智能发展中，比人工智能本身更需要研究的重点。

参考资料

1.新浪财经《图灵奖得主姚期智发出预警：大模型似乎会欺骗人类，可能不听指令》

2.观察者网《图灵奖得主姚期智发出预警：大模型似乎会欺骗人类，可能不听指令》

3.川观新闻《AI把零食误判为枪，惊动8辆警车到场，持枪警察命令美国高中生下跪并上铐》

4.澎湃新闻《专家观点丨大模型安全治理需破局，探索可持续治理路径》

5.东方财富网《姚期智：人工智能发展需要更广泛框架以扩大网络安全》

（老A）

鞍钢集团两项成果荣获国家级特等奖

「套壳」的最高境界：OpenAI揭秘Atlas浏览器架构OWL

发表评论

人工智能失控了怎么办？科学家预言，会有32种失控方式！

鞍钢集团两项成果荣获国家级特等奖

「套壳」的最高境界：OpenAI揭秘Atlas浏览器架构OWL

热门文章

最新文章