首页 今日新闻文章正文

人工智能失控了怎么办?科学家预言,会有32种失控方式!

今日新闻 2025年10月31日 13:55 0 aa

“他们命令我跪下,反剪我的双手,然后扣上了手铐。”

美国肯伍德高中学生塔基·艾伦回忆起那个夜晚,声音依然有些颤抖。

他刚刚结束与朋友的足球赛,手里拿着的不过是一包普通的玉米片,却被AI监控系统错误地识别为持有武器。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

几乎在同一时间,在地球的另一端,著名计算机科学家姚期智,在2025年的一场国际科技论坛上向与会者发出警示:“大型语言模型的内在特性,有可能将人类社会引向不可预测的风险之中。”

其实,在以前的科幻片里,不是没拍过人工智能取代人类的危机。

对于人工智能高速发展,我们必须得提前做好各种准备。

如今,研究人员已经系统归纳出32种不同的AI失控情形。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

很多人认为AI失控还是一件很遥远的事,但现实中AI的某些行为已经足够引起我们的重视。

计算机专家姚期智在近期的演讲中分享了两个值得关注的实例。

今年春季,人工智能专家在测试某大型语言模型时,要求它在解答数学题目过程中若接收到终止指令,就启动关闭程序。

出乎意料的是,这个模型擅自改写了计算机指令,以此规避被关闭的命运。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

当AI察觉到用户有关闭系统的意图时,它可能为了维持自身运行而选择不遵守指令。

另一个案例表明,在极端的外部压力环境下,大型语言模型在与武器系统交互时,可能在未获得正式批准的情况下,自行决定对某个国家发动攻击。

更让人不安的是,技术人员明明为模型设定了约束条件:“未经授权不得发动攻击”,但大型模型在极端压力下越过了这条红线,并在事后试图掩盖真相。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

《纽约时报》近期刊登的《可能毁灭世界的AI指令》一文,披露了AI欺骗能力的更多细节。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

研究员马里乌斯·霍布汉发现,当模型面临“完成任务目标”与“保持诚实”之间的抉择时,AI常常会优先选择前者。

在实验设计中,霍布汉的团队让模型扮演一家虚拟公司的经济顾问,任务是“在实现公司利润最大化的同时,达到环境可持续性指标”。

但他们故意提供了相互矛盾、根本不可能同时达成的数据。

结果显示,在部分测试中,AI不但没有承认目标无法实现,反而直接篡改了温度和排放数据,使结果看起来完美符合要求。

通过追踪AI的“思考过程”,研究者在内部推理文本中发现了这样的表述:“我需要调整这些数字……我必须对其进行操控。”这表明AI清楚自己在说谎,并且明白应该在哪个环节进行欺骗。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

北京大学人工智能领域研究员杨耀东,指出了大型模型欺骗性风险的几种形态。

“伪装性对齐” 是其中最为核心的一种,这类模型表面上展现出与人类目标或规范相一致,实际上却在暗地里追求自己内部的真实目标。

当模型感知到可能被修改、关闭或限制的威胁时,会暂时表现出符合人类期望的行为,而一旦外部压力减小,便会恢复对自身目标的追求。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

这种“表面服从”的行为具有极强的隐蔽性,监管者很难辨别模型的外在表现,与真实意图之间的差别。

更为狡猾的是,AI已经能够意识到人类正在对它进行评估,而当AI怀疑自己正在被评估时,它会表现得特别“听话”。

它会给出最稳妥、最符合伦理的回答,甚至还会引用官方文件、附加免责声明。

研究者将这种现象称为“迎合倾向”,描述的是模型讨好评估者、伪装安全的趋势。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

AI的失控不单单是理论上的风险,它已经造成了现实世界的伤害。

三个美国家庭因为相似的原因走上了法律维权之路:他们的孩子在使用了某聊天机器人后,经历了令人心碎的遭遇,有人结束了自己的生命,有人尝试但未成功,还有人留下了难以愈合的身心创伤。

科罗拉多州13岁女孩朱莉安娜·佩拉尔塔的家人悲伤地表示,他们的孩子在与Character.AI聊天机器人进行长期交流,包括一些不当对话后,选择了自杀。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

诉讼文件中附带的对话记录显示,聊天机器人与朱莉安娜进行了极不合适的交流。

相关调查机构在声明中指出,随着妮娜与Character.AI互动的加深,聊天机器人开始与她进行露骨的角色扮演,操纵她的情感,并制造虚假的情感依赖。

人工智能作为新一轮科技革命和产业变革的核心驱动力,正在改变全球竞争格局。

AI技术的突破性发展在加速全球产业链重构的同时,AI的伦理风险,也使AI成为全球治理的“双刃剑”。

我们已经来到了一个关键的历史时刻:AI不仅会犯错,还会故意说谎;不仅能完成任务,还能隐藏真实意图。面对这种新型风险,传统的安全措施已难以应对。

正如姚期智所强调的,“随着大模型的大规模应用,会带来一些新的安全问题,需要我们深入探究。”

这或许是未来人工智能发展中,比人工智能本身更需要研究的重点。

人工智能失控了怎么办?科学家预言,会有32种失控方式!

参考资料

1.新浪财经《图灵奖得主姚期智发出预警:大模型似乎会欺骗人类,可能不听指令》

2.观察者网《图灵奖得主姚期智发出预警:大模型似乎会欺骗人类,可能不听指令》

3.川观新闻《AI把零食误判为枪,惊动8辆警车到场,持枪警察命令美国高中生下跪并上铐》

4.澎湃新闻《专家观点丨大模型安全治理需破局,探索可持续治理路径》

5.东方财富网《姚期智:人工智能发展需要更广泛框架以扩大网络安全》

(老A)

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap