首页 今日新闻文章正文

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

今日新闻 2025年10月21日 21:47 0 admin
大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

2025年10月,AI圈被一份报告炸懵了,图灵奖得主本吉奥、前谷歌CEO施密特这些大佬凑一块儿,给当前最牛的AI做了次“期末考”。

结果让人大跌眼镜:号称最先进的GPT-5,在真正的通用人工智能(AGI)标准下才考了58分,GPT-4更惨,只拿了27分。

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

1、

这事儿跟咱们平时的感受完全不一样啊。平时用GPT写文案、算数据,甚至帮着改代码,感觉它啥都会,怎么一到“正经考试”就拉胯了?

其实问题出在“通用”俩字上,咱们现在觉得AI厉害,是因为它在某几件事上特别擅长,但真正的AGI得像正常人一样,啥活儿都能拿得起来,还能持续进步,而不是现在这样“偏科大王”。

这群大佬也觉得之前的AGI讨论太没谱,一会儿说快成了,一会儿说还早,连个统一标准都没有。

所以他们干脆从心理学里找灵感,参考了一个叫“卡特尔-霍恩-卡罗尔认知理论”的东西,搞了个“十维认知框架”。

简单说就是把人类的智能拆成十个方面,每个方面占10分,满分100分才叫真AGI,这十个维度分别是:一般知识、阅读写作、数学能力、现场推理、工作记忆、长期记忆存储、长期记忆检索、视觉处理、听觉处理、处理速度。

你别觉得这框架复杂,其实就是照着“一个受过良好教育的成年人”的标准来的。

比如你跟朋友聊天,既能聊历史(一般知识),又能帮他改文章(阅读写作),算账单(数学),突然聊到一个新话题还能接得住(现场推理),昨天说过的事今天还记得(长期记忆),这才叫“通用”。

而现在的AI,就是在这十个维度里严重偏科,有的考满分,有的考零蛋,根本没法跟正常人比。

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

2、

先说说AI的“强项”,GPT-4和GPT-5在一般知识、阅读写作、数学这三项上确实能打。

一般知识不用多说,它脑子里装了从互联网扒来的海量信息,问它历史事件、科学常识,比查百科还快;阅读写作更是看家本领,写报告、编故事、甚至模仿作家风格,都能做到以假乱真;数学方面,简单的加减乘除肯定没问题,复杂点的微积分、线性代数,只要不是特别偏门的题,也能算对。

但再看其他维度,就彻底暴露短板了,最吓人的是“长期记忆存储”,俩模型几乎都是零分。啥意思?就是AI是个“金鱼脑”,记不住事儿。

你跟它聊了半小时,中间提到你喜欢喝茶,结果过十分钟再问它“我喜欢喝什么”,它大概率答不上来。

它每次跟你对话,都得重新“加载”上下文,就像你每次打开电脑都得重新登录账号一样,没法像人一样把经历攒起来。

比如你用AI写小说,今天写了第一章,跟它说好了主角叫“小明”,是个老师,结果明天再接着写,你不提醒它,它可能就把主角名字改成“小李”,职业写成医生了。

这种“失忆”的毛病,让AI根本没法做需要长期跟进的事,比如帮你管理项目、陪你练口语,更别说像人类一样积累经验、越用越聪明了。

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

3、

还有“现场即时推理”,AI也不行,比如你问它“如果我现在把杯子里的水倒在笔记本电脑上,接下来该做什么?”

正常人都知道要先断电、擦水、送修,但AI可能会给你扯一堆“水的化学性质”“笔记本的构造”,或者给你一个驴唇不对马嘴的答案,因为它没法像人一样结合现实场景快速想办法,只能靠脑子里的固定答案来拼凑。

“视觉处理”和“听觉处理”也差得远,现在的AI能识别图片里的猫和狗,也能把语音转文字,但这只是“看”和“听”的基础款。

比如给它看一张凌乱的书桌,让它找出“能用来写字的东西”,它可能会把尺子、橡皮都算进去,因为它没法理解“写字”这个动作需要什么工具;让它听一段环境音,分辨出“有人敲门”和“风吹窗户”的区别,它也经常搞错,更别说像人一样从语气里听出情绪了。

为啥会这样?大佬们说了,现在的AI都在玩一种叫“能力扭曲”的把戏,用自己的强项掩盖弱项,假装自己很“通用”。

最常见的就是用“超长上下文窗口”来补“长期记忆”的坑,比如有的AI宣称能处理128K的上下文,意思是能一次性“记住”几万字的内容。

但这跟真正的长期记忆不是一回事,就像你把一本书揣在兜里,虽然能随时翻,但你没真的把书里的内容记在脑子里。

而且这招特别费钱,处理的上下文越长,AI运算起来越慢,成本越高,你要是想用它记一个月的日常对话,估计得花不少钱,还不一定好用。

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

4、

还有“检索增强生成”,就是AI回答问题前先去网上搜答案,这看起来能减少“胡说八道”,但本质上是让AI“抄作业”,掩盖了它自己记不住、不会推理的毛病。

就像一个学生考试,本来该靠自己的知识答题,结果他偷偷翻书、查手机,虽然得了高分,但不是真本事。

现在很多人觉得AI越来越厉害,其实是被这些“抄作业”的手段骗了,以为AI真的具备了通用智能,其实它只是把别人的东西拿来用,自己啥都没学会。

这份报告最有用的地方,是给AI行业指了条明路,以前大家搞AGI,要么瞎琢磨,要么盯着某一个方向死磕,现在有了这十个维度,就知道该补哪些短板了。

大佬们打了个比方:AI就像一台发动机,现在有的零件是顶配,有的零件是次品,整体性能根本上不去。要想让发动机跑得快,必须把次品零件全换成好的。

比如长期记忆这个“次品零件”,就得彻底改架构,现在的AI模型参数都是固定的,训练完就没法改了,就像人的大脑停止发育了一样。

未来可能得搞一个“独立记忆模块”,让AI能像人一样,每天学新东西,还能把旧知识存起来,用到的时候随时调。

视觉处理这块,也不能只停留在“识别东西”上,得让AI理解“空间关系”和“物理常识”。

比如让它知道“杯子放在桌子上,要是推一下杯子,杯子会掉下去摔碎”,而不是像现在这样,把杯子和桌子当成两个独立的图片元素,不知道它们之间有啥关系。

听觉处理则需要让AI“听懂”声音背后的意义,而不只是把语音转成文字。

比如让它听一段会议录音,不仅能记下来谁说了什么,还能听出谁在反对、谁在附和,甚至能听出说话人的情绪变化,这样才能真正帮人处理复杂的沟通场景。

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

5、

对行业来说,这份报告也算是泼了盆冷水,能少点“AGI马上就要来了”的炒作。

之前总有人说“再过五年AGI就成了”,现在看,连GPT-5都才刚过及格线,离满分还差得远。

投资者也不会再盲目砸钱给那些只会“炒概念”的公司,而是会把钱投到补短板的技术上,比如记忆模块、视觉推理这些真正关键的领域。

不过大家也不用灰心,知道了问题在哪,解决起来就有方向了,就像以前人们觉得人类没法飞,后来知道了要靠翅膀和空气动力学,慢慢就发明了飞机。

现在AI的短板已经明确了,接下来就是一群工程师和科学家去攻克这些难题。

大佬们也说了,短期内(比如一年)想让AI拿满分是不可能的,但只要一步步补短板,总有一天能达到“人类水平”的通用智能。

到那时候,AI可能真的能像个“全能助手”一样,帮你管项目、陪你学习,甚至跟你一起创作,而不是现在这样,偶尔靠谱,偶尔“失忆”,偶尔还会说胡话。

大佬给GPT-5打分:58分刚及格!离真AGI还差42分的真相

最后得说一句,这份报告不是为了否定现在的AI,而是为了让大家更清醒地看待它。

现在的AI确实很有用,能帮我们省不少事,但它还不是“通用智能”,还有很多地方需要改进。

知道了差距,才不会被眼前的便利蒙蔽,也才能更理性地期待未来的技术进步。

毕竟,真正的AGI,应该是能跟人类平等交流、共同进步的伙伴,而不是一个只会“抄作业”的偏科生。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap