大佬给GPT-5打分：58分刚及格！离真AGI还差42分的真相

今日新闻 2025年10月21日 21:47 0 admin

2025年10月，AI圈被一份报告炸懵了，图灵奖得主本吉奥、前谷歌CEO施密特这些大佬凑一块儿，给当前最牛的AI做了次“期末考”。

结果让人大跌眼镜：号称最先进的GPT-5，在真正的通用人工智能（AGI）标准下才考了58分，GPT-4更惨，只拿了27分。

1、

这事儿跟咱们平时的感受完全不一样啊。平时用GPT写文案、算数据，甚至帮着改代码，感觉它啥都会，怎么一到“正经考试”就拉胯了？

其实问题出在“通用”俩字上，咱们现在觉得AI厉害，是因为它在某几件事上特别擅长，但真正的AGI得像正常人一样，啥活儿都能拿得起来，还能持续进步，而不是现在这样“偏科大王”。

这群大佬也觉得之前的AGI讨论太没谱，一会儿说快成了，一会儿说还早，连个统一标准都没有。

所以他们干脆从心理学里找灵感，参考了一个叫“卡特尔-霍恩-卡罗尔认知理论”的东西，搞了个“十维认知框架”。

简单说就是把人类的智能拆成十个方面，每个方面占10分，满分100分才叫真AGI，这十个维度分别是：一般知识、阅读写作、数学能力、现场推理、工作记忆、长期记忆存储、长期记忆检索、视觉处理、听觉处理、处理速度。

你别觉得这框架复杂，其实就是照着“一个受过良好教育的成年人”的标准来的。

比如你跟朋友聊天，既能聊历史（一般知识），又能帮他改文章（阅读写作），算账单（数学），突然聊到一个新话题还能接得住（现场推理），昨天说过的事今天还记得（长期记忆），这才叫“通用”。

而现在的AI，就是在这十个维度里严重偏科，有的考满分，有的考零蛋，根本没法跟正常人比。

2、

先说说AI的“强项”，GPT-4和GPT-5在一般知识、阅读写作、数学这三项上确实能打。

一般知识不用多说，它脑子里装了从互联网扒来的海量信息，问它历史事件、科学常识，比查百科还快；阅读写作更是看家本领，写报告、编故事、甚至模仿作家风格，都能做到以假乱真；数学方面，简单的加减乘除肯定没问题，复杂点的微积分、线性代数，只要不是特别偏门的题，也能算对。

但再看其他维度，就彻底暴露短板了，最吓人的是“长期记忆存储”，俩模型几乎都是零分。啥意思？就是AI是个“金鱼脑”，记不住事儿。

你跟它聊了半小时，中间提到你喜欢喝茶，结果过十分钟再问它“我喜欢喝什么”，它大概率答不上来。

它每次跟你对话，都得重新“加载”上下文，就像你每次打开电脑都得重新登录账号一样，没法像人一样把经历攒起来。

比如你用AI写小说，今天写了第一章，跟它说好了主角叫“小明”，是个老师，结果明天再接着写，你不提醒它，它可能就把主角名字改成“小李”，职业写成医生了。

这种“失忆”的毛病，让AI根本没法做需要长期跟进的事，比如帮你管理项目、陪你练口语，更别说像人类一样积累经验、越用越聪明了。

3、

还有“现场即时推理”，AI也不行，比如你问它“如果我现在把杯子里的水倒在笔记本电脑上，接下来该做什么？”

正常人都知道要先断电、擦水、送修，但AI可能会给你扯一堆“水的化学性质”“笔记本的构造”，或者给你一个驴唇不对马嘴的答案，因为它没法像人一样结合现实场景快速想办法，只能靠脑子里的固定答案来拼凑。

“视觉处理”和“听觉处理”也差得远，现在的AI能识别图片里的猫和狗，也能把语音转文字，但这只是“看”和“听”的基础款。

比如给它看一张凌乱的书桌，让它找出“能用来写字的东西”，它可能会把尺子、橡皮都算进去，因为它没法理解“写字”这个动作需要什么工具；让它听一段环境音，分辨出“有人敲门”和“风吹窗户”的区别，它也经常搞错，更别说像人一样从语气里听出情绪了。

为啥会这样？大佬们说了，现在的AI都在玩一种叫“能力扭曲”的把戏，用自己的强项掩盖弱项，假装自己很“通用”。

最常见的就是用“超长上下文窗口”来补“长期记忆”的坑，比如有的AI宣称能处理128K的上下文，意思是能一次性“记住”几万字的内容。

但这跟真正的长期记忆不是一回事，就像你把一本书揣在兜里，虽然能随时翻，但你没真的把书里的内容记在脑子里。

而且这招特别费钱，处理的上下文越长，AI运算起来越慢，成本越高，你要是想用它记一个月的日常对话，估计得花不少钱，还不一定好用。

4、

还有“检索增强生成”，就是AI回答问题前先去网上搜答案，这看起来能减少“胡说八道”，但本质上是让AI“抄作业”，掩盖了它自己记不住、不会推理的毛病。

就像一个学生考试，本来该靠自己的知识答题，结果他偷偷翻书、查手机，虽然得了高分，但不是真本事。

现在很多人觉得AI越来越厉害，其实是被这些“抄作业”的手段骗了，以为AI真的具备了通用智能，其实它只是把别人的东西拿来用，自己啥都没学会。

这份报告最有用的地方，是给AI行业指了条明路，以前大家搞AGI，要么瞎琢磨，要么盯着某一个方向死磕，现在有了这十个维度，就知道该补哪些短板了。

大佬们打了个比方：AI就像一台发动机，现在有的零件是顶配，有的零件是次品，整体性能根本上不去。要想让发动机跑得快，必须把次品零件全换成好的。

比如长期记忆这个“次品零件”，就得彻底改架构，现在的AI模型参数都是固定的，训练完就没法改了，就像人的大脑停止发育了一样。

未来可能得搞一个“独立记忆模块”，让AI能像人一样，每天学新东西，还能把旧知识存起来，用到的时候随时调。

视觉处理这块，也不能只停留在“识别东西”上，得让AI理解“空间关系”和“物理常识”。

比如让它知道“杯子放在桌子上，要是推一下杯子，杯子会掉下去摔碎”，而不是像现在这样，把杯子和桌子当成两个独立的图片元素，不知道它们之间有啥关系。

听觉处理则需要让AI“听懂”声音背后的意义，而不只是把语音转成文字。

比如让它听一段会议录音，不仅能记下来谁说了什么，还能听出谁在反对、谁在附和，甚至能听出说话人的情绪变化，这样才能真正帮人处理复杂的沟通场景。

5、

对行业来说，这份报告也算是泼了盆冷水，能少点“AGI马上就要来了”的炒作。

之前总有人说“再过五年AGI就成了”，现在看，连GPT-5都才刚过及格线，离满分还差得远。

投资者也不会再盲目砸钱给那些只会“炒概念”的公司，而是会把钱投到补短板的技术上，比如记忆模块、视觉推理这些真正关键的领域。

不过大家也不用灰心，知道了问题在哪，解决起来就有方向了，就像以前人们觉得人类没法飞，后来知道了要靠翅膀和空气动力学，慢慢就发明了飞机。

现在AI的短板已经明确了，接下来就是一群工程师和科学家去攻克这些难题。

大佬们也说了，短期内（比如一年）想让AI拿满分是不可能的，但只要一步步补短板，总有一天能达到“人类水平”的通用智能。

到那时候，AI可能真的能像个“全能助手”一样，帮你管项目、陪你学习，甚至跟你一起创作，而不是现在这样，偶尔靠谱，偶尔“失忆”，偶尔还会说胡话。

最后得说一句，这份报告不是为了否定现在的AI，而是为了让大家更清醒地看待它。

现在的AI确实很有用，能帮我们省不少事，但它还不是“通用智能”，还有很多地方需要改进。

知道了差距，才不会被眼前的便利蒙蔽，也才能更理性地期待未来的技术进步。

毕竟，真正的AGI，应该是能跟人类平等交流、共同进步的伙伴，而不是一个只会“抄作业”的偏科生。

硬核！江苏相城高新区“元和小匠”亮相上海

没选俄罗斯！中国天宫给巴铁首张门票，打破美国独占月球计划

发表评论

大佬给GPT-5打分：58分刚及格！离真AGI还差42分的真相

1、

2、

3、

4、

5、

硬核！江苏相城高新区“元和小匠”亮相上海

没选俄罗斯！中国天宫给巴铁首张门票，打破美国独占月球计划

热门文章

最新文章