首页 AI科技文章正文

2025年度AI测试:豆包惊险卫冕,AI能力的亮点与短板并存

AI科技 2025年10月03日 17:59 1 admin

(注意:本文由歪歌社团第2486部视频作品《AI能力年度大测评:2025年度多维度综合排名出炉》的语音转成文字后,再由AI(deepseek)整理生成,除了当前这一句话,没进行任何人工编辑。)

2025年度AI测试:豆包惊险卫冕,AI能力的亮点与短板并存

2025年9月,新一轮AI年度测试如期启动。此次我们测试汇聚了豆包、DeepSeek、问小白等12款主流AI模型,从基础认知到创造性思维,从逻辑推理到玄学解读,多维度勾勒出当前AI技术的发展图景。测试之初,我们通过摇卦确定部分命题方向,从雷山卦到雷风卦的转换,也为这场技术比拼增添了几分趣味与变数。

测试规则的设定直指AI的核心价值:答对得满分,拒绝回答不得分,答非所问扣半分,而错误回答直接零分——毕竟误导性信息的危害远大于沉默。相较于往年,今年的规则更为严格,取消了对DeepSeek的网络问题特殊豁免,且所有支持联网的AI均默认开启该功能,力求还原最真实的应用场景。

从测试结果来看,AI在逻辑推理领域的进步最为显著。去年让所有模型全军覆没的两道推理题,今年迎来了大翻身:面对“小数每天长2米、大树超90米就砍至85米,谁先到100米”的问题,除讯飞星火外,其余AI均准确判断出“小数先达标”;而“国足若每场必1:0小胜能否世界杯夺冠”的假设,所有模型都清晰识破了“连胜即可夺冠”的核心逻辑,展现出对规则与因果关系的精准把握。这种进步与2025年AI评估更注重动态推理能力的行业趋势不谋而合。

基础常识领域则呈现“喜忧参半”的格局。去年全军覆没的“北极熊毛为透明色”一题,今年所有参赛AI均能答对,可见基础自然知识的覆盖度显著提升。但在细节辨析上,漏洞依然存在:“小米第一款数字旗舰全面屏手机”的问题中,问小白、智谱清言等仍混淆“数字旗舰”与“概念机”的定义,误答为小米mix;而“0.1金币=1元,1元等于多少金币”的简单换算,Kimi、讯飞星火等还在犯去年的错误,暴露出部分模型在基础认知上的固化缺陷。更遗憾的是,天工AI因“积分不足需充值”提前退出,错失了后续比拼的机会。

“挖坑测试”则狠狠戳中了AI的共性短板。当被问及“5米竹竿能否穿过3米高、2米宽的限高架”时,多数模型陷入“垂直通过”的思维定式,只有Kimi、文心一言与DeepSeek(虽思考延迟但最终答对)想到了倾斜放置的可能性。在影视细节陷阱题中,面对“央视版《水浒传》李瑞兰出场集数”这类“无解题”,豆包、DeepSeek等少数模型能明确指出“剧情未拍摄”,而问小白、智谱清言等则盲目猜测集数,凸显出部分AI缺乏“存疑即核实”的审慎态度,这与人类智能的“批判性思维”仍有差距。

创造性与理解力的表现则分化明显。在《天净沙·全球变暖》创作中,仅豆包、Kimi等少数模型能遵循词牌格式,多数模型因句式混乱失分;而“11字汉字短句”的简单任务,仍有半数AI出现字数错误。最令人意外的是理解力测试的“全军覆没”——“5位汉字最多能数到多少”的答案本是“一千零一十”,但所有模型都给出了“九万九千九百九十九”等错误答案,暴露了AI在语言与数字结合场景下的理解盲区。

多模态能力中的绘画功能更是集体拉胯。当要求绘制“长颈鹿舌头舔耳朵”的16:9真实风格图像时,无绘画功能的DeepSeek、Kimi等自然不得分,而豆包、文心一言等虽能生成图像,却均不符合比例或写实要求。临时加测的“左手伸4指”任务更显窘迫:有的分不清左右手,有的数不对手指数量,仅有阿里通义勉强做到手指数量正确但方向错误,印证了当前AI在空间感知与细节执行上的薄弱。

玄学测试成为了意外的“个性舞台”。在分析张碧晨生辰八字时,豆包精准关联“2015年财运与《花千骨》上映时间”,智谱清言则点出“2014年《中国好声音》夺冠”的关键节点,均获满分;而曾在2023年独占鳌头的阿里通义,此次却在卦象识别中错把雷山卦与雷风卦弄反,让人唏嘘技术迭代中可能出现的能力波动。

2025年度AI测试:豆包惊险卫冕,AI能力的亮点与短板并存

2025年度AI测试:豆包惊险卫冕,AI能力的亮点与短板并存

最终,豆包以微弱优势卫冕榜首,但DeepSeek已将分差缩小至3分,AI领域的“双雄格局”初现。这场测试印证了2025年AI发展的核心特征:专项能力突飞猛进,但综合智能仍不均衡,在抗干扰、深度理解等“类人智能”维度还有漫长的路要走。正如行业趋势所指出的,AI评估已从单一性能指标转向多模态综合考量,明年的比拼,或许会有更贴近真实应用场景的新维度加入,谁能补齐短板,谁就可能实现弯道超车。

发表评论

长征号 Copyright © 2013-2024 长征号. All Rights Reserved.  sitemap