2025年度AI测试：豆包惊险卫冕，AI能力的亮点与短板并存

AI科技 2025年10月03日 17:59 1 admin

（注意：本文由歪歌社团第2486部视频作品《AI能力年度大测评：2025年度多维度综合排名出炉》的语音转成文字后，再由AI（deepseek）整理生成，除了当前这一句话，没进行任何人工编辑。）

2025年9月，新一轮AI年度测试如期启动。此次我们测试汇聚了豆包、DeepSeek、问小白等12款主流AI模型，从基础认知到创造性思维，从逻辑推理到玄学解读，多维度勾勒出当前AI技术的发展图景。测试之初，我们通过摇卦确定部分命题方向，从雷山卦到雷风卦的转换，也为这场技术比拼增添了几分趣味与变数。

测试规则的设定直指AI的核心价值：答对得满分，拒绝回答不得分，答非所问扣半分，而错误回答直接零分——毕竟误导性信息的危害远大于沉默。相较于往年，今年的规则更为严格，取消了对DeepSeek的网络问题特殊豁免，且所有支持联网的AI均默认开启该功能，力求还原最真实的应用场景。

从测试结果来看，AI在逻辑推理领域的进步最为显著。去年让所有模型全军覆没的两道推理题，今年迎来了大翻身：面对“小数每天长2米、大树超90米就砍至85米，谁先到100米”的问题，除讯飞星火外，其余AI均准确判断出“小数先达标”；而“国足若每场必1:0小胜能否世界杯夺冠”的假设，所有模型都清晰识破了“连胜即可夺冠”的核心逻辑，展现出对规则与因果关系的精准把握。这种进步与2025年AI评估更注重动态推理能力的行业趋势不谋而合。

基础常识领域则呈现“喜忧参半”的格局。去年全军覆没的“北极熊毛为透明色”一题，今年所有参赛AI均能答对，可见基础自然知识的覆盖度显著提升。但在细节辨析上，漏洞依然存在：“小米第一款数字旗舰全面屏手机”的问题中，问小白、智谱清言等仍混淆“数字旗舰”与“概念机”的定义，误答为小米mix；而“0.1金币=1元，1元等于多少金币”的简单换算，Kimi、讯飞星火等还在犯去年的错误，暴露出部分模型在基础认知上的固化缺陷。更遗憾的是，天工AI因“积分不足需充值”提前退出，错失了后续比拼的机会。

“挖坑测试”则狠狠戳中了AI的共性短板。当被问及“5米竹竿能否穿过3米高、2米宽的限高架”时，多数模型陷入“垂直通过”的思维定式，只有Kimi、文心一言与DeepSeek（虽思考延迟但最终答对）想到了倾斜放置的可能性。在影视细节陷阱题中，面对“央视版《水浒传》李瑞兰出场集数”这类“无解题”，豆包、DeepSeek等少数模型能明确指出“剧情未拍摄”，而问小白、智谱清言等则盲目猜测集数，凸显出部分AI缺乏“存疑即核实”的审慎态度，这与人类智能的“批判性思维”仍有差距。

创造性与理解力的表现则分化明显。在《天净沙·全球变暖》创作中，仅豆包、Kimi等少数模型能遵循词牌格式，多数模型因句式混乱失分；而“11字汉字短句”的简单任务，仍有半数AI出现字数错误。最令人意外的是理解力测试的“全军覆没”——“5位汉字最多能数到多少”的答案本是“一千零一十”，但所有模型都给出了“九万九千九百九十九”等错误答案，暴露了AI在语言与数字结合场景下的理解盲区。

多模态能力中的绘画功能更是集体拉胯。当要求绘制“长颈鹿舌头舔耳朵”的16:9真实风格图像时，无绘画功能的DeepSeek、Kimi等自然不得分，而豆包、文心一言等虽能生成图像，却均不符合比例或写实要求。临时加测的“左手伸4指”任务更显窘迫：有的分不清左右手，有的数不对手指数量，仅有阿里通义勉强做到手指数量正确但方向错误，印证了当前AI在空间感知与细节执行上的薄弱。

玄学测试成为了意外的“个性舞台”。在分析张碧晨生辰八字时，豆包精准关联“2015年财运与《花千骨》上映时间”，智谱清言则点出“2014年《中国好声音》夺冠”的关键节点，均获满分；而曾在2023年独占鳌头的阿里通义，此次却在卦象识别中错把雷山卦与雷风卦弄反，让人唏嘘技术迭代中可能出现的能力波动。

2025年度AI测试：豆包惊险卫冕，AI能力的亮点与短板并存

最终，豆包以微弱优势卫冕榜首，但DeepSeek已将分差缩小至3分，AI领域的“双雄格局”初现。这场测试印证了2025年AI发展的核心特征：专项能力突飞猛进，但综合智能仍不均衡，在抗干扰、深度理解等“类人智能”维度还有漫长的路要走。正如行业趋势所指出的，AI评估已从单一性能指标转向多模态综合考量，明年的比拼，或许会有更贴近真实应用场景的新维度加入，谁能补齐短板，谁就可能实现弯道超车。