(注意:本文由歪歌社团第2486部视频作品《AI能力年度大测评:2025年度多维度综合排名出炉》的语音转成文字后,再由AI(deepseek)整理生成...
2025-10-03 1
(注意:本文由歪歌社团第2486部视频作品《AI能力年度大测评:2025年度多维度综合排名出炉》的语音转成文字后,再由AI(deepseek)整理生成,除了当前这一句话,没进行任何人工编辑。)
2025年9月,新一轮AI年度测试如期启动。此次我们测试汇聚了豆包、DeepSeek、问小白等12款主流AI模型,从基础认知到创造性思维,从逻辑推理到玄学解读,多维度勾勒出当前AI技术的发展图景。测试之初,我们通过摇卦确定部分命题方向,从雷山卦到雷风卦的转换,也为这场技术比拼增添了几分趣味与变数。
测试规则的设定直指AI的核心价值:答对得满分,拒绝回答不得分,答非所问扣半分,而错误回答直接零分——毕竟误导性信息的危害远大于沉默。相较于往年,今年的规则更为严格,取消了对DeepSeek的网络问题特殊豁免,且所有支持联网的AI均默认开启该功能,力求还原最真实的应用场景。
从测试结果来看,AI在逻辑推理领域的进步最为显著。去年让所有模型全军覆没的两道推理题,今年迎来了大翻身:面对“小数每天长2米、大树超90米就砍至85米,谁先到100米”的问题,除讯飞星火外,其余AI均准确判断出“小数先达标”;而“国足若每场必1:0小胜能否世界杯夺冠”的假设,所有模型都清晰识破了“连胜即可夺冠”的核心逻辑,展现出对规则与因果关系的精准把握。这种进步与2025年AI评估更注重动态推理能力的行业趋势不谋而合。
基础常识领域则呈现“喜忧参半”的格局。去年全军覆没的“北极熊毛为透明色”一题,今年所有参赛AI均能答对,可见基础自然知识的覆盖度显著提升。但在细节辨析上,漏洞依然存在:“小米第一款数字旗舰全面屏手机”的问题中,问小白、智谱清言等仍混淆“数字旗舰”与“概念机”的定义,误答为小米mix;而“0.1金币=1元,1元等于多少金币”的简单换算,Kimi、讯飞星火等还在犯去年的错误,暴露出部分模型在基础认知上的固化缺陷。更遗憾的是,天工AI因“积分不足需充值”提前退出,错失了后续比拼的机会。
“挖坑测试”则狠狠戳中了AI的共性短板。当被问及“5米竹竿能否穿过3米高、2米宽的限高架”时,多数模型陷入“垂直通过”的思维定式,只有Kimi、文心一言与DeepSeek(虽思考延迟但最终答对)想到了倾斜放置的可能性。在影视细节陷阱题中,面对“央视版《水浒传》李瑞兰出场集数”这类“无解题”,豆包、DeepSeek等少数模型能明确指出“剧情未拍摄”,而问小白、智谱清言等则盲目猜测集数,凸显出部分AI缺乏“存疑即核实”的审慎态度,这与人类智能的“批判性思维”仍有差距。
创造性与理解力的表现则分化明显。在《天净沙·全球变暖》创作中,仅豆包、Kimi等少数模型能遵循词牌格式,多数模型因句式混乱失分;而“11字汉字短句”的简单任务,仍有半数AI出现字数错误。最令人意外的是理解力测试的“全军覆没”——“5位汉字最多能数到多少”的答案本是“一千零一十”,但所有模型都给出了“九万九千九百九十九”等错误答案,暴露了AI在语言与数字结合场景下的理解盲区。
多模态能力中的绘画功能更是集体拉胯。当要求绘制“长颈鹿舌头舔耳朵”的16:9真实风格图像时,无绘画功能的DeepSeek、Kimi等自然不得分,而豆包、文心一言等虽能生成图像,却均不符合比例或写实要求。临时加测的“左手伸4指”任务更显窘迫:有的分不清左右手,有的数不对手指数量,仅有阿里通义勉强做到手指数量正确但方向错误,印证了当前AI在空间感知与细节执行上的薄弱。
玄学测试成为了意外的“个性舞台”。在分析张碧晨生辰八字时,豆包精准关联“2015年财运与《花千骨》上映时间”,智谱清言则点出“2014年《中国好声音》夺冠”的关键节点,均获满分;而曾在2023年独占鳌头的阿里通义,此次却在卦象识别中错把雷山卦与雷风卦弄反,让人唏嘘技术迭代中可能出现的能力波动。
最终,豆包以微弱优势卫冕榜首,但DeepSeek已将分差缩小至3分,AI领域的“双雄格局”初现。这场测试印证了2025年AI发展的核心特征:专项能力突飞猛进,但综合智能仍不均衡,在抗干扰、深度理解等“类人智能”维度还有漫长的路要走。正如行业趋势所指出的,AI评估已从单一性能指标转向多模态综合考量,明年的比拼,或许会有更贴近真实应用场景的新维度加入,谁能补齐短板,谁就可能实现弯道超车。
相关文章
(注意:本文由歪歌社团第2486部视频作品《AI能力年度大测评:2025年度多维度综合排名出炉》的语音转成文字后,再由AI(deepseek)整理生成...
2025-10-03 1
证券之星消息,根据天眼查APP数据显示先导智能(300450)新获得一项实用新型专利授权,专利名为“一种供片装置及侧托片贴合设备”,专利申请号为CN2...
2025-10-03 1
证券之星消息,长芯博创(300548 09月30日在投资者关系平台上答复投资者关心的问题。投资者提问:光博会上两大龙头企业提出了CPC(共封装铜互连)...
2025-10-03 1
来源:环球市场播报美国科技公司英伟达(NVDA)与日本电信及计算机制造商富士通(6702.T)于周五达成协议,将在人工智能领域展开合作,利用英伟达的计...
2025-10-03 2
国庆中秋8天超长假期激发大众消费热情。记者从美团获悉,平台推出亿元补贴,助力消费者无论出门旅游还是宅家吃喝、假日团聚,都能体验更具质价比的一站式服务。...
2025-10-03 0
证券之星消息,TCL科技(000100 09月28日在投资者关系平台上答复投资者关心的问题。投资者提问:考虑到TCL在海外市场已取得显著成功,想请问公...
2025-10-03 1
英特尔发布了Arc显卡32.0.101.8135驱动程序,这是一个非WHQL版本的驱动程序,为《使命召唤:黑色行动 7》Beta测试提供Game On...
2025-10-03 1
证券之星消息,中兴通讯(000063 09月25日在投资者关系平台上答复投资者关心的问题。投资者提问:公司在算力领域,光模块 cpo 领域有哪些亮点?...
2025-10-03 1
发表评论