随着“百模大战”的狂热逐渐退潮,资本市场对AI行业的评判标准已经悄然变化。市场普遍认为,行业正在从技术竞争转向落地竞争,下半场注定是关于产品深度、生态...
2025-11-06 3
新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强化学习重点升级了物理专业能力。
其中,P1-235-A22B在2025年国际物理奥林匹克大赛(IPhO)拿下金牌,成为首个也是唯一获得金牌的开源模型;在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,与Gemini-2.5-Pro并列奖牌榜第一。
P1在IPho 2025中的得分情况
初步具备解决复杂物理问题能力
物理推理是AI理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。
在国际物理奥林匹克中,P1-235-A22B在满分30的情况下,获得21.2分,是首个也是唯一获得金牌的开源模型。
在面对一道大气压相关的物理题时,P1给出的4个小问题答案均正确,且过程完全符合评分标准。
为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确——由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。
上海AI实验室透露,P1-235B-A22B取得12金1银佳绩,与Gemini-2.5-Pro并列奖牌榜第一,金牌数超越了GPT-5、Grok-4等主流闭源模型。
P1在国际物理奥林匹克、HiPhO基准测试中表现突出,说明模型已初步具备应对现实世界中复杂物理问题的潜力,这一突破为大模型进一步处理复杂推理任务,进而解决科学发现等难题奠定了基础。
P1在HiPhO基准测试上的得分情况
实现物理推理能力持续提升
据介绍,P1在物理推理方面的卓越表现,离不开高质量数据和多阶段强化学习策略。
研究团队通过高效的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。
新民晚报记者了解到,P1采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:一是上下文窗口扩展,随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链;二是通过率过滤,在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。
此外,为了突破单一模型的性能极限,研究团队开发了一套专为物理推理设计的协同进化多智能体系统。它由视觉、逻辑和审核三个交互式模块组成,通过自我验证与反思迭代,实现了物理推理能力的跃升。
如果任一阶段验证失败,详细的错误报告会被发送回逻辑模块,进行反思修订解答。通过这种协同进化协作,系统持续提升大模型对复杂物理问题的推理质量和鲁棒性。
相关文章
随着“百模大战”的狂热逐渐退潮,资本市场对AI行业的评判标准已经悄然变化。市场普遍认为,行业正在从技术竞争转向落地竞争,下半场注定是关于产品深度、生态...
2025-11-06 3
截至9:58,科创人工智能ETF(589010 上涨0.36%,最新价1.379元,盘中最高1.392元、最低1.373元,走势在早盘冲高后略有回落...
2025-11-06 3
新民晚报记者今天从上海人工智能实验室获悉,实验室近日在开源“通专融合”方面取得新进展。其P1物理推理模型系列,在通用模型的基础上,通过大规模、多阶段强...
2025-11-06 2
揭牌仪式现场。(来源:青岛科技大学 信网11月6日讯11月3日,青岛科技大学智能化工研究院在崂山校区正式揭牌成立,旨在推动“智能+化工”学科交叉融合,...
2025-11-06 3
据以色列财经媒体Calcalist报道,索尼半导体以色列公司(简称:索尼以色列)将从索尼集团独立出来,并恢复原名Altair Semiconducto...
2025-11-06 3
10月22日,在CNCC期间,Tony Quek教授和冯晨远博士共同主持的“6G原生智能:架构、演进与应用”专题论坛成功举办。论坛汇聚了国内外6G与人...
2025-11-06 3
第八届中国国际进口博览会11月5日开幕,来自普陀区企业迈途科营养品(上海)有限公司(品牌名:MitoQ,后称迈途科)第八次亮相“四叶草”。今年企业在进...
2025-11-06 3
每经记者:杨煜 每经编辑:魏文艺丨2025年11月6日 星期四丨NO.1 王兴兴谈智能体机器人关键挑战11月5日,在第八届虹桥国际经济论坛上,宇树科技...
2025-11-06 3
发表评论