开源模型首次在国际物理奥林匹克竞赛夺金了。
来自上海AI Lab的P1-235B-A22B取得了21.2分的成绩,成功跨越金牌线。
在覆盖2024-2025年全球13场顶级物理竞赛的HiPhO基准测试中,P1-235B-A22B获12金1银,与谷歌Gemini-2.5-Pro并列奖牌榜第一。

这个成绩超越了GPT-5的11金以及Grok-4的10金,标志着开源模型在物理推理能力上已经达到甚至超越闭源模型的水平。
同时,团队提出的协同进化多智能体系统PhysicsMinions,在IPhO 2025及HiPhO综合得分上双双问鼎,展现了“模型+系统”框架在应对复杂科学问题的卓越潜力。
物理推理是理解与塑造现实世界的核心能力。国际物理奥林匹克(IPhO)等顶尖赛事,以其对复杂推理和深度物理理解的高标准,成为检验物理智能对现实认知能力的重要标尺。AI在此类竞赛中夺得金牌,不仅是实现通用物理智能道路上的关键里程碑,更表明模型已初步具备应对现实世界中复杂物理问题的潜力。
P1系列:模型、算法、评测集和智能体框架的全链路开源体系
首个物理奥赛基准测试:HiPhO
为了准确评估物理奥赛的表现,研究团队构建了HiPhO(High School Physics Olympiad)基准测试,这是首个专注于最新物理奥赛、采用人类对齐评估的基准。
HiPhO涵盖了2024-2025年最新的13场奥林匹克级别的物理竞赛,包括 IPhO、APhO、EuPhO 等国际和区域赛事。评估时采用官方评分标准,对答案和过程进行细粒度评分,与人类评审严格对齐,确保得分准确。由此,每个模型的考试得分可直接与人类选手以及金银铜牌分数线进行比较。

△HiPhO 基准测试概览,包含2024-2025年13场物理奥赛,覆盖国际和区域竞赛。
多阶段强化学习训练
研究团队通过高质量的提取和标注流程,构建了包含数千条奥赛级别题目的训练数据集。每条数据均具有完整的上下文信息、可验证答案以及标准解题过程,用于强化学习训练。
P1系列模型采用多阶段强化学习流程进行训练。为了实现稳定高效的训练,团队在每个阶段应用两项关键策略:
- 上下文窗口扩展:
- 随着训练的推进,逐步扩展模型最大生成长度,使模型能够探索更长的推理链。这种扩展提高了高复杂度问题的可解性,减少了因截断导致的错误。
- 通过率过滤:
- 在训练前,基于通过率统计对数据进行筛选,排除过于简单或过于困难的任务。
基于这种多阶段强化学习策略,P1模型实现了在基座语言模型的基础上长期、持续的性能提升