官方网站-首页官方网站-首页

EN

AI攻克物理奥赛!超过人类金牌选手平均分?

2025-09-18 09:00:50
来源:智能MOTOVIS

【导语】长久以来,物理因题目复杂、推理强度高被视为AI在学科竞赛领域最难攻克的挑战之一。今年2025国际物理奥赛中,普林斯顿大学王梦迪教授团队打造的Physics Supernova系统成绩亮眼,在理论题测试中排名第14,表现超人类金牌选手平均分。该系统靠工具实现完整解题过程,为AI科学探索开辟新可能,不过AI物理解题系统未来仍有诸多方向值得探索。

在学科竞赛领域,物理因题目复杂、推理强度高而长期被认为是人工智能(AI)最难攻克的挑战之一。与语言类任务相比,物理问题往往涉及图像识别、单位换算、公式推导和近似计算等多重环节,更考验系统是否具备对现实世界的理解与建模能力。

随着 AI 日益深入现实世界,并不断迈向通用人工智能(AGI)乃至超级人工智能(ASI),能否通过物理抽象理解世界、解决问题,正在成为打造高(gāo)水(shuǐ)平(píng)智(zhì)能系统的关键。

在今年举行的 2025 年国际物理奥林匹克竞赛中,一个名为 Physics Supernova 的 AI 系统交出了令人瞩目的成绩单:在 3 道理论题测试中,共获得 23.5 分(满分 30 分),在所有 406 名参赛选手中排名第 14,且在三道题目中均进入人类前 10%,超过了人类金牌选手的平均得分。

该系统由普林斯顿大学王梦迪教授团队及其合作者共同打造,两位第一作者分别为普林斯顿大学博士 Jiahao Qiu清华姚班大四本科生史景喆(在 2021 年国际物理奥林匹克竞赛中获得金牌,全球排名第十)。

不同于依赖题库的传统方式,Physics Supernova 通过图像分析、答案复核等工具模块,结合 LLM 的推理能力,实现了从题目理解到建模计算的完整过程。这一结果显示,合理集成工具的 Agent 架构,能够显著提升 AI 在复杂科学问题上的推理与解题能力,其表现已逼近人类(lèi)顶(dǐng)尖(jiān)选(xuǎn)手(shǒu),为(wèi) AI 在(zài)科(kē)学(xué)探(tàn)索(suǒ)领(lǐng)域开(kāi)辟(pì)了(le)新(xīn)的(de)可(kě)能(néng)性(xìng)。

业(yè)内(nèi)专(zhuān)家(jiā)指(zhǐ)出(chū),这(zhè)一(yī)成(chéng)绩(jī)不(bù)仅(jǐn)显(xiǎn)示(shì)了(le) AI 在(zài)物(wù)理(lǐ)解题上的突破性进展(zhǎn),也(yě)意(yì)味着其在科学推理领域的应用边界正在被重新定义

靠工具,AI 也能像物理学家一样解题

Physics Supernova 是一个专为解决复杂物理理论问题设计的 AI Agent 系统,基于 smolagents 框架,并采用 CodeAgent 架构

与数学解题中常见的固定、手工编码的工作流不同,该系统强调具备灵活自我规划的能力,能够根据当前的解题进展,动态调用不同的工具。

图|Physics Supernova 的架构与示例推理轨迹

研究团队为该系统配置了两个面向物理问题的专用工具:图像分析器(ImageAnalyzer)与答案复查器(AnswerReviewer)

对于物理学家而言,解读实验结果、从图像中提取关键数据是十分重要能力。在部分物理奥赛题中,这甚至是解题过程的核心环节。然而,目前的 LLM 在图表、图像(xiàng)与(yǔ)示(shì)意(yì)图等视觉数据的精确测量方面仍存在不足。ImageAnalyzer 则会将高分辨率图像传递给专用的视觉语言模型,以执行精确的数值读取与测量任务。

在实际解题中,物理学家也会持续评估自己的理论结果是否具有物理意义,这包括判断结果是否具有符合预期的物理属性,或是否违反基本物理原理。AnswerReviewer 被用于在解题过程中识别错误类型并定位错误表达,从而提升系统的自我校正能力。

为研究各类工具对最终得分的影响,研究团队测试了多种工具组合。结果显示,在大多数问题中(尤其是非(fēi)简(jiǎn)单(dān)题(tí)),移除 AnswerReviewer 会导致性能显著下降。而将图像处理任务交由 ImageAnalyzer 执行,则能够有效提升整体得分。

图|ImageAnalyzer 工具对理论题第1题C部分的影响

此外,他们还为 Physics Supernova 接入了一个用于专业领(lǐng)域知(zhī)识(shi)的问答工具——WolframAlpha ,它是一款能够提供科学问题准确解答的计算型知识引擎,有(yǒu)助(zhù)于(yú)提(tí)升(shēng)系(xì)统(tǒng)在(zài)应(yīng)对(duì)专(zhuān)业(yè)领(lǐng)域知(zhī)识(shi)时(shí)的(de)表(biǎo)现(xiàn)。

金(jīn)牌(pái)不(bù)是(shì)终(zhōng)点(diǎn),AI 物(wù)理(lǐ)系(xì)统(tǒng)的(de)下(xià)一(yī)站(zhàn)

实(shí)验(yàn)是(shì)物(wù)理(lǐ)研(yán)究(jiū)的(de)基(jī)础(chǔ)。研(yán)究(jiū)团(tuán)队(duì)指(zhǐ)出(chū),该(gāi)项(xiàng)研(yán)究(jiū)主要(yào)聚(jù)焦(jiāo)于 IPhO 2025 的理论题,未涉及基于仪器的实验题,部分原因在于实验仪器资源受限

他们希望,随着机器人技术的发展,未来基于 LLM 的 AI Agent 有望具备执行实验题的能力。相较于实体仪器操作,程序化实验能够模拟更复杂、更高级的实验过程。基于程序的实验考试,有可能将评估重点从操控仪器的能力转向理解和运用物理的能力。

从长远来看,基于仪器的实验评估同样也不可或缺。这类实验更贴近现实科研情境,能够更有效地衡量 AI 系统的机器人能力,并评估其在极端或非预期条件下的表现。

除此之外,他们使用答案复查工具来验证推导过程。该工具完全基于自然语言运行。在数学领域,自动化验证已经取得了显著进展,LLM 可生成可验证的 Lean 格式证明。然而,从自然语言问题出发,推导物理公式(shì)并(bìng)进(jìn)行(xíng)自(zì)动(dòng)验(yàn)证(zhèng),目(mù)前(qián)尚(shàng)无(wú)可(kě)靠(kào)的(de)技(jì)术(shù)路径。这(zhè)仍(réng)是(shì)一(yī)个(gè)有(yǒu)待(dài)深(shēn)入(rù)研(yán)究(jiū)的(de)方(fāng)向(xiàng)。

研(yán)究(jiū)团(tuán)队表示,未来值得探索的方向应包括:构建能验证公式、物理表达与直观推理之间抽象转换的方法;建立更加严格、可验证的物理计算体系;借助具备更广泛、更深入物理知识的工具,增强答案复查系统的能力

总之,研究团队建议,未来关于 AI 物理解题系统的工作,应继续拓展其在程序实验或仪器实验方面的能力,同时增强其生成可验证、可信赖物理解答的能力。

展望未来,这类系统有望进一步发展,成为能够嵌入现实世界并执行复杂物理任务的高级智能体