发布日期:2025-04-04 06:10 点击次数:150
机器之心报说念
剪辑:+0
当 AI 大开奥数题,CPU 也烧了!
还难忘那些被奥数题折磨得一夜难眠的日子吗?
当你在凌晨三点对着通盘几何证明题合手耳挠腮、怀疑东说念主生的时辰,你可能会想:「淌若有个超等大脑能帮我措置这些问题该多好啊!」
好音书:大模子解数学题的技艺很强!坏音书:它们大约也被奥数折磨得不轻。
好多针对大型谈话模子(LLMs)的数学基准测试依然标明,首先进的推理模子在好意思国数学邀请赛(AIME)等数学竞赛中推崇出色,O3-MINI 模子致使达到了与顶尖东说念主类参赛者格外的水平。但是,这些测试只是评估了最终谜底,而忽略了推理和证明过程
为弥补这一不及,专注于评估大模子数学技艺的 MathArena 平台的辩论东说念主员,初度全面评估了模子措置复杂数常识题的齐全推理和证明构建技艺
好意思国数学竞赛(USAMO)是寰球最具挑战性的中学生数学竞赛之一。领先,该赛事强调严格证明与逻辑严谨性,题目均为证明题,要求选手通过严实的逻辑推导和齐全的数学谈话呈现解答,而非仅给出数值谜底(如 AIME)。其次,题目难度极高,波及数论、组合数学、代数、几多么中枢范围,常需愚弄高等手段(如生成函数、不等式放缩、图论构造等)。何况题目想象具有「门槛效应」:部分问题看似浮浅,但需知悉覆盖结构或非设施解法(如构造性证明、反证法)。
他们在 2025 年好意思国数学奥林匹克竞赛(USAMO)试题发布后立即测试了多个热点模子,成果令东说念主失望:扫数模子都推崇欠佳,平均得分不到 5%
通过真切分析模子的推理过程,辩论东说念主员识别出了多种常见失败模式,并发现模子考试中的某些优化战略反而产生了负面影响。
论文标题:PROOF OR BLUFF? EVALUATING LLMS ON 2025 USA MATH OLYMPIAD论文纠合:https://arxiv.org/pdf/2503.21934v1样貌主页:https://matharena.ai样貌代码:https://github.com/eth-sri/matharena
成果标明,面前的 LLM 在严格的数学推理方面,尤其是在体式化证明生成方面,仍然相当繁忙。在昔日的辩论中,有必要校正考试方法,如纳入重证明的数据集、整合体式考据器用或缔造优先筹商逻辑一致性而非谜底优化的架构,弥合数值正确性与徐徐证明技艺之间的差距。
评估基准与问题准备
辩论团队弃取了 USAMO 2025 四肢基准测试,这是一个巨擘数学竞赛,包含六说念需要证明的题目,为期两天。这个竞赛相当恰当营为评估基准,因为题目具有挑战性,需要详备证明才能得满分,且数据未被轻侮.
图 1 展示了两个竞赛题目。在评估过程中,辩论东说念主员要求各模子提供全面详备的证明,并使用 LaTeX 风物。
为缩小成果的变异性,每个模子对每说念题目进行了四次孤独解答。扫数解答均经过匿名化处理并调养为 PDF 风物进行评分,评分过程中不筹商想考过程部分。
评审团队
评分团队由四位资深数学巨匠组成,他们都曾是国度 IMO 队成员或干涉过国度队最终聘请。评审前,他们接管了详备证据评意想划和方法的伙同(可在 GitHub 查阅)。团队通过 USAMO 2024 三说念题想法试评分庄重了评分设施并措置歧义。
评分经过
USAMO 2025 的六个问题均由两名评审员孤独评分,每位评审员负责三个不同问题。这种鉴戒 IMO 的双重评分方法确保了评分的一致性并减少了主不雅偏见。由于官方不发布设施谜底,辩论团队从可靠的数学社区资源(尤其是 AoPS 论坛)汇聚整理了设施化评分有经营,并考据了扫数解法的准确性。
盲从 USAMO 成例,每题满分七分,对成心想的进展赐与部分分。评审员证据既定设施孤独评分,对作假足得当评分有经营的解法也适当给分,并纪录了评分事理和部分分数的合感性证据。
失败模式分类
评估者在评分过程中纪录了显明的失败模式 —— 即推理中初度出现的弊端或解释不充分的实例,包括逻辑漏洞、无证据的假定、数学不准确或计算弊端。这些弊端被具体分为四类:
逻辑:由于逻辑弊端或无证据的推理高出导致的弊端,中断了推理过程。假定:由于引入未经证明或不正确的假定而产生的弊端,这些假定龙套了后续门径。创造力:由于无法识别正确方法而导致的从根蒂上弊端的措置战略所形成的弊端。代数 / 算术:由要道的代数或算术计算弊端引起的弊端。
辩论团队还系统性地纪录了模子在生成措置有经营过程中推崇出的权贵行动模式和趋势,以便进行真切分析。这些不雅察成果有助于识别模子推理技艺中存在的常见问题和需要校正的标的。
主要成果
辩论评估了六个推理模子(QWQ、R1、FLASH-THINKING、O1-PRO、O3-MINI 和 Claude 3.7)在 2025 年 USAMO 问题上的推崇。
表 1 详备分析了各模子在每个问题上的推崇,对等分基于四次评估脱手计算,网络彩票和AG百家乐每题满分 7 分,每次脱手总分 42 分。表中还包括使用各模子的总本钱数据。
评估发现,天然面前顶尖谈话模子在以数值谜底为主的竞赛(如 AIME 和 HMMT)中可与顶尖东说念主类竞争者格外,但在生成严格证明方面存在权贵差距。扫数评估模子的最高对等分不及 5%,近 150 个被评估的解答中无一取得满分。
扫数模子都无法措置杰出一个问题,这突显了面前大型谈话模子在奥林匹克级数学推理任务中的局限性。这标明现存优化方法如 GRPO 对需要高度逻辑精准性的任务可能尚不及够。
失败模式
东说念主类参与者最常见的弊端是无法找到正确解答,但他们平庸能了了判断我方是否见效措置了问题。比较之下,扫数评估的大型谈话模子都宣称已措置问题,这对数学应用组成要紧挑战,因为在衰败严格东说念主类考据的情况下,这些模子得出的成果不行信托。
辩论东说念主员详备分析了评分过程中发现的弊端类型。图 2 展示了评审员笃定的弊端类别别离。
最常见的是逻辑漏洞,包括无依据的推理门径、弊端事理或对先前进展的扭曲。另一个进攻问题是模子倾向于将要道证明门径视为琐碎而不提供适当证明。值得顾惜的是,尽管 O3-MINI 是推崇最好的推理模子之一,却常常通过将要道门径标记为「琐碎」来跳过基本证明门径。
辩论还发现模子推理衰败创造性,平庸在扫数尝试中汲取疏导且弊端的战略,未能探索替代方法。例外是 FLASH-THINKING,它在兼并脱手中尝试多种战略,但仅浅层探索每种方法,未能得出灵验论断。
但是,模子在代数和算术计算方面遍及推崇出色,能在莫得外部撑持的情况下见效实行瑰丽运算。不外,R1 推崇出显明更高频率的代数或算术弊端,标明这是该模子需要校正的标的。
自动评分
辩论团队探索了用 LLMs 替代东说念主类评分员的可行性,弃取 O3-MINI 和 Claude 3.7 四肢评分模子。两个模子均取得了评分有经营、考据措置有经营和评估示例参考。
表 2 浮现,两个模子都未能准确评分措置有经营,均系统性地高估了解答质地。具体而言,它们常常为不正确或无依据的推理授予分数,导致分数扩展最多达到 20 倍。
值得顾惜的是,FLASH-THINKING 从自动评估中取得的分数显明低于其他模子,辩论东说念主员推测这可能是因为它倾向于在每次尝试中生成多个措置有经营,从而稠浊了基于 LLMs 的评审系统。比较之下,QWQ 取得较高分数,可能是因为它平庸生成更简易的措置有经营,更便于自动评审系统雄厚。
谜底框选
面前强化学习优化工夫依赖从明确的最终谜底中索取奖励,为此模子常被要求将最终谜底放在 \\boxed {} 环境中。但是,这在 USAMO 问题解答中产生了巧合反作用:即使大多量评估问题不需要框选谜底,模子仍习尚性地这么作念。
一个典型例子是问题 5 中,QWQ 模子弊端地适度我方只寻找整数解,尽管题目莫得这么的要求。它宝石最终谜底是 2,天然依然正确推导出扫数偶数都得志要求。这标明像 GRPO 这么的对王人工夫可能巧合中让模子觉得每个数常识题都需要一个明确的框选谜底,从而毁伤了其举座推理技艺。
模式泛化
模子常推崇出将少量值案例中不雅察到的模式过度泛化到更大未测试案例的倾向。天然这种启发式方法对仅需数值谜底的问题可能灵验,但关于需要严格证明的问题,这种方法履行上存在漏洞。模子常常在衰败负责证明的情况下,弊端地断言小案例中不雅察到的模式具有遍及适用性。
解答结构与澄莹度
不同模子提供的解答在澄莹度和结构连贯性上存在权贵各异。O3-MINI 和 O1-PRO 等模子平庸以澄莹、逻辑化且易于雄厚的花样呈现解答。相悖,FLASH-THINKING 和 QWQ 等模子常常产生芜乱且难以雄厚的复兴,有时在单个解答中羼杂多个不关系的主意。
OpenAI 考试的模子在澄莹度上的显明上风标明,专注于解答连贯性的稀奇考试权贵进步了其可读性,这一特质在其他模子中显明受到较少嗜好。
是以,当下次有东说念主告诫你「AI 行将总揽天下」时,不妨淡定地递给他一张奥数试卷:「先让它们过了这一关再说吧。」
Powered by AG百家乐到底是真是假 @2013-2022 RSS地图 HTML地图