百家乐AG辅助器
ag百家乐苹果版下载 斯坦福打脸大模子数学水平:题干一改就集体降智,强如o1也失准
奇月 发自 凹非寺量子位 | 公众号 QbitAIag百家乐苹果版下载
只是换一下数学题的变量称号,大模子就可能集体降智??
斯坦福大学最新推敲标明,在他们最新提议的Putnam-AXIOM测试集上,只是是更换一下原题概念变量称号、变量取值范围,模子的准确率就直线下落。
也便是说,大模子的数学推理才气并不是真确掌合手了解题逻辑,很可能只是检索已存储的题目……

即使是推崇最佳的o1-preview,它的收成也从50%下落到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模子也险些是扫地以尽。

要知谈,模子推理才气的隆重性可瑕瑜常蹙迫的概念,能代表他们是否真确掌合手了责罚形式:

有网友锐评到:o1的o不会是overfitting的o吧?(doge)

还多情态网友作念了解释,他以为模子的搜索空间会跟着深度指数级增长,搜索本领越长,搜索的难度也会更高。


全新无混浊的数学测试基准
LLM在复杂数常识题上的推理才气逐步成为模子发展的要道挑战,然则现存的评估基准,如MMLU、MMMU、GSM8K和MATH等却靠近着好多问题。
一方面,数据混浊可能导致模子在评估中推崇虚高,因为模子可能在锤真金不怕火历程中宣战到了评估基准中的问题。
另一方面,起始进的模子在许多现存基准上还是达到或越过东谈主类水平,这使得这些基准失去了应有的评估价值。
对此,斯坦福推敲团队提议了Putnam-AXIOM基准,专用于评估模子在责罚复杂数常识题上的才气。

该基准的原始数据集涵盖了1985-2023年William Lowell Putnam数学竞赛的236个问题。
果决举个例题大众感受一下:

这些题目涵盖了11个不同数学规模的问题,团队也进行了筛选,确保能产生便于自动化评估的\\boxed{}谜底。
同期,他们还模仿MATH数据集的形式进行模子评估,并辩论了一个等价函数,不错责罚字符串不一致问题、和复杂的数学等价同质化问题。
除此除外,为驻扎模子在锤真金不怕火历程中碰到Putnam原问题而出现评估偏差,团队还引入了功能变异构建变异数据集。
变异分为变量变化(仅改造量名)和常数变化(修改数值属性)两类,能生成无穷多相易难度的新问题,百家乐AG辅助器况兼这些问题在互联网上莫得现成的谜底。
具体的变化局势就像这么:

在执行中,推敲东谈主员将1985-2023年的竞赛中的236个问题整理成程序化神色,使用LM Harness评估框架对多个开源模子的SOTA LLMs进行评估。
样本包括236个原始问题和52个变异问题,参与测试的模子包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多种模子。
题目一变,模子集体懵
执行成果有些令东谈主不测,模子们的推崇都不太乐不雅。
当先来望望模子们在原始数据集上的推崇。
巨额模子的准确率都低于10%,曾获AI数学奥林匹克竞赛冠军的NuminaMath仅为4.66%,可见Putnam-AXIOM数据集难度的确很高。

而在变异数据集上,模子们的准确率则权臣下落。
比如在原始数据集上推崇最佳的o1-preview,准确率为50%,而在变异数据连结则降到了33.96%。
也便是说,o1-preview模子在原始问题上推崇可能虚高,之前的得分主若是依赖挂念而非真确的推理才气。
排行第二的Claude在原始数据集上的准确率为26.40%,而在变异数据集上的准确率降至18.86%,其他模子的分数也基本都下落了。

团队还进一步对OpenAI o1-preview和GPT-4o的谜底进行了分析。
成果发现它们的流弊都相比严重,在逻辑推理和数学严谨性方面存在着彰着的弱势。
底下一谈康康几个例子。
比如o1-preview在解答问题时就没能提供充分的证明,它宣称m的最大可能值是n,事理是m的上界是2n,但它莫得证据为什么m的值介于n和2n之间不行行。

而GPT-4o则存在逻辑跨越和不连贯的推理,比如鄙人面这谈题中,它从逻辑上径直跳转到面积最小的几何局势是矩形这一不雅点,但并莫得证明这一说法的合感性,而是将其默许为事实。

DeepSeek的模子也在要道步伐念念维发生了跨越,导致最终成果裂缝。

看来,造就大模子的数学才气如故任重谈远呀!
不外斯坦福大学这篇著作中的Putnam-AXIOM基准真实缓解了现存基准恣虐的问题。
它不仅为评估模子的数学推理才气提供了一个至极有挑战性的新形式,还已矣了皆备自动化评估、并提供了丰富种种的变体数据集。
团队也默示,天然当今变体数据集生成历程复杂耗时,但将来如果能优化变体生成形式,将更有助于加快对于东谈主工推理的推敲。

论文:https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf代码:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md