
发布日期:2024-01-11 19:08 点击次数:185
新智元报说念
剪辑:智子 乔杨
【新智元导读】斯坦福大学最近的一项究诘发现,尽管o1-preview在数学、代码等界限才调逆天,但只消对数学竞赛的题目稍修改,模子解答的准确率竟会坐窝下落30%。
在数学竞赛的界限里,普特南数学竞赛的威声可谓著名海外。 它由William Lowell Putnam家眷发起,自1938年首届举办以来,历经66年的岁月千里淀,已然成为全球大学生数学精英们一较陡立的顶级赛场。
好意思国数学会的经心把持,加上哈佛大学、多伦多大学等名校学子的奋勇参与,让这项赛事的桂冠成为大王人学子心驰神往的盛誉,其泰斗性和挑战性,那是取得了全球学界的公认。
而最近,来自斯坦福的一项究诘,却让宇宙惊掉了下巴:只是对题目中的变量、常量等成分稍作修改,大模子「尖子生」o1-preview模子的准确率就坐窝大幅下落,降幅高达 30%!
原文运动:https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf
这就好比一位武林妙手,泛泛在熟悉的招式里权威八面,一朝敌手换个路数,就立马乱了阵地。这不禁让东说念主趣味,这些难住最强推理模子的变体题,到底藏着何如的玄机?
北好意思最难数学竞赛题「变脸」,AI有点懵
OpenAI的o1-preview模子自出说念以来,凭借超强的推理才调,在各个界限大杀四方。
就拿编程来说,在Codeforces编程竞赛这个「妙手如云」的赛场上,它的Elo评分高达 1807,把93%的竞争敌手王人远远甩在死后,写起代码来又快又准,就像一位造就老到的尺度员。
在数学界限更是展现出了惊东说念主的实力。2024年的好意思国数学邀请赛(AIME)题目集上,o1-preview的正确率高达83%,格外于全好意思参赛选手top500的水平。
医学会诊方面,哈佛医学院和斯坦福大学构成的科研团队曾对o1-preview进行过全场地的 「考查」,恶果令东说念主咋舌:在生成会诊意见、会诊临床推理和处理推理这些关节任务上,它以致迥殊了东说念主类医师。濒临复杂的病例,它能快速分析症状、病史等信息,并给出准确的会诊提议。
但是,便是这么一个在多界限「开挂」的模子,在濒临普特南数学竞赛题的变体时,却仿佛迷失了主见。
在原始题目上,o1-preview本能达到41.95%的准确率,而一朝题目中的变量、常量被修改,准确率就像坐了滑梯一样,直线下落约30%。
这无边的反差,背后其实有着深档次的原因。普特南竞赛题本就以超高的难度、特有的出题念念路著称,原始题目和变体题目之间,诚然看似只消轻捷的分别,但这些编削持续波及到数学认识的深档次愚弄和逻辑结构的高明变换。
o1-preview模子在熟习经过中,百家乐ag可能更多是对常见的数学题型、编程格式、医学案例进行学习和优化,关于这种挑升运筹帷幄、格外奸诈的变体题,缺少富有的「应答造就」,难以赶快收拢问题的关节,从而导致准确率大幅下滑。
Putnam-AXIOM基准,AI数学才调的「试金石」
为了更准确深入地评估AI大模子的数学才调,究诘团队经心打造了Putnam-AXIOM Original基准,收纳了来自积年普特南数学竞赛(Putnam)的236个数知识题,从复杂的代数变换到精妙的几何解说,从概括的数论贫苦到幻化莫测的组合数学谜题,无一不是对东说念主类颖异极限的挑战。
但这项基准的价值远不啻于收录原题,更是非的是,究诘者们运筹帷幄了一套高明的尺度化修改机制,不错对问题中的变量、常量等关节成分进行修改,从而生成无尽多个全新且难度格外的问题。
比如说,把一个几何问题中的边长数值进行变换,省略编削函数题中的参数取值范围,这些看似微小的转念,却能让总共这个词问题的解法旅途大不疏浚。
并且,这些重生成的题目从未在互联网上出现过,因此也不能能败露到任何模子的熟习数据贴近,统统根绝了AI靠 「死记硬背」谜底来舞弊的可能,信得过作念到了对 AI 数学推理才调的精确探伤。
在这个新运筹帷幄的基准上,究诘东说念主员大范围选拔了多样模子进行测试,包括OpenAI的o1-preview、GPT-4和GPT-4o,Anthropic的旗舰模子Claude-3.5 Sonnet,Llama、Qwen的等有影响力的开源模子,以及Gemma、Mistral、DeepSeek、Numina等以数学才调闻明的开源模子。
当先,将Putnam-AXIOM基准中的236说念原题输入给各个模子,纪录它们的解题时间、推明智商以及最终谜底,算出准确率。接着,把经过尺度化修改后的变体题抛给这些模子,通常严格纪录解题经过中各项数据。
在原始题目上,o1-preview模子以41.95%的准确率暂居榜首,可一朝切换到变体题,它的准确率就「跳水」到了 11.95%控制,足足下落了30个百分点。
其他模子的准确率滑坡也格外显赫,但值得细心的是,Gemma和Mistral系列模子中的某些型号在变体题上的准确率不降反升。
这些数据背后,响应出的问题格外深切。一方面,现时的AI模子,哪怕是最顶尖的,在濒临数知识题的活泼变化时符合性较差。它们可能对大范畴数据熟习出来的固定格式有一定依赖,一朝题目超出了熟悉的套路就会出现显赫滑坡。
另一方面,普特南竞赛题的变体运筹帷幄,精确地击中了 AI 的「软肋」,这也为往日AI模子的熟习和升迁指明了另一种主见。
参考贵府:
https://openreview.net/forum?id=YXnwlZe0yf¬eId=yrsGpHd0Sf