主页 › 阅读 › 热点 › 谷歌AI拿下IMO银牌，仅差一分得金！第四题仅用时19秒

谷歌AI拿下IMO银牌，仅差一分得金！第四题仅用时19秒

量子位发布于 3月前

10 0

白交西风发自凹非寺

量子位 | 公众号 QbitAI

刚刚，大模型再次攻下一城！

谷歌DeepMind宣布，他们数学AI“摘得”IMO（国际数学奥林匹克竞赛）银牌，并且距离金牌仅一分之差！

是的，没有听错！就是难到绝大多数人类的奥数题。要知道今年IMO全部609名参赛者，也仅有58位达到了金牌水平。

此次，谷歌AI解决了2024 IMO竞赛6道题目中的4道，而且一做一个满分，总共获得28分。（满分42分，金牌分数线29分）

其中第四题几何题，AI仅仅用时19秒？！

而号称本届最难的第六题，今年仅有五名参赛者拿下，它也完全答对。

此次的成绩还得到了IMO组委的专业认证——由IMO金牌得主、菲尔兹奖获得者Timothy Gowers教授和两届IMO金牌得主、2024 IMO问题选择委员会主席Joseph Myers博士进行评分。

Timothy Gowers教授直接惊叹：远远超过我认知的最先进水平。

来康康是如何做到的？

谷歌拿下IMO银牌，Alpha家族新成员问世

此次拿下IMO银牌的是谷歌两位Alpha家族成员，他们各自数业有专攻。

AlphaProof，Alpha家族新成员，基于强化学习的形式数学推理系统。
AlphaGeometry 2，此前AlphaGeometry改进版，专门用于解决几何问题。

先来认识一下新成员——AlphaProof。

它是一个自训练系统，能用形式语言Lean来证明数学陈述。它能将预先训练好的语言模型与AlphaZero强化学习算法结合在一起。

团队通过微调Gemini，能自动将自然语言陈述转换为形式语言Lean陈述，由此创建了一个大型数学题库。

当遇到问题时，AlphaProof会生成解决方案候选，然后通过搜索Lean中可能的证明步骤来证明或反驳这些候选。

每个找到并验证的证明都会用于强化AlphaProof的语言模型，从而提高其解决后续更具挑战性的问题的能力。

在比赛的前几周内，它就这么循环往复地用数百万个IMO级别题目进行了训练。

比赛期间也应用了训练循环，不断强化自身证明，直到找到完整的解决方案。

再来了解一下进化之后的AlphaGeometry 2。它是一个神经-符号混合系统，其中语言模型基于Gemini。

它的前身1.0今年还登上了Nature：无需人类演示达到IMO金牌选手的几何水平。

跟上一个版本比，它使用了更大一数量级的合成数据进行从头训练。而它采用的符号引擎比其前代快两个数量级。当遇到新问题时，会使用一种新的知识共享机制来实现不同搜索树的高级组合，以解决更复杂的问题。

在正式比赛之前，它就已经可以解决过去25年所有IMO几何问题中的83%，而其前身的解决率仅为53%。

今年IMO赛事中，它仅用了19秒就完成了第四个问题。

接着就来看看，此次IMO这两位是如何配合发挥的。

首先，问题被手动翻译成正式的数学语言，以便系统理解。

我们知道人类比赛时，分两次提交答案，每次有4.5个小时。

而谷歌这两个系统先是在几分钟内解决了一个问题，其他问题则是花了三天时间。

最终，AlphaProof通过确定答案并证明其正确性，解决了两道代数题和一道数论题。

其中包括比赛中最难的一道题，也就是，今年的IMO比赛中仅有五名选手解出的第六题。

AlphaGeometry 2解决了几何问题，而两道组合问题仍未解决。

除此之外，谷歌团队还试验了一种基于Gemini的自然语言推理系统。换言之，无需将问题翻译成形式语言，并且可以跟其他AI系统结合使用。

团队表示，他们接下来还会探索更多用于推进数学推理的AI方法。

而关于AlphaProof的更多技术细节，也计划很快发布。

网友：不懂数学但大受震撼

看到这两个系统的表现，网友们纷纷表示“不懂数学但大受震撼”。

AI程序员Devin团队Cognition AI联合创始人Scott Wu表示：

这样的结果真是令人惊叹。小时候，奥林匹克竞赛就是我的全部。从未想过它们会在10年后被人工智能解决。

OpenAI科学家Noam Brown也开麦祝贺：

不过，也有网友表示，如果按照标准比赛时间（竞赛分两天进行，每天四个半小时，每天解决三个题），这两个AI系统实际上只能解决6个问题中的一个。

这一说法立刻得到了部分网友反驳：

在此情境中，速度不是主要关注点。如果浮点操作次数（flops）保持不变，增加计算资源会缩短解决问题所需的时间。

针对这一点，也有网友疑问道：

两个AI系统没能解答出组合题，是训练的问题还是计算资源不够，时间上不行？或者还存在其他限制吗？

Timothy Gowers教授发推文给出了他的看法：

如果允许人类参赛者在每个问题上花费更多时间，他们的得分无疑会更高。然而，对于AI系统来说，这已经远超以往自动定理证明器的能力；其次，随着效率的提高，所需时间有望进一步缩短。

不过前两天大模型还困于“9.11和9.9哪个数字更大？”这么一个小学题，怎么这一边大模型又能解决奥数级别的难题了？！

失了智，然后现在怎么又灵光乍现，恢复了智？

英伟达科学家Jim Fan给出解释：是训练数据分布的问题。

谷歌的这个系统是在形式证明和领域特定符号引擎上进行训练的。某种程度上说，它们在解决奥林匹克竞赛方面高度专业化，即使它们建立在通用大模型基础上。

而像GPT-4o的训练集中混有大量GitHub代码数据，可能远远超过数学数据。在软件版本中，“v9.11>v9.9”，这可能会严重扭曲分布。所以说，这个错误还算说得过去。

对于这一奇怪现象，他将其形容为

我们发现了一个非常奇特的区域，就像一颗看起来像地球却遍布奇异山谷的系外行星。

还有热心的网友cue了下OpenAI，也许你们也可以尝试……

对此，奥特曼的回复是：

参考链接：

[1]https://x.com/googledeepmind/status/1816498082860667086?s=46

[2]https://x.com/jeffdean/status/1816498336171753948?s=46

[3]https://x.com/quocleix/status/1816501362328494500?s=46

[4]https://x.com/drjimfan/status/1816521330298356181?s=46

[5]https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

— 完 —

量子位 QbitAI · 头条号签约

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

#谷歌#

谷歌AI拿下IMO银牌，仅差一分得金！第四题仅用时19秒

谷歌拿下IMO银牌，Alpha家族新成员问世

网友：不懂数学但大受震撼

友情提示

克宫回应“俄政府对谷歌天文数字罚款”：这一数字充满象征意义，谷歌应纠正其做法

创业开公司，4亿英镑卖掉公司当CEO，跨界拿诺贝尔奖！48岁天才刚刚达成惊人成就，“阿尔法狗”也出自他手

人社局回应：禁止使用苹果手机，鼓励使用华为手机！

华为三折叠屏手机，仿佛一把尖刀插入了制裁者的胸口！

下架警告！外媒称若腾讯不屈服，苹果可能禁用微信：苹果用户急了

俄罗斯已经彻底封禁YouTube，无论是网页版还是客户端都无法连接

年仅24岁的女孩去世后居然在八宝山举行追悼会。

北京大姐，在农村买了一千平米的大院子，赶上拆迁为何高兴不起来

六哥郑耀先反复试探北京领导的身份

特朗普等到中方领导人贺电，中国说的这三句话，川普可得记牢了

美国大选选举日首个投票点结果出炉哈里斯和特朗普持平

普京祝贺特朗普当选美国总统称其有关乌克兰冲突的表态值得关注

"中国提议交换样本，美方至今没吭声"

俄罗斯莫斯科郊区遭无人机袭击已致5人受伤

四川不断拓深文博领域国际合作

蓬佩奥出局，但依然不够

好友+1+1+1……这届进博会新朋友们有何收获？

特朗普宣布获胜，最大输家诞生，倾一国之力只换来牺牲品结局

谷歌AI拿下IMO银牌，仅差一分得金！第四题仅用时19秒

谷歌拿下IMO银牌，Alpha家族新成员问世

网友：不懂数学但大受震撼

友情提示

克宫回应“俄政府对谷歌天文数字罚款”：这一数字充满象征意义，谷歌应纠正其做法

创业开公司，4亿英镑卖掉公司当CEO，跨界拿诺贝尔奖！48岁天才刚刚达成惊人成就，“阿尔法狗”也出自他手

人社局回应：禁止使用苹果手机，鼓励使用华为手机！

华为三折叠屏手机，仿佛一把尖刀插入了制裁者的胸口！

下架警告！外媒称若腾讯不屈服，苹果可能禁用微信：苹果用户急了

俄罗斯已经彻底封禁YouTube，无论是网页版还是客户端都无法连接

年仅24岁的女孩去世后居然在八宝山举行追悼会。

北京大姐，在农村买了一千平米的大院子，赶上拆迁为何高兴不起来

六哥郑耀先反复试探北京领导的身份

特朗普等到中方领导人贺电，中国说的这三句话，川普可得记牢了

美国大选选举日首个投票点结果出炉 哈里斯和特朗普持平

普京祝贺特朗普当选美国总统称其有关乌克兰冲突的表态值得关注

"中国提议交换样本，美方至今没吭声"

俄罗斯莫斯科郊区遭无人机袭击已致5人受伤

四川不断拓深文博领域国际合作

蓬佩奥出局，但依然不够

好友+1+1+1……这届进博会新朋友们有何收获？

特朗普宣布获胜，最大输家诞生，倾一国之力只换来牺牲品结局

美国大选选举日首个投票点结果出炉哈里斯和特朗普持平