OpenAI 研究员 Sebastian Bubeck（塞巴斯蒂安·布贝克）与 Ernest Ryu（欧内斯特·柳）：AI 如何加速数学研究并走向通用科学

撰文：Techub News 整理

在最新一期的 OpenAI 播客中，OpenAI 研究员 Sebastian Bubeck（塞巴斯蒂安·布贝克）和 Ernest Ryu（欧内斯特·柳）与主持人 Andrew Mayne 进行了一场深入对话。两人均拥有深厚的数学背景（Bubeck 曾是普林斯顿大学教授，Ryu 曾任教于 UCLA 数学系），如今在 OpenAI 前沿探索 AI 与数学的交叉领域。他们分享了 AI 数学能力在过去几年“奇迹般”的进步，亲身经历的突破性研究时刻，以及这对整个科学界意味着什么。

从“不会算账”到解决奥赛题：AI 数学能力的跃迁

仅仅在两年前，大型语言模型（LLM）还几乎与“数学能力”绝缘。Sebastian Bubeck（塞巴斯蒂安·布贝克）回忆道，当时甚至没有“推理模型”这个概念，更不用说证明困难的数学定理了。然而，今天的模型已经能够协助菲尔兹奖得主进行日常工作，这种跳跃“简直令人震惊”。

Ernest Ryu（欧内斯特·柳）提供了一个更具体的感知变化时间线。在 ChatGPT 刚问世时（2023年初），他开始测试模型解决日常数学问题的能力，例如三人露营后分摊复杂账单，或者为身处不同时区的人安排 Zoom 会议时间。在当时，模型根本无法处理这类问题。“但在 2025 年年中左右，情况突然改变了，”Ryu 说。他当时并非 OpenAI 员工，不清楚内部具体发生了什么，但模型突然开始能够解决国际数学奥林匹克（IMO）级别的问题，进而开始触及研究级别的数学。

Bubeck 则从更早的时间点回溯，提到了四年前（即 ChatGPT 问世前）谷歌推出的数学模型 Minerva。“我当时印象深刻得差点从椅子上摔下来，”他说，因为那个模型居然能根据平面上点的坐标给出穿过这些点的直线方程。“现在说起来几乎难以理解——这有什么难的？模型当然能做。”他感慨道，我们似乎已经忘记了进步的速度有多快。

如今，Ryu 如此校准 AI 的数学能力：除非你是试图发明新数学的专业数学家，否则 ChatGPT 已经能够处理你所需的所有数学问题。无论是物理学家、化学家还是其他 STEM 领域的研究者，只要他们使用的是微分方程、微分几何等复杂但既有的数学工具，AI 都能提供帮助。当然，用户仍需保持一定程度的谨慎，进行检查和验证，但 AI 已经覆盖了 99% 人口的数学需求。

亲身实践：用 ChatGPT 解决 42 年悬案

理论上的进步令人兴奋，但亲身实践更具说服力。Ernest Ryu（欧内斯特·柳）分享了他利用 ChatGPT 解决一个长达 42 年优化理论开放问题的个人经历。

这个问题围绕著名的“Nesterov 加速梯度方法”。学界已知该算法在大多数情况下表现良好（收敛），但一直未能确定：在极端坏情况下，它是否可能发散？这是一个真正开放的问题。

Ryu 决定用 ChatGPT 试一试。他并没有简单地输入问题然后等待答案，而是扮演了“验证者”和“引导者”的角色。在三个晚上的时间里（每晚约 4 小时，共 12 小时），他与 ChatGPT 就这个问题进行了密集的交互。每当模型犯错，他就纠正它；同时，他也尝试将对话引导到他觉得新颖的研究路径上。

最终，ChatGPT 生成了一份证明。Ryu 仔细检查了它，甚至还让 ChatGPT 自己进行了双重检查，确认证明是正确的。“就这样，这个 42 年的开放问题被解决了。”为了以最有趣的方式公布这一结果，他没有选择直接写论文，而是在 Twitter（现 X）上分享了这一经历，引发了广泛关注和讨论。这可能是最早由 AI 协助解决真正数学开放问题的案例之一。

Bubeck 补充道，这种“教授-学生”式的互动模式极大地压缩了研究时间线。如果没有 AI，解决同样的问题可能需要数月甚至更久。而 AI 将这个过程缩短到了以小时计。

超越文献检索：AI 开始产出全新数学成果

AI 在数学上的早期成功案例，很多属于“深度文献检索”。例如，GPT 曾通过扫描数千篇论文，在一个完全不相关的数学领域找到了某个埃尔德什（Paul Erdos）问题的答案，并完成了连接两部分的推理工作。这本身已经非常惊人。

随后，OpenAI 团队开始更系统地用模型测试埃尔德什问题列表。Bubeck 回忆，团队成员 Mark Selke 曾尝试让模型解决列表上的所有问题，结果模型给出了 10 个问题的“解决方案”。Bubeck 在推特上分享了这一结果，却引发了一些误解和争议（包括与 Google DeepMind 联合创始人 Demis Hassabis 的争论），因为人们误以为这 10 个方案是完全原创、前所未有的。

“但现在的结局更令人惊叹，”Bubeck 说，“几个月后的今天，我们实际上已经拥有了超过 10 个完全新颖、可发表在顶级组合学期刊上的解决方案，其中一些由 ChatGPT 得出，一些由我们的内部模型得出。”这清晰地表明了进步的加速度：从借助文献找到答案，到真正产生全新的数学见解，只用了短短几个月。

这引出了一个更深层的问题：科学的进步，究竟是不同知识的重组与推理，还是需要人类天才的“灵光一闪”？Bubeck 认为，目前尚无定论，但 AI 正在以前所未有的方式进行大规模重组和推理，这本身就可能无限扩展人类知识。

数学为何是通往 AGI 的关键基准？

为什么 OpenAI 如此关注 AI 的数学能力？Sebastian Bubeck（塞巴斯蒂安·布贝克）给出了两个核心原因。

首先，数学问题是清晰、无歧义的，所有人都对问题本身和答案对错有共识（在研究级别以下）。这使其成为衡量模型进步的完美基准。过去四年，数学很好地扮演了这个“标尺”角色。

其次，更重要的是，数学要求长时间、连贯的思考。解决一个数学问题可能需要数天、数周甚至数年。在整个推理链中，只要出现一个错误，整个论证就会崩塌。这种特性正是我们对“推理模型”的期望：它们需要能够进行长时间连贯思考，并在犯错时自我纠正。

“我们希望通过数学获得的这种属性，能够推广到其他领域，”Bubeck 说，“顺便说一下，这与人类训练数学思维的原因完全相同。”数学培养的正是这种严谨、逻辑性的思考能力，而这对于构建能够进行复杂科学发现的 AGI 至关重要。

他提出了一个“AGI 时间”的概念：即 AI 能够模拟人类思维的时间长度。两年前，模型或许只能模拟一个思考几分钟问题的高中生；现在，它们可以模拟一个思考数小时甚至数天的研究者。“我们希望推进到数周，甚至数月。这是开放式研究，我认为地球上还没人确切知道怎么做……但我们正朝着自动化研究者的方向前进。”

Ernest Ryu（欧内斯特·柳）从技术角度补充了实现“长思考”的可能路径。当前，人们通常在有限的上下文窗口（约等于 50 页数学论文的长度）内与 ChatGPT 交互，这不足以产生真正深度的数学突破。但参考 Codex 处理超长代码库的能力，未来 LLM 也能处理超长的“数学笔记”，通过压缩和总结对话，在跨越数周或数月的长时间尺度上持续思考，最终产出凝结了长期思考成果的论文。

AI 将如何重塑数学与科学？

两位研究员描绘了一幅 AI 深度融入数学及更广泛科学研究的未来图景：

互联与加速的数学：Ryu 指出，很多前沿数学研究非常小众，一篇论文可能只有五位在世的人会关心。但 AI 会阅读并记住所有论文。未来，一个沉寂了 20 年、无人问津的结果，可能会在 100 年后被 AI 重新发现并应用于一个全新的领域。数学将成为一个更加互联的整体。同时，AI 能极大地加速数学验证过程。目前，验证一篇 300 页的重要证明可能需要数年时间，且仍可能出错。未来，AI 可以快速进行初步验证和错误标记，人类专家在此基础上进行最终判断，这将大大提高数学成果的可信度和迭代速度。
赋能所有科学家：Bubeck 强调，OpenAI 的训练技术是通用的，数学上的进步预示着在所有科学领域都将发生类似突破。数学家可以借助 Codex 轻松编写代码进行实验，而其他领域的科学家则可以借助 ChatGPT 使用更高级的数学工具。科学发现的进程将被“字面意义上地加速”。
人类角色的演变，而非消失：Bubeck 理性地预测，在一两年内，模型可能就能完成人类研究者所做的大部分基础工作。但这绝不意味着科学家不再被需要。恰恰相反，专业知识变得比以往任何时候都更有价值。正是他们深厚的领域知识，才能引导 AI 做出真正的突破。科学的目的是理解和解决问题（如治愈疾病），而 AI 本身并不关心这些目标，需要人类来设定方向、保持控制。
警惕“思维萎缩”的风险：Bubeck 也表达了对过度依赖工具的担忧。如果人类只是简单地让 AI 解释一切，而不去经历深入理解某个结果所需的“数日甚至数周的耐心钻研”，可能会导致对知识的理解变得肤浅。他警告说，已经出现非专业研究者使用 AI 生成数十页的错误“证明”的例子。“我们需要比以往任何时候都更优秀的科学家，”他呼吁学术界必须理解这种进步速度，并在此过程中重新定位自己的角色。

给数学好奇者的建议：从聊天开始

对于数学感兴趣但可能觉得自己并非“数学人”的听众，两位研究员给出了简单而有力的建议：去和 ChatGPT 聊天。

Ryu 分享了他自己的学习方式：以前会去查维基百科，但内容往往过于密集；现在他会直接问 ChatGPT，并能进行针对自身知识空白的追问。你可以向它介绍你的数学背景、读过的书，然后让它提出一个在你知识水平内可理解、且可能是开放性的问题。接着，你可以与它一起探讨解决方案，并不断衍生出新的问题和变体。“这会让（数学研究）感觉不那么孤独，而数学本质上是一项社会性事业。”Bubeck 也特别指出，人们尚未充分认识到 LLM 提出好问题的能力，而这正是探索的开始。

主持人 Andrew Mayne 则提供了一个更轻松的开端：从“你的浴缸能装下多少 M&M 豆？”或“你去年读了多少个字？”这类趣味估算问题开始，与 AI 展开对话。下一步，你可能就在不知不觉中进入了更复杂的数学世界，并开始理解它将如何影响你。

数学正变得前所未有的有趣、互联和强大，而人类研究者， equipped with AI，将站在这个新时代的中心。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。