YC 访谈：那个创立 DeepMind 的人，现在等 AI 的“爱因斯坦时刻”

「持续学习、长程推理、记忆的某些方面的问题还没解决，AGI 需要全部搞定。」

整理 & 编译：深潮 TechFlow

嘉宾：Demis Hassabis（DeepMind 创始人，2024 诺贝尔化学奖得主，Google DeepMind 负责人）

主持人：Gary Tan

播客源：Y Combinator

原标题：Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

播出时间：2026 年 4月 29 日

编辑导语

Google DeepMind CEO、诺贝尔化学奖得主 Demis Hassabis 做客 Y Combinator ，聊到了通往 AGI 还有哪些关键进展，给创业者关于如何保持领先的建议，以及下一个重大科学突破可能会出现在哪里。对深科技创业者最实用的判断是，如果你今天启动一个十年期的深科技项目，必须把 AGI 的出现这件事纳入规划中。此外他还透露了 Isomorphic Labs（从 DeepMind 拆分的 AI 制药公司）即将有重大消息发布。

精华语录

AGI 路线与时间线

「现有的这些技术组件几乎肯定会成为 AGI 最终架构的一部分。」
「持续学习、长程推理、记忆的某些方面的问题还没解决，AGI 需要全部搞定。」
「如果你的 AGI 时间线跟我一样是 2030 年左右，而你今天开始了一个深科技项目，那你必须把 AGI 会在半路出现这件事考虑进去。」

记忆与上下文窗口

「上下文窗口大致相当于工作记忆。人类工作记忆平均只有七个数字，我们有百万甚至千万 token 的上下文窗口。但问题是我们把所有东西都往里塞，包括不重要的、错误的信息，目前这种做法相当粗暴。」
「如果要处理实时视频流并且把所有 token 都存进去，一百万 token 其实只够大约 20 分钟。」

推理的缺陷

「我喜欢拿 Gemini 下棋。它有时候意识到这是一步臭棋，但又找不到更好的，结果绕了一圈还是走了那步臭棋。但一个精确的推理系统不应该出现这种情况。」
「它一方面能解 IMO 金牌级别的题，另一方面换个方式提问就会犯小学数学的错误。在自身思考过程的内省上，好像还缺了点什么。」

Agent 与创造力

「要达到 AGI，你必须有一个能主动替你解决问题的系统。Agent 就是那条路，我觉得我们才刚起步。」
「我还没看到有人用 vibe coding 做出一款登顶应用商店排行榜的 3A 游戏。按照目前投入的精力，这应该是可能的，但还没发生。说明工具或流程上还缺了点什么。」

蒸馏与小模型

「我们的假设是，一个前沿的 Pro 模型发布半年到一年后，它的能力就能被压缩到非常小的、可以跑在边缘设备上的模型里。目前还没碰到理论上的信息密度极限。」

科学发现与「爱因斯坦测试」

「我有时候管它叫「爱因斯坦测试」，即能不能用 1901 年的知识训练一个系统，然后让它独立推导出爱因斯坦 1905 年做出的那些成果，包括狭义相对论。一旦能做到，这些系统就离真正发明全新的东西不远了。」
「解决一个千禧年大奖问题已经很了不起了。但比这更难的是，能不能提出一组新的千禧年大奖问题，而且是被顶尖数学家认为同样深刻、值得用一辈子去研究的问题。」

深科技创业建议

「追难问题和追简单问题，其实差不多，只是难的方式不同。人生很短，不如把精力砸在你不做就真没人做的事情上。」

AGI 实现路径

Gary Tan：你思考 AGI 的时间几乎比所有人都长。看当前的范式，你觉得我们已经拥有了多少 AGI 的最终架构？现在根本性缺失的是什么？

Demis Hassabis：大规模预训练、RLHF、思维链等，我很确定它们会成为 AGI 最终架构的一部分。这些技术走到今天已经证明了太多东西。我不太能想象两年后我们会发现这是条死路，这对我来说说不通。但在已有的东西之上，可能还差一两样。持续学习（continual learning）、长程推理（long-term reasoning）、记忆的某些方面，还有些问题没解决。AGI 需要全部搞定。也许现有技术加上一些渐进式创新就能扩展到那个程度，但也可能还剩一两个大的关键点需要被突破。我不觉得会超过一两个。我个人判断有没有这种未解的关键点，概率大概五五开。所以在 Google DeepMind，我们两条线都在推进。

Gary Tan：我跟一堆 Agent 系统打交道，最让我震惊的是，底层来来回回就是同一套权重。所以持续学习这个概念特别有意思，因为现在我们基本上是在用胶带临时糊的，比如那些「夜间梦境周期」之类的东西。

Demis Hassabis：对，那些梦境周期挺酷的。我们过去在情景记忆的整合上就思考过这个问题。我博士研究的就是海马体怎么把新知识优雅地融入已有的知识体系。大脑在这方面做得极好。它在睡眠期间完成这个过程，尤其是快速眼动睡眠（REM sleep）时，把重要的经历回放一遍以便从中学习。我们最早的 Atari 程序 DQN（DeepMind 在2013 年发表的深度 Q 网络，首次用深度强化学习在 Atari 游戏上达到人类水平）能掌握 Atari 游戏，一个关键方法就是经验回放（experience replay）。这从神经科学里学来的，把成功的路径反复回放。那是 2013 年的事了，放在 AI 领域算上古时期，但那时它非常关键。

我同意你说的，现在我们确实在用胶带糊。把所有东西塞进上下文窗口里。这感觉不太对。就算我们做的是机器而不是生物大脑，理论上可以有百万、千万级别的上下文窗口，而且记忆可以是完美的，但查找和检索的成本仍然存在。在当下这个需要具体决策的时刻，找到真正相关的信息并不简单，即使你能把所有东西都存下来。所以我觉得记忆这个领域还有很大的创新空间。

Gary Tan：说实话，百万 token 的上下文窗口已经比我预期的大多了，能做很多事。

Demis Hassabis：对大多数它该用的场景来说是够大的。但你想一下，上下文窗口大致相当于工作记忆。人类工作记忆平均只有七个数字，我们有百万甚至千万级别的上下文窗口。问题是我们把什么都往里塞，包括不重要的、错误的信息，目前这种做法相当粗暴。而且如果你现在要处理实时视频流，天真地把所有 token 都记录下来，一百万 token 其实只够大约 20 分钟。但如果你想让系统理解你一两个月内的生活状况，那还远远不够。

Gary Tan：DeepMind 历来深度投入强化学习和搜索，这种哲学在你们现在构建 Gemini 的过程中嵌入了多深？强化学习是不是仍然被低估了？

Demis Hassabis：可能确实被低估了。这方面的关注度有起有伏。我们从 DeepMind 成立第一天就在做 Agent 系统。所有 Atari 和 AlphaGo 上的工作，本质上都属于强化学习 Agent，能自主完成目标、做出决策、制定计划的系统。当然我们当时选的是游戏领域，因为复杂度可控，然后逐步做更复杂的游戏，比如 AlphaGo 之后做了 AlphaStar，基本上我们把能做的游戏都做了。

接下来的问题是，能不能把这些模型泛化为世界模型或语言模型，而不仅仅是游戏模型。过去几年我们就在做这件事。今天所有领先模型的思考模式和思维链推理，本质上就是 AlphaGo 当年开创东西的再回归。我觉得我们当年做的很多工作跟今天高度相关，我们正在重新审视那些老想法，用更大的规模、更通用的方式去做，包括蒙特卡洛树搜索（Monte Carlo tree search）等各种强化学习的方法。AlphaGo 和 AlphaZero 的那些思想跟今天的基础模型极度相关，我认为未来几年的进步很大一部分会来自于此。

蒸馏与小模型

Gary Tan：现在要更聪明就需要更大的模型，但同时蒸馏技术也在进步，小模型可以变得相当快。你们的 Flash 模型很强，基本能达到前沿模型 95%的效果，但价格只有十分之一。对吗？

Demis Hassabis：我觉得这是我们的核心优势之一。你得先建最大的模型来获得前沿能力。我们最大的优势之一是能很快地把那些能力蒸馏并压缩到越来越小的模型里。蒸馏这套方法本来就是我们发明的，我们现在仍然是世界顶尖。而且我们有很强的业务动力去做这件事。我们大概是全球最大的 AI 应用平台。拥有 AI Overviews 和 AI Mode，以及 Gemini，现在 Google 的每一个产品，包括地图、YouTube 等，都在集成 Gemini 或相关技术。这涉及数十亿用户，以及十几个十亿级用户的产品。它们必须速度极快、效率极高、成本极低、延迟极低。这给了我们极大的动力去把 Flash 和更小的 Flash-Lite 模型做到极致高效，我希望这最终也能服务好用户的各类工作。

Gary Tan：我好奇这些小模型到底能聪明到什么程度。蒸馏有没有极限？50B 或 400B 的模型能不能跟今天最大的前沿模型一样聪明？

Demis Hassabis：我不觉得我们已经碰到了信息论上的极限，至少目前没人知道有没有碰到。也许某天会遇到某种信息密度的天花板，但现在我们的假设是，一个前沿的 Pro 模型发布后，在半年到一年内，它的能力就能被压缩到非常小的、几乎可以跑在边缘设备上的模型里。你们也能在 Gemma 模型上看到这一点，我们的 Gemma 4 模型在同体量下表现非常强。这都用到了大量蒸馏技术和小模型效率优化技术。所以我真的没看到什么理论极限，我觉得我们离那个极限还远得很。

Gary Tan：现在有个很离谱的现象，即工程师能做的工作量大概是六个月前的 500到 1000 倍。这个房间里有些人大概在做相当于 2000 年代一个 Google 工程师 1000 倍的工作量。Steve Yegge 讲过这个。

Demis Hassabis：我觉得很兴奋。小模型有很多用途。一个是成本低，而且速度快会同样会带来好处。在写代码或其他任务中，你能迭代得更快，尤其是跟系统协作的时候。快速的系统即使不是最前沿的，比如只有前沿的 90% 到 95%，但这完全够用了，而且你在迭代速度上赚回来的远超那 10%。

另一个大方向是把这些模型跑在边缘设备上，不光是为了效率，也是为了隐私和安全。想想各种处理非常私人信息的设备，还有机器人，对于你家里的机器人，你会希望本地跑一个高效且强大的模型，只在特定场景下把任务委托给云端的大模型。音频和视频流都在本地处理、数据留在本地，我能想象这会是一个很好的终极状态。

记忆与推理

Gary Tan：回到上下文和记忆。模型目前是无状态的，如果有了持续学习能力，开发者的体验会是什么样？你怎么引导这样的模型？

Demis Hassabis：这个问题很有意思。缺乏持续学习是当前 Agent 无法完成完整任务的一个关键瓶颈。现在的 Agent 对任务的局部环节很有用，你可以把它们拼起来做一些很酷的事，但它们无法很好地适应你所在的具体环境。这就是它们还不能真正「发射后不管」的原因，它们需要能学习你的具体场景。要达到完全的通用智能，这个问题必须解决。

Gary Tan：推理方面走到哪了？模型现在的思维链很强，但在一些聪明本科生不会犯的错误上还是会翻车。具体需要改什么？推理上你预期会有什么进展？

Demis Hassabis：思考范式上还有大量创新空间。我们做的事情仍然相当粗糙、相当暴力。可以有很多改进方向，比如监控思维链的过程，在思考中途做干预。我经常觉得，不管是我们的系统还是竞争对手的系统，它们在某种程度上会过度思考，陷入循环。

我有时候喜欢拿 Gemini 下棋来观察。所有领先的基础模型在下棋方面其实都相当差，这很有意思。看它们的思考轨迹很有价值，因为棋是一个被充分理解的领域，我能很快判断它是不是走偏了，推理是不是有效。我们看到的情况是，它有时候考虑一步棋，意识到是步臭棋，但又找不到更好的，结果绕了一圈还是走了那步臭棋。一个精确的推理系统不应该出现这种情况。

这种巨大的落差仍然存在，但修复它可能只需要一两个调整。这就是为什么你会看到所谓的「锯齿状智能」（jagged intelligence），它一方面能解 IMO 金牌级别的题，另一方面换个方式提问就会犯小学数学的错误。在对自身思维过程的内省上，好像还缺了点什么。

Agent 的真实能力

Gary Tan：Agent 是个大话题。有人说是炒作。我个人觉得才刚开始。DeepMind 内部研究对 Agent 能力的真实判断是什么，跟外面的宣传差距有多大？

Demis Hassabis：我同意你说的，我们才刚开始。要达到 AGI，你必须有一个能主动替你解决问题的系统。这对我们来说一直很清楚。Agent 就是那条路，我觉得我们才刚起步。大家都在摸索怎么让 Agent 更好地配合工作，我们在个人实验上做了很多探索，在座的很多人应该也是。怎么让 Agent 融入工作流，让它不只是锦上添花，而是真正在做根本性的事情。目前我们还在实验阶段。可能也就最近两三个月才开始真正找到特别有价值的场景。技术大概也就刚好到了那个程度，不再是玩具演示，而是真的在给你的时间和效率带来价值。

我经常看到有人启动几十个 Agent 让它们跑几十个小时，但我还不确定产出能匹配这个投入。

我们还没看到有人用 vibe coding 做出一款登顶应用商店排行榜的 3A 游戏。我自己也写过，在座很多人也做过一些不错的小 demo。我现在半小时就能做出一个《Theme Park》的原型，当年 17 岁的我花了六个月。我有种感觉，如果你花一整个夏天去做，可以做出真正不可思议的东西。但它仍然需要工艺和人的灵魂、品位，你必须确保把这些东西带进你所构建的任何产品里。事实上现在还没有哪个小孩做出了卖出一千万份的爆款游戏，按理说以当前的工具投入，这应该是有可能的。所以还缺点什么，可能跟流程有关，可能跟工具有关。我预计未来 6到 12 个月内会看到那样的成果。

Gary Tan：其中多大程度上会是全自动的？我觉得不会一上来就是全自动。更可能的路径是在座的人先做到 1000 倍效率，然后出现有人用这些工具做出了畅销应用、畅销游戏，之后更多环节才会被自动化。

Demis Hassabis：对，这就是你应该先看到的。

Gary Tan：也有一部分原因是，有些人确实在这么做了，但他们不愿意公开说 Agent 帮了多少忙。

Demis Hassabis：可能是。但我想聊聊创造力这个问题。我经常举 AlphaGo 的例子，大家都知道第二局第 37 手。对我来说，我一直在等那样的时刻出现，它出现之后我才启动了科学项目比如 AlphaFold。我们在从首尔回来的第二天就开始做 AlphaFold，那是十年前了。我这次去韩国就是庆祝 AlphaGo 十周年。

但仅仅走出 Move 37 是不够的。它很酷，很有用。但这个系统能不能发明围棋本身？如果你给它一段高层描述，比如「一个五分钟能学会规则、但穷尽一生也难以精通的游戏，美学上很优雅，一个下午能下完一盘」，然后系统返回给你的结果是围棋。今天的系统做不到这一点。问题是为什么？

Gary Tan：在座的人里可能就有谁能做到。

Demis Hassabis：如果有人做到了，那答案就不是系统缺了什么，而是我们使用系统的方式有问题。这说不定就是正确答案。也许今天的系统就有这个能力，只是需要一个足够天才的创作者来驱动它，提供那种项目的灵魂，同时这个人要跟工具高度融合，几乎跟工具合为一体。如果你日夜泡在这些工具里并且具备深度创造力，也许就能做出超乎想象的东西。

开源与多模态模型

Gary Tan：换个话题聊开源。最近 Gemma 的发布让非常强的模型可以在本地运行。你怎么看？AI 会不会变成用户自己掌握的东西，而不是主要留在云端？这会改变谁能用这些模型来构建产品吗？

Demis Hassabis：我们是开源和开放科学的坚定支持者。你提到的 AlphaFold，我们全部免费开放了。我们的科学工作至今仍然发表在顶级期刊上。Gemma 方面，我们想为同等体量创造世界领先的模型。目前 Gemma 的下载量已经达到大约 4000 万次，而且才发布了两周半。

我还认为在开源领域有西方技术栈的存在很重要。中国的开源模型很优秀，目前在开源领域领先，但我们认为 Gemma 在同体量下非常有竞争力。

对我们来说还有一个资源问题，没有人有多余的算力去做两个全尺寸前沿模型。所以我们目前的决策是：边缘模型用于 Android、眼镜、机器人等，最好做成开放模型，因为一旦部署到设备上，它们本身就是暴露的，不如直接彻底开放。我们在纳米级别统一了开放策略，这在战略上也说得通。

Gary Tan：上台前我给你演示了我做的 AI 操作系统，我能直接用语音跟 Gemini 交互，给你演示东西我还是挺紧张的，不过居然跑通了。Gemini 从一开始就是多模态构建的。我用过很多模型，直接语音到模型的交互加上工具调用能力的深度和上下文理解，目前没有任何模型能跟 Gemini 相比。

Demis Hassabis： 对。对于 Gemini 系列一个还没被充分认识到的优势就是我们从一开始就按多模态来构建。这让起步阶段比只做文本要难，但我们相信长期会从中受益，现在已经开始兑现了。比如世界模型方面，我们在 Gemini 之上构建了 Genie（DeepMind 开发的生成式交互环境模型）。机器人领域也一样，Gemini Robotics 将建立在多模态基础模型上，我们在多模态上的优势会成为竞争护城河。我们在 Waymo（Alphabet 旗下自动驾驶公司）上也越来越多地使用 Gemini。

想象一下跟随你进入真实世界的数字助手，可能在你的手机或眼镜上，它需要理解你周围的物理世界和环境。我们的系统在这方面极强。我们会继续在这个方向投入，我认为我们在这类问题上的领先优势是很大的。

Gary Tan：推理成本在快速下降。当推理基本免费时，什么变得可能了？你们团队的优化方向会因此改变吗？

Demis Hassabis：我不确定推理会真正免费，杰文斯悖论（Jevons' Paradox，指效率提升反而导致总消耗量增加）摆在那里。我觉得所有人最终会把能拿到的算力全部用掉。可以想象数百万个 Agent 组成的群体协同工作，或者一小组 Agent 沿着多个方向同时思考然后做集成。我们都在实验这些方向，所有这些都会吃掉可用的推理资源。

能源方面，如果我们解决了可控核聚变、室温超导、最优电池等问题中的几个，我认为通过材料科学我们会做到，那能源成本可以趋近于零。但芯片的物理制造等环节仍然有瓶颈，至少未来几十年是这样。所以推理端仍然会有配额限制，仍然需要高效地使用。

下一个科学突破

Gary Tan：好在小模型越来越聪明了。在座有很多生物和生物技术领域的创始人。AlphaFold 3 已经超越了蛋白质，扩展到更广谱的生物分子。我们离建模完整的细胞系统还有多远？这是不是一个完全不同难度级别的问题？

Demis Hassabis：Isomorphic Labs 进展非常好。AlphaFold 只是药物发现流程中的一个环节，我们在做相邻的生物化学研究，设计具有正确性质的化合物等，很快会有重大发布。

我们的最终目标是做出一个完整的虚拟细胞，一个你可以施加扰动的全功能细胞模拟器，其输出足够接近实验结果，并且有实际用途。你可以跳过大量搜索步骤，生成大量合成数据来训练其他模型，让它们预测真实细胞的行为。

我估计距离完整的虚拟细胞大约还有十年。我们在 DeepMind 科学侧正从虚拟细胞核开始做，因为细胞核相对自成体系。这类问题的关键是，能不能切出一个复杂度合适的切片，它足够自包含，你能合理地近似其输入和输出，然后专注于这个子系统。细胞核从这个角度看很合适。

另一个问题是数据不够。我跟做电子显微镜和其他成像技术的顶级科学家聊过。如果能在不杀死细胞的前提下对活细胞进行成像，那将是颠覆性的。因为那样就能把它转化为一个视觉问题，而视觉问题我们知道怎么解。但据我了解，目前还没有技术能在纳米级分辨率下对活的动态细胞进行成像且不破坏它。你能拍到那个分辨率的静态图像，现在已经非常精细了，这很让人兴奋，但不足以直接把它变成一个视觉问题。

所以有两条路，一条是硬件驱动、数据驱动的方案；另一条是构建更好的可学习模拟器来模拟这些动力学系统。

Gary Tan：你不只看生物。材料科学、药物发现、气候建模、数学，如果必须排个序，未来五年哪个科学领域会被改造得最彻底？

Demis Hassabis：每个领域都让人兴奋，这也是为什么这一直是我最大的热情所在，也是我 30 多年来从事 AI 的原因。我一直认为 AI 会是科学的终极工具，用于推进科学理解、科学发现、医学以及我们对宇宙的认知。

我们最初表述使命的方式是两步。第一步，解决智能，即构建 AGI；第二步，用它解决其他所有问题。后来不得不调整措辞，因为有人会问「你们真的是说解决所有问题吗」？我们确实是这个意思。现在大家开始理解这意味着什么了。具体来说，我指的是解决那些我称之为「根节点问题」的科学领域，那些一旦突破就能解锁全新发现分支的领域。AlphaFold 就是我们想做的事情的原型。全球超过三百万研究者，几乎每个生物学研究者现在都在用 AlphaFold。我从一些制药公司高管朋友那里听说，今后发现的几乎每一种药物都会在药物发现流程的某个环节用到 AlphaFold。我们为此感到自豪，这也是我们希望 AI 能产生的那种影响力。但我觉得这只是开始。

我想不出有哪个科学或工程领域是 AI 帮不上忙的。你提到的那些领域，我觉得差不多处于「AlphaFold 1 时刻」，结果已经很有希望，但还没有真正攻克该领域的大挑战。未来两年在所有这些领域我们都会有很多进展可谈，从材料科学一直到数学。

Gary Tan：感觉像是普罗米修斯式的，给人类一种全新的能力。

Demis Hassabis：没错。当然正如普罗米修斯故事的寓意一样，我们也必须谨慎对待这种能力被怎么使用、用在什么地方，以及同一套工具被滥用的风险。

成功经验

Gary Tan：在座有很多人在尝试创办将 AI 应用于科学的公司。在你看来，真正推进前沿的创业公司和那些只是给基础模型套层 API、然后自称「AI for Science」的创业公司，区别在哪？

Demis Hassabis：我在想如果今天我坐在你们的位置上，在 Y Combinator 看项目，我会怎么做。一件事是你必须预判 AI 技术的走向，这本身就很难。但我确实认为把 AI 的走向跟另一个深科技领域结合起来，有巨大的机会。这个交叉点，不管是材料、医学还是其他真正困难的科学领域，特别是涉及原子世界的，在可预见的未来都不会有捷径。这些领域不会因为下一次基础模型更新就被碾压。但如果你要找防御性强的方向，这是我会推荐的。

我个人一直偏爱深科技。真正持久且有价值的东西没有容易的。我总是被深科技吸引。2010 年我们起步的时候 AI 就是深科技——投资人跟我说「我们已经知道这东西不行」，学术界也认为这是个 90 年代试过然后失败的小众方向。但如果你对自己的想法有信念——为什么这次不同，你的背景有什么独特的组合——理想情况下你自己在机器学习和应用领域都是专家，或者你能组建这样的创始团队——那这里面有巨大的影响力和价值可以创造。

Gary Tan：这个信息很重要。一件事做成之后看起来理所当然，但做成之前所有人都在反对你。

Demis Hassabis：当然，所以你必须做自己真正有热情的事。对我来说，不管发生什么我都会做 AI。我很小的时候就决定了这是我能想到的最有影响力的事情。事实也证明了这一点，但也可能不会，也许我们早了 50 年。而且它也是我能想到的最有趣的事情。即使今天我们还蹲在一个小车库里、AI 还没做出来，我也还是会想办法继续做。也许我会回学术界，但我会找到某种方式继续下去。

Gary Tan：AlphaFold 算是你追了一个方向，然后赌对了的例子。什么让一个科学领域适合产生 AlphaFold 式的突破？有没有规律，比如某种目标函数？

Demis Hassabis：我确实应该找个时间把这个写下来。从 AlphaGo 和 AlphaFold 等所有 Alpha 项目中我学到的经验是，我们现有的技术在以下情况下效果最好。第一，问题具有巨大的组合搜索空间，越大越好，大到没有任何暴力穷举或特殊算法能解决。围棋的走法空间和蛋白质的构型空间都远超宇宙中原子的数量。第二，你能清晰地定义目标函数，比如蛋白质的自由能最小化，或者围棋中的赢棋，这样系统可以做梯度上升。第三，有足够的数据，或者有一个模拟器能生成大量分布内的合成数据。

如果这三个条件成立，那以今天的方法就能走很远，去找到你需要的那根「稻草堆中的针」。药物发现也是同一个逻辑：存在某种化合物能治疗这种疾病并且没有副作用，只要物理定律允许它存在，唯一的问题就是怎么高效、可行地找到它。我认为 AlphaFold 第一次证明了这类系统有能力在海量搜索空间中找到这种针。

Gary Tan：我想升一个层次。我们在谈人类用这些方法创造了 AlphaFold，但还有一个元层面，人类用 AI 去探索可能的假设空间。我们离 AI 系统能做真正的科学推理（而不只是数据上的模式匹配）还有多远？

Demis Hassabis：我觉得很近了。我们在做这类通用系统。我们有一个叫 AI co-scientist 的系统，还有 AlphaEvolve 这样的算法，能做到比基础 Gemini 更进一步的事情。所有前沿实验室都在探索这个方向。

但到目前为止，我个人还没看到一个真正的、重大的科学发现是由这些系统做出来的。我觉得它快来了。它可能跟我们之前讨论的创造力有关，真正突破已知边界。到了那个层面，它就不是模式匹配了，因为没有模式可以匹配。也不完全是外推，而是某种类比推理（analogical reasoning），我觉得这些系统目前还不具备，或者说我们还没有以正确的方式去使用它们。

我在科学领域经常说的一个标准是，它能不能提出一个真正有趣的假设，而不只是验证一个。因为验证一个假设本身也可能是惊天大事，比如证明黎曼猜想或者解决某个千禧年大奖问题，但也许我们离做到这一步只剩几年。

而比这更难的是，能不能提出一组新的千禧年大奖问题，而且被顶尖数学家认为同样深刻、值得用一辈子去研究。我觉得这又难了一个量级，我们目前还不知道怎么做到。但我不认为这是什么魔法，我相信这些系统最终能做到，也许还差一两样东西。

我们可以用来检验的方式是，我有时叫它「爱因斯坦测试」，即你能不能用 1901 年的知识训练一个系统，然后让它独立推导出爱因斯坦 1905 年做出的那些成果，包括狭义相对论和他那年的其他论文。我觉得我们应该真的去跑这个测试，反复试，看什么时候能做到。一旦能做到，那这些系统就离真正发明全新的东西不远了。

创业建议

Gary Tan：最后一个问题。在座的人中有很多深度技术背景的人，想做接近你们这种规模的事情，你们是全球最大的 AI 研究组织之一。你从 AGI 研究的最前线走过来，有哪件事是你现在知道、但希望 25 岁时就知道的？

Demis Hassabis：我们其实已经聊到了一部分。你会发现追难问题和追简单问题其实难度差不多，只是难的方式不同。不同的事情有不同的难处。但人生很短，精力有限，不如把你的生命力砸在那种如果你不做就真没人做的事情上。用这个标准去选。

另外一点，我觉得未来几年跨领域的组合会更加普遍，AI 会让跨领域变得更容易。

最后一点取决于你的 AGI 时间线。我的是在 2030 年左右。如果你今天开始一个深科技项目，通常意味着一段十年的旅程。那你就必须把 AGI 在中途出现这件事纳入规划。这意味着什么？不一定是坏事，但你必须考虑进去。你的项目能利用 AGI 吗？AGI 系统会怎么跟你的项目交互？

回到之前聊的 AlphaFold 和通用 AI 系统的关系，我能预见的一种情况是 Gemini、Claude 或类似的通用系统把 AlphaFold 这样的专用系统当工具来调用。我不认为我们会把所有东西塞进一个巨大的单一「大脑」里，如果把所有蛋白质数据塞进 Gemini，那没意义，Gemini 不需要做蛋白质折叠。回到你说的信息效率，那些蛋白质数据肯定会拖累它的语言能力。更好的方式是有非常强的通用工具使用模型，它们可以调用甚至训练那些专用工具，但专用工具是独立的系统。

这个思路值得深想，它对你今天构建什么有影响，包括你要建什么样的工厂、什么样的金融系统。你需要认真对待 AGI 时间表，想象那个世界会是什么样，然后构建一个在那个世界到来时仍然有用的东西。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

YC 访谈：那个创立 DeepMind 的人，现在等 AI 的“爱因斯坦时刻”

编辑导语

精华语录

AGI 路线与时间线

记忆与上下文窗口

推理的缺陷

Agent 与创造力

蒸馏与小模型

科学发现与「爱因斯坦测试」

深科技创业建议

AGI 实现路径

蒸馏与小模型

记忆与推理

Agent 的真实能力

开源与多模态模型

下一个科学突破

成功经验

创业建议

深潮TechFlow的精选文章

目录

相关文章