对话 Instagram 创始人：Anthropic Fable 5 发布，纯手工写代码的时代一去不复返

Sonnet 和 Fable 5，完全不是一个量级的体感。

整理 & 编译：深潮 TechFlow

嘉宾：Mike Krieger，Instagram 创始人

主持人：Dan Shipper

播客源：Every

原标题：Mike Krieger Lets Fable 5 Code While He Sleeps

播出日期：2026 年 6 月 11 日

要点总结

Mike Krieger 曾作为 Instagram 的联合创始人，亲手缔造了过去二十年里人类世界最具影响力的消费级应用之一。而今天他正在“智能体原生（AI-native）”产品开发的最前沿，作为 Anthropic Labs 的掌舵人，他带领团队死磕一个终极命题：当把世界上最顶尖的 AI 模型交到真正的开发者手中时，技术的能力边界究竟能被推向何方？

在 Fable 正式发布前的五个月，当他在内部第一次拿到这款模型的体验权限时，那种震撼与失速感让他至今记忆犹新。“得，我觉得自己又成了一个彻头彻尾的新手，”他当时这样对团队自嘲。他突然发现，自己过去几十年沉淀下来的关于效能提升、研发战略乃至时间管理的经验法则，在这一瞬间全部宣告过时。模型的进化速度，已经彻底甩开了他原有的工作流。

在本期节目中，主持人与 Mike Krieger 展开了一场深度对谈，带大家一同窥探：与 Fable 这样跨时代的硬核模型并肩作战、共同构建软件，究竟是一种怎样的体验？在这场人机共生的新常态下，又催生出了哪些全新的研发律动、严峻挑战以及充满想象力的终极可能？

精彩观点摘要

Fable 如何彻底重塑了 Mike 的工作流

“真正的认知升级来自几周高强度的持续使用，而绝非第一天的尝鲜体验。……随着相处时间变长，人们突然意识到：‘我之前对它的压榨还不够狠。我得再往前推一步，重新思考这一代模型的能力边界到底在哪。’”
“现在的正确姿势是：向它传达更宏观、更充分的意图，然后彻底放手让它去跑。它不仅能一次性给出令人惊艳的成果，更可怕的是，它能理解这个功能后续的演进方向以及整个项目的全局上下文。”
“最让我被折服的，是它自动闭环的能力。比如它会这样思考：‘Mike 让我今晚跑一个复杂任务。但我被卡住了，因为远程服务器挂了。那好，我先自己写个 mock 后端顶上去……’对我来说，能够把这种级别的任务委托出去，并且完全信任它的最终产出，这种体验极其震撼。”
“过去我们总把这类模型比作‘助手’或‘伴侣’，但现在，它更像是一个真正可以背锅、可以交付大量核心工作的‘硬核队友’。”

什么时候用 Sonnet，什么时候用 Fable

“那完全不是一个量级的体感。这甚至都跟每秒输出多少 Token 无关，而是这道题到底需要被塞进多少脑容量去思考的问题。有时候，一个简单的答案根本不需要那么多加戏的深度思考。”
“绝大多数时候我扒拉 iOS App，大概率不是为了干那些需要惊动 Fable 的重活。……那种‘这问题根本配不上 Fable，我应该叫 Sonnet 出来答’的微妙心态，我最近确实深有体会。”
“Fable 也是我遇到的第一个会让我主动去调节‘努力程度’（Reasoning Effort，推理力度）的模型。……以前用 Opus 的时候我基本不调这个，因为那时候模型能伸缩的弹性区间没这么大，但 Fable 的跨度真的可以拉得很宽。”

Fable 5 催生的 Agent-native 架构

“所谓的 Agent-native 架构，它的第一阶段是：产品里的每一个核心组件和数据，都必须对 Agent 保持完全开放，并且都有对应的工具调用接口。这正在迅速变成软件行业的温饱线——虽然可悲的是，现在市面上绝大多数软件连这一点都做不到。”
“在 App 里长按聊天按钮，就会唤醒我们的托管 Agent 来接收‘代码修改指令’……我带娃在外面玩的时候，发现‘这个悬浮按钮在 iOS 上的位置太靠下了’，我直接在 App 里对它说一句，它自己就跑去后台把代码修了。”
“Claude 到底该如何嵌入软件？它不应该只停留在‘使用’层面，它更应该深度嵌进软件的‘构建’骨髓里。”

构建成本已经坍缩

“回顾 Instagram 的 V1 版本——功能确实比我这周末做的媒体追踪器要多一些，但绝对没有数量级上的本质差异。而当年做出那个 V1，我和 Kevin 大概连着爆肝了五个通宵……而现在呢？构建时间确实被缩短到了令人发指的地步。”
“从‘意图’到‘执行’之间的那条鸿沟，对于不懂代码的普通人来说，已经被拉平了。……这是我人生中第一次，感觉到自己脑子里想的东西，和现实世界里存在的东西之间，竟然可以毫无距离。我直接就能把它做出来。”
“人类的创造力是无穷无尽的，而我们今天在做的最了不起的一件事，就是无限地扩大了‘有能力将心中所想变为现实’的群体边界。”

软件工程死了吗？

“软件工程的内涵已经完全变了。它正在经历一场翻天覆地的剧变。……纯敲代码的匠人时代，大概率真的已经一去不复返了。”
“高级工程师的角色依然不可替代：你需要靠多年的事故响应经验去保持绝对冷静、全量收集日志数据、实施紧急止血，然后再去推演根本性的长效修复方案。”
“以前硅谷流行一句话叫‘用代码赢下争论’（Code wins arguments），我个人其实一直不太感冒，因为它潜台词在说谁会写代码谁就掌握了话语权。但现在，事情反过来演进得非常有意思：有时候我们对产品的某个走向相持不下，结果经常是某个不写代码的 PM 跑过来说：‘我刚才自己动手搓了一个 Demo……’这瞬间就开启了一个完全不同的高维对话。”
“最明显的特征就是恐怖的开发并行度，以及团队对工作流进行高阶抽象的绝对刚需。但唯独有一件事从始至终没有变过，那就是人类对产品的‘所有权与责任感’。”

验证的机制与价格

“现在的‘成本’已经进化成了一个多维度的概念——你要算的不仅是‘单次提问的成本’，更是‘彻底把一件事办妥的综合成本’。Fable 最让我惊艳的地方恰恰在于后者：它总是倾向于一次性把事做对，不需要我坐在电脑前跟它大战八九个回合。”
“适应这种新常态，搞清楚怎么跟它共事，是我们所有人都需要学的。……每次我搭东西的时候，我怎么确保 Claude 的每一个 PR 都附带了照片或视频——不管是 iOS PR 还是 UI 层的改动。这帮你获得了很多信心。”
“视频是给 Claude 的一个极度未被充分利用的工具。我最近在做一个原型：把 Claude 构建出来的东西做成视频录像交给它，配合 FFmpeg，看着它自己逐帧分析，然后说‘这个动画有卡顿，我去修’。截图永远不会捕捉到这个，因为截图错过了那个瞬间。”

动态工作流

“在前几代模型的温饱线里，项目往往存在一个‘复杂度天花板’。一旦你的业务代码或者逻辑堆叠到了一定体量，大模型就会开始‘顾头不顾屁股’……但现在，这位不懂代码的女同事，在 Fable 这个级别的模型加持下，已经把她的系统在后台连着养了几个月。你能清晰地看到那个软件像一个活生生的有机体一样，在 AI 的灌溉下持续生长、生长、疯狂进化。”
“工作流是一个好的中间地带，你用 chat 来编排它，但它是用代码表达的，然后在一个干净的 UI 里面执行，每一步都在展示发生了什么。我觉得我们以后会用类似的方式来把长视野的工作和 chat 连接起来。”

Fable 如何彻底重塑了 Mike 的工作流

主持人 Dan Shipper：本期邀请到的嘉宾是 Mike Krieger，他既是 Anthropic Labs 的负责人，也是 Instagram 的联合创始人。Mike，我特别想听你聊聊深度使用这个模型后的真实体感。当一个如此强大的模型发布时，如果有一个每天都在重度使用它的人出来说："它在这些地方强得离谱、在哪些地方切实改变了工作流，而在另一些地方其实也就那么回事"——这能帮大家真正想明白，技术到底该怎么融入自己的日常生活。

Mike Krieger:

确实如此。这段经历本身就很有意思。在 Fable 正式发布前的几个月里，我们内部其实已经用上了几款 Mythos 级别的模型。当时我很期待看外部开发者会用它们做出什么，但正如你所说，真正的认知升级来自几周高强度的持续使用，而绝非第一天的尝鲜体验。

我们在之前的模型上也经历过这种认知重塑。去年十二月底到今年一月初，大家集中使用 Opus 4.5 和 4.6 的时候，随着相处时间变长，人们突然意识到："我之前对它的压榨还不够狠。我得再往前推一步，重新思考这一代模型的能力边界到底在哪。"

主持人 Dan Shipper：我们 Every 团队内部其实已经有一些同事在用了。有人反馈说："我觉得自己需要一套全新的技能树才能驾驭这个模型"，尤其是那些非技术背景、偏知识工作型的同事，他们甚至有点无从下手；而那些做 Agent（智能体）编排的同学则感叹："要学的新东西实在太多了。"

Mike Krieger： 你提到"转换工作流"这一点切中了要害——这不仅是指具体的操作步骤，更指观念上的转变。说来也巧，这个模型的出现刚好赶上我工作变动的窗口期：我当时刚从 CPO（首席产品官）转到 Labs，重新切回了开发者模式。大概转过去一个半月到两个月的时候，内部第一次跑通了这类模型。我坐在电脑前心想："得，我又成新手了。"因为我发现自己以前写 Prompt 的习惯，甚至拆解任务的思维方式，在这个模型面前已经完全过时了。

你的时间尺度感和交互模式都得进化。换作以前，我可能会说："我有个功能想法，咱们先从第一步开始——"现在绝对不能这样了。现在的正确姿势是：向它传达更宏观、更充分的意图，然后彻底放手让它去跑。 我记得在三四月份的时候，它表现出的能力就已经很震撼了——它不仅能一次性给出令人惊艳的成果，更可怕的是，它能理解这个功能后续的演进方向以及整个项目的全局上下文。

而且这种进化完全没有停止。今天早上我还和人聊起工作——在飞机上时，我意识到"绝大部分工作我其实都可以远程搞定"。我甚至不再焦虑 Wi-Fi 会不会断，因为只要我在断网前给它设定好正确的上下文和指令（比如一个循环执行的命令），它自己就能把事情盯到底。

过去两个月里，我经常经历这样的高光时刻：睡前跟 Claude 道个晚安，甩给它一个复杂的任务，第二天醒来发现它已经全部搞定了——通常凌晨两点它就完成了主体，剩下的四小时全花在打磨细节上。

最让我被折服的，是它自动闭环的能力。比如它会这样思考："Mike 让我今晚跑一个复杂任务。但我被卡住了，因为远程服务器挂了。那好，我先自己写个 mock 后端顶上去，把这个问题记录在文档里，先把整个流程跑通、存盘，等明天服务恢复了再修好。"对我来说，能够把这种级别的任务委托出去，并且完全信任它的最终产出，这种体验极其震撼。

当然，你事后肯定还要去审查结果——这涉及到一个完整的验证机制，我们一会儿可以展开聊聊，因为那是闭环中至关重要的一环。但这确实逼着我重新思考：面对这样的模型，到底什么才叫"高效"？过去我们总把这类模型比作"助手"或"伴侣"，但现在，它更像是一个真正可以背锅、可以交付大量核心工作的"硬核队友"。

主持人 Dan Shipper：那你现在的日常工作流到底长什么样？我注意到一个现象：如果你丢给它一个宏大任务，对着它长篇大论，然后让它自己跑几个小时甚至过夜——这时候它的表现是最强的。但日常面对一些琐碎的小任务时，它又显得太慢、太贵，让人不太想用。在实际工作中你是怎么权衡的？它在你的技术栈里处于什么位置？

Mike Krieger:

我现在更多把它用在前期的架构规划和方案对齐上。这是一个很有意思的转变，也是目前所有模型都需要继续啃的硬骨头。

在这方面，我很感激当年做 Instagram 的经历——从最初在一台洛杉矶服务器上草草搭起最简版本，到后来做海量并发、做规模化，再到最后整体并入 Facebook 的基础设施。这个过程会让你培养出一种直觉，即"在项目的哪个阶段，应该用什么级别的架构抽象和复杂度"。

所以，我仍然会和 Fable 保持频繁的来回切磋。有时候它丢出来一个看似完美的实现方案，我会点它一下："我确实计划近期就把这个推上线——我们得考虑单机以外的承载能力。"这种双向互动非常重要。但在做架构规划时，我通常会直接让它生成一个 HTML 页面来视觉化我们讨论的内容，以便我分享给团队。哪怕是一份 Markdown 文件也行，但我更喜欢带图表的形式。

这就形成了一个很有意思的范式：和它一起把事情想透、规划好，然后产出一份文档去对齐团队。 既然现在大家构建原型的速度被极大地压缩了，你就更需要前置的共识和对齐——即便你打算先"小步快跑"做个 Demo 出来，再反向推导出更严谨的系统架构，前期的沟通也至关重要。而这恰恰也是人类的思考与协作仍然深深嵌入整个流程的地方。

到了执行阶段，无论是利用夜间还是大块的白天时间，让它去分头攻克不同的任务模块，意味着我同时维持着比以前多得多的并发会话。我有时喜欢开着一个长时间挂着的 Claude Code 会话，让它把任务全部 fork（派生）给后台的子 Agent 去跑，这样主线程就能随时响应我的新指令；有时我干脆在浏览器里同时开着五六个 Tab 页，让它们各自处理长周期的复杂任务。

这种具备长线视野、有一种"别担心，交给我，需要花点时间"的运作模式，里面确实大有可为。我们目前也在产品层面琢磨怎么更好地支持这种体验——你肯定希望兼顾"即时响应"和"长线挂机"这两种状态，它们之间的交互方式非常有意思。我个人的偏好是：手头至少保留一个高上下文且响应极快的 Claude 窗口，有一种"我随时待命，你一句话我就能原地启动或派生子任务"的直觉。

什么时候用 Sonnet，什么时候用 Fable

主持人 Dan Shipper：那比如你正走在路上，突然有个问题——你会去掏出 Fable 吗？这感觉会不会有点像"拿火箭筒打蚊子"？还是说你会频繁地在不同模型之间来回切？

Mike Krieger:

前阵子我确实是干什么都用 Fable，然后体验就跟你说的一模一样——你盯着屏幕，看着它在那儿死命地想啊想。

直到上周，我想查一个让我都有点不好意思的简单问题，是关于 NBA 总决赛的。当时我切到了手机移动端的 Sonnet，瞬间反应过来："噢对啊！我以前查这种快问题都是用 Sonnet 的。"那完全不是一个量级的体感。这甚至都跟每秒输出多少 Token 无关，而是这道题到底需要被塞进多少脑容量去思考的问题。有时候，一个简单的答案根本不需要那么多加戏的深度思考。

对我们的产品团队来说，这同样是一个非常值得玩味的问题。总的来说，你肯定不希望让用户每天在前端纠结该选哪个模型。理想情况下，从长远来看，我们可以把它们收拢到几个极其直观、开箱即用的场景桶里；或者干脆直接按交互界面来做分流——因为说实话，绝大多数时候我扒拉 iOS App，大概率不是为了干那些需要惊动 Fable 的重活。所以在界面端做一层无感的模型固定，可能会是个思路。我们接下来得好好探索这在产品层面上究竟意味着什么。但那种"这问题根本配不上 Fable，我应该叫 Sonnet 出来答"的微妙心态，我最近确实深有体会。

你说得没错，对于那些高频、细粒度的互动型任务，Fable 会习惯性地自己往深了想。实际上，Fable 也是我遇到的第一个会让我主动去调节"努力程度"（Reasoning Effort，推理力度）的模型——有时候我坐在那想："我只是想改个 UI 样式，把它的努力程度调成‘中等’看个效果就行。"以前用 Opus 的时候我基本不调这个，因为那时候模型能伸缩的弹性区间没这么大，但 Fable 的跨度真的可以拉得很宽。

Mike 周末做的媒体追踪器揭示了 agent-native 架构的什么

主持人 Dan Shipper：你能给我们看看你用它做过的东西吗？

Mike Krieger:

这一轮新模型发布时我们做了一件事——鼓励团队全员在自己的个人账户上用它，尤其是利用周末时间。这还挺有意思的，因为 Anthropic 内部有很多定制的生产力工具，所以偶尔退一步，回到最纯粹的状态："我就用纯粹的 Claude Code，周末给自己做点好玩的小东西。"这种感觉棒极了。

主持人 Dan Shipper：你是在终端 app 里还是桌面 app 里跑的？

Mike Krieger:

好问题。我大部分时间还是泡在终端里。但好玩的是我太太——她不是专业工程师，背景更偏 UX（用户体验）设计师和 PM（产品经理）——她反而是通过桌面 App 彻底爱上了 Claude Code。我觉得桌面 App 帮她屏蔽掉了不少底层高深的抽象概念。不过我自己做这个项目时，用的还是 Ghostty 和终端。

我当时就想要一个完美的"媒体进度追踪器"——我平时打游戏、追剧，还会收到朋友各种安利，我需要一个完全符合自己收纳习惯的工具。我的两个核心标准是：一、添加东西要特别容易，直接跟 Claude 语音或打字说一句，它自己去全网搜索、补全信息并分门别类放好；二、主动推送，比如有新一季或者游戏续作，它能自动去找。

大部分 UI 是 Fable 一次性完成的，这已经很厉害了。但我在 Labs 今年一直在死磕的一条线索是：你怎么能让软件团队——现在这个团队就是 Claude——和软件本身贴得更近？

那是周六的一个早晨，我整个周末其实排满了带娃的行程，所以开发基本上全是"断续式"的：带孩子去爬山，回来，写两句，再出门。有时候在爬山途中我也会忍不住瞄一眼进展——虽然陪孩子时不该看手机，但在手机上远程盯着它的任务跑到哪一步了，那种感觉真的很爽。

我当时冒出一个想法：能不能顺手做个激进的实验，让软件从它内部实现自我修改？

我让它同时做了移动端和网页端两个版本。我本来就做了一个聊天交互界面，可以直接对 Claude 说"帮我把这个 URL 塞进追踪列表"。但我希望所有的软件都能进化出这种能力——我再也不想去各种层级复杂的菜单里翻找功能了。

Dan，在很多层面上，我其实是在尝试把智能体原生的架构推向最极致的边界。

所谓的 Agent-native 架构，它的第一阶段是：产品里的每一个核心组件和数据，都必须对 Agent 保持完全开放，并且都有对应的工具调用接口。 这正在迅速变成软件行业的温饱线——虽然可悲的是，现在市面上绝大多数软件连这一点都做不到。

我有一个很好的正面例子：前阵子有人给我安利了一部巴西神剧，讲的是戈亚尼亚的放射性物质泄漏事件。那名字巨长巨难记，我当时就对系统含糊地提了一句，Claude 立马帮我搜出来并精准归类了。这体验比我自己凭直觉去 Google 瞎找好太多了。

但我真正痴迷的下一步是：在移动场景下，直接从软件内部去修改软件本身，这会演变成什么样？

我做的——准确地说是我指使 Claude 做的——是这样一种交互：在 App 里长按聊天按钮，就会唤醒我们的托管 Agent 来接收"代码修改指令"，然后利用 Vercel 的实时预览（Live Preview）功能直接看效果。整个功能模块几乎也是一次性跑通的，非常酷，我后来还陆陆续续加了一些新点子。如果你是硬核玩家，你也可以去拉它的 Diff（代码差异）视图，或者点进托管 Agent 的对话历史里看它底层到底改了啥——不过我几乎从来不看，反正对个人玩具项目来说，我根本不在乎它的长期可维护性（笑）。

这玩意儿用起来简直太上头了。我带娃在外面玩的时候，发现"这个悬浮按钮在 iOS 上的位置太靠下了"，我直接在 App 里对它说一句，它自己就跑去后台把代码修了。配合 Expo 的开发工具链，它甚至直接在我的手机上完成了热重载（Hot Reload），那一瞬间的体验简直绝了。

这个东西需要达到能抗住百万用户并发的生产级水平吗？完全不需要。但它带给我一种极佳的掌控感：你不需要在周末结束、合上电脑那一刻让项目停摆——你可以一边重度使用它，一边在用它的过程中随时改造它。这种端到端的实时闭环，让你可以无限地迭代下去。

这不仅是 Fable 硬核工程构建能力的一次绝佳秀肌肉，也是你我一直在探讨的那个终极命题的缩影：Claude 到底该如何嵌入软件？它不应该只停留在"使用"层面，它更应该深度嵌进软件的"构建"骨髓里。

构建成本已经坍缩

主持人 Dan Shipper：我特别想让大家意识到一件事：类似这样的工具，你在十年、二十年前可能也能折腾出来，但绝对不是用这种方式。软件的构建成本已经迎来了断崖式的坍缩。想想在当年做 Instagram 的时代，要把一个项目推到这种完成度需要砸进多少资源？现在又需要多少？帮我们量化一下这种时代的剧变吧。

Mike Krieger:

我经常会回想起那段日子。在 Instagram 成立早期，我一直觉得自己是一个效率极高的工程师——对移动端开发充满激情，对产品方向有着极强的直觉。但即便如此，当年从脑海中的一个点子到最终把它完整实现出来，中间依然隔着至少四到五个通宵的死磕。那会儿熬夜就是我的家常便饭：修仙到凌晨四点，然后睡到中午——这种作息完全跟家庭生活绝缘，但那确实就是我当年的" Builder（构建）模式"。

回顾 Instagram 的 V1 版本——功能确实比我这周末做的媒体追踪器要多一些，但绝对没有数量级上的本质差异。而当年做出那个 V1，我和 Kevin 大概连着爆肝了五个通宵：我一个人扛下了所有的前端和后端，Kevin 负责搞定初期的图片滤镜。而且，这还是建立在我们俩都有着多年 iOS 开发经验的基础之上的。

更别提当年的迭代节奏有多憋屈了。产品上线一炮而红之后，我们脑子里攒了无数的新想法，但当时的所有精力都只能用来确保服务器别在大流量下挂掉，或者勉强挤出时间加一个微小的增量功能。就拿 Hashtag（标签）功能来说，当时光写完它就花了我整整一周，而你手里其实还有一万个其他想做的事情被死死卡在排期里。

所以，这不仅仅是时间被压缩了——虽然构建时间确实被缩短到了令人发指的地步——更重要的是硬币的另一面：你现在可以用一种极其丝滑、极具流动感的方式，去即时迭代你手里已经有的东西。

而且，这种红利已经开始外溢，远远超出了像我这样的专业软件工程师和创始人的圈子。在以前，如果你有一个绝佳的商业点子但自己不会写代码，你的选择只有两个：要么找外包——这中间会经历极其严重的信息失真和差强人意的交付；要么就得去疯狂融资。但现在，从"意图"到"执行"之间的那条鸿沟，对于不懂代码的普通人来说，已经被拉平了。

前几天我收到内部一位同事的 Ping（消息）。我们帮她配置了一个内部工具，把 Fable 的能力和我们内部一些 MCP（模型上下文协议）的访问权限打通了。她是做招聘（HR）的，她激动地对我说："这是我人生中第一次，感觉到自己脑子里想的东西，和现实世界里存在的东西之间，竟然可以毫无距离。我直接就能把它做出来。"

那一刻对她而言，绝对是一个具有里程碑意义的震撼瞬间。如果换在四五年前，她要是想用一个专属的业务工具，要么只能用各种现成的软件缝缝补补瞎凑合，要么就得去苦苦哀求内部工具团队的工程师——而对方的 Jira 需求池里可能还排着 50 个优先级更高的需求。但现在呢？她自己正乐在其中地在代码世界里开疆拓土。

这也是我觉得未来最值得期待的地方：人类的创造力是无穷无尽的，而我们今天在做的最了不起的一件事，就是无限地扩大了‘有能力将心中所想变为现实’的群体边界。

软件工程死了吗？

主持人 Dan Shipper：我完全赞同你的看法。但我估计现在很多人心里都悬着一个终极疑问。听了你刚才描述的这一切：软件工程这门行当，是不是彻底完蛋了？

Mike Krieger:

应该说，软件工程的内涵已经完全变了。它正在经历一场翻天覆地的剧变。

如果你在做 Instagram 的那个年代问我："到底什么是软件工程？"我大概会告诉你：把那些棘手的设计难题想透、把系统架构搭好，然后把大把大把的时间消耗在 TextMate 或 Xcode 里。去死磕 Django ORM（对象关系映射）的底层细节，然后部署上线、苦哈哈地修 Bug。现在这套流程里的绝大部分环节都已经被颠覆了，并且正在加速向产品管理的边界靠拢。现在，产品经理和工程师之间的那条楚河汉界，已经变得极为模糊。 这一点在我们自己的研发团队里表现得非常明显。

但如果你能从"软件工程"这个过于死板的字面定义里跳出来，去审视更广义的"软件生产"或者"软件开发"——而不是只盯着纯程序员写代码的那一小块盘子——你会发现这个行业不仅活得好好的，而且正处于前所未有的核心地位。

Fable 的出现，真正让我把对 AI 模型的信任带到了一个新高度——我开始放手让它去"跑通全自动闭环，甚至做合理的系统架构设计"。在技术执行这一侧，AI 已经走得非常非常远了。但"把控软件这门手艺的灵魂"——比如你究竟是在满足用户的什么痛点、你做出来的东西体验到底够不够惊艳——这些顶层的判断力，依然是极其纯粹、无法被机器替代的人类特质。

当然，这种阵痛式的转型，对很多人来说并不是无痛的。

在这个世界上，有太多人曾深深痴迷于"纯手工编写代码"的匠人手艺。我自己当年就是这样。"这个 Bug 憋了我三天，我今天解得真漂亮！"那种爽感是无法替代的。以前你甚至会在梦里和代码纠缠——如果你有过那种经历，梦里全是正在死磕的逻辑，醒来的一瞬间突然福至心灵抓到了解法。这种纯粹的匠人时代，大概率真的已经一去不复返了。

我最近和一些我所认识的、业内最顶尖的硬核工程师聊天，他们都在向我表达一种强烈的复杂情绪：一边是眼睁睁看着传统手艺消亡的巨大失落感，另一边又是"天呐，我现在的并发生产力简直强到令人发指"的极度兴奋。

Anthropic 工程团队今天如何工作

主持人 Dan Shipper：既然这个命题成立——软件工程不仅活着，而且活得很好——那在 Anthropic 内部，你们自己的研发团队在日常实际中，到底是怎么开展工作的？

Mike Krieger:

这里面有几条非常清晰的线索，我可以结合完整的软件生命周期以及我每天看到的研发日常来聊聊。

首先，依然有大量的"人肉对齐"。大家会聚在会议室里，头脑风暴讨论 Cowork 下一步的演进方向，然后把蓝图拆解成不同成员的责任区。这一步依然至关重要，因为很多作为人类才能掌握的全局上下文，是目前的 Claude 无法隔空感知到的——比如这个产品的真实商业意图、目前的研发暗线，以及有哪些即将下线、或正准备以一种极其微妙的方式整合进来的其他产品线信息。

虽然我们团队里给每个人都配备了多尊 Claude 巨塔，但落实到管理上，每个人头上依然挂着 DRI（Directly Responsible Individual，直接负责人）的头衔，各自对产品的某个具体模块负责。我认为这种机制在短期内绝不会消失，因为让团队"分布式协作，合力把产品打磨好"的宏观大局观，与"我今天该怎么让 Claude 跑通这个具体任务"的微观执行之间，存在着本质的鸿沟。我们虽然在极力推行极简会议制，但这类前置的脑暴和对齐会议依然必不可少。

其次，是大量的"异步委托"。我们这里的很多工程师都自己魔改出了一套个人仪表盘，用来监控自己的 Claude 军团都在干嘛："我的某个 Claude Code 跑到哪一步了？"、"有什么卡在队列里等我审批？"、"有哪些 PR 需要我介入修改——因为被其他同事或者某个大模型的代码审查给退回来了？"

现在，工程师们很大一部分精力花在了这种对工作的维护上。这里面的有些协同工具我们正在推进标准化，但大部分还是保留了浓厚的极客个人色彩——就像以前程序员喜欢个性化定制自己的桌面窗口一样，现在他们正在个性化定制自己的大模型工作流。

再者，是理解代码在生产环境下的真实运转状况。这是目前大模型极力攻克的另一个前沿阵地。Fable 在这方面已经展现出了长足的进步，但还有很长的路要走：比如去深度理解代码部署上线后，到底会发生什么。系统会发生崩溃，会出现各种无法预料的怪异故障——说实话，Instagram 丛 2012 年到 2016 年的那几年里，我大半条命都折在处理这些线上事故和做架构规模化上了。在应对线上突发时，高级工程师的角色依然不可替代：你需要靠多年的事故响应经验去保持绝对冷静、全量收集日志数据、实施紧急止血，然后再去推演根本性的长效修复方案。

最后我想强调的一点是："工程原型"在今天扮演的角色彻底变了。

你必须极其清醒地界定，手里这个东西到底是一个 Demo，还是一个准备上线的生产级代码。以前硅谷流行一句话叫"用代码赢下争论"（Code wins arguments），我个人其实一直不太感冒，因为它潜台词在说谁会写代码谁就掌握了话语权。但现在，事情反过来演进得非常有意思：有时候我们对产品的某个走向相持不下，结果经常是某个不写代码的 PM 跑过来说："我刚才自己动手搓了一个 Demo，虽然在 8 个细节上还糙得不忍直视——但你们看，这条路绝对能跑通！"这瞬间就开启了一个完全不同的高维对话。

回过头来看，我们现在的几乎所有研发姿势，跟六个月前相比都已经面目全非了。最明显的特征就是恐怖的开发并行度，以及团队对工作流进行高阶抽象的绝对刚需。

但唯独有一件事从始至终没有变过，那就是人类对产品的"所有权与责任感"。

验证的机制

主持人 Dan Shipper：Fable 也很贵。我在测试它的时候，觉得自己就像是进了一家糖果店的小孩，兴奋地喊着："我要这个、这个、还有这个！"但到了该结账的时候，我每次按回车前都会心里打鼓："这一下会不会直接烧掉我 100 刀甚至更多？"我觉得这种高昂的价格，实际上会给"谁能用它"以及"拿它来干什么"设下一道无形的门槛。你怎么看它的商业性价比？

Mike Krieger:

在专业的软件工程领域，这本账其实算得最清楚。关于定价，内部确实有很多维度的考量。它确实比 Opus 贵不少，但如果你去衡量它单次交付的那些令人惊叹的工作体量，在很多商业层面上，它又便宜得像是在送，当然每个人心里都有一本经济账。

从软件团队的角度看，如果第一阶段是公司让员工接受 AI 编程——模型还早，工具还不到位；第二阶段是搞排行榜看谁用得最多，这会产生不太理想的激励机制；那么第三阶段就是搞清楚谁用得最有效，让这些人尽可能多花，同时有一个清晰的流程不产生浪费。

Fable 这个段位的模型完美契合第三阶段的逻辑。如果你能持续拿出硬核的产出、在业务里真正用它创造出真金白银的价值，公司内部自然会形成一套正向的飞轮预算机制来无限支持你。

在个人使用这边，我自己做测试也是用个人信用卡自费掏钱买自家的服务。这时候你确实会变得抠抠搜搜、更加谨慎。但有意思的是，我周末搓出来的那个媒体追踪器，算下来其实也就比平时多花了一点点钱，做一个个人玩具项目完全没有到动辄烧掉几千刀的地步。

现在真正被价格卡住的，其实是那些不在大厂庇护下、对价格极度敏感的开源爱好者或独立开发者（Indie Hackers）。我给他们的建议是：放手去跑，去看看它在不经历无休止的"来回拉扯"下究竟能一次性交付多少东西。

现在的‘成本’已经进化成了一个多维度的概念——你要算的不仅是‘单次提问的成本’，更是‘彻底把一件事办妥的综合成本’。 Fable 最让我惊艳的地方恰恰在于后者：它总是倾向于一次性把事做对，不需要我坐在电脑前跟它大战八九个回合、绝望地喊着："不对！我不是这个意思！"

主持人 Dan Shipper：它最震撼我的一点就是，你甩给它一个宏观任务，它交卷的时候，你会发现它连每一个犄角旮旯的细节都帮你推演过了，这种窒息的细腻感是以前在任何模型上都没体验过的。你能透露一点训练上的内幕吗？到底是什么喂出了这么恐怖的洞察力？

Mike Krieger:

在很多层面上，它是团队大量工作的延续——我对我们的预训练和 RL 团队只有顶礼膜拜。对我来说最明显的进化是一种"对整个系统的感知"，而不仅是对当前这段工作的感知。

我经常被它的一些神仙操作震撼到。比如它刚写完一段代码，会突然主动弹出一句："大佬，我知道在真实的生产环境里，这里的配置可能会不太一样。你那个功能开关到底开了没？要是没开，我刚才写的这玩意儿上线可不生效。"

或者看它对代码审查的反馈做出反应——不管是来自人还是来自其他 Claude——它不简单地说"哦对，这是个问题，我去修"。它真的会去想在当前保真度下要不要接受一个风险，或者反驳另一个审查者——往往就是另一个 Fable 模型——说"我理解你的意思，但我要反驳，我认为不对"。

让模型有这种判断力极其重要。如果我要指出它进步最大的地方，就是它不立刻膝盖反射式地说"对对对，我去修"——它更像"让我想一想。我还是不同意。"这种能力非常有用。

有 Claude Code 这样的产品在市场里是极其宝贵的，因为你有活生生的东西，人们可以说"这是模型做得好的地方，这是模型做得不好的地方"。我们把 Every 的伙伴们在我们最高优先级信任的反馈来源里排在很靠前的位置，因为他们让模型经历反复的多日高强度任务，这对我们思考下一代需要改进什么非常关键。

主持人 Dan Shipper：Chat 是对这个模型来说最合适的交互界面吗？它不是那种回合式的，更像是把事委派给某个人。这会怎么影响你应该怎么用它、或者你怎么看这个界面？

Mike Krieger:

发送消息和接收消息这个基本模型不完全错，但我们需要在一些方向上进化。

第一：你的笔记本电脑是正确的地方吗？这就是之前我提到那个移动端对个人项目多么好用的地方。Claude Code 的创造者在这些模型怎么被使用上总是领先半步，大概九个月前我跟他聊天，他说："我把我大半的 Claude Code 的工作移到移动端了。"我当时持怀疑态度，但特别是到了 Fable 这个级别，因为它可以保持会话进行、我们在 Anthropic 有远程开发机，所以第一个点是：把工作发生的地方跟我在讨论工作的地方解耦。

第二点接着我之前说的：你怎么拿 Fable 所有讨论过、决定了、建议了的东西，让它变得可以理解？这是我们正在思考的领域。有一些 skill 可以让它画图表，但目前的聊天 UI 不足够，Fable 有时候会给你超大量的文本，你要出去散个步才能准备好去理解它。我开始做的一件事是："你在这个事上的上下文比我多得多。咱们能不能倒回去——做更多对复杂性的渐进式披露？"

第三个是多人模式，这块我们还在早期摸索。在某种程度上，因为我们有 DRI 和所有权区域结构，通常一个重要的活是流在一个人和几个 Claude 之间的。但有些情况下就不那么明显——也许是事故响应，多个人在同时思考；或者多个交叉领域汇合的项目。聊天分享能解决一部分，但我觉得未来会有这种需求：你有一个独立的 Claude，由一个人启动做了很多工作，但它能不能跟团队里所有其他正在做的工作保持同步？这是下一个有趣且发掘不足的前沿。令人兴奋的是，模型现在已经有能力成为真正的队友，而我们几乎是在因为没有正确的抽象而拖它们的后腿。

主持人 Dan Shipper：这让我想到我大部分时间用这个模型都是在搞自己的 vibe coding 项目，但当你在组织内使用它的时候有一个问题：我真的理解模型刚做的所有部分吗？我怎么把模型刚做完的东西的上下文转移到我的脑子里？这是一个大瓶颈。你怎么想划定"我到底需要知道多少"的那条线，以及怎么确保你有足够的上下文来感到安心？

Mike Krieger:

两大块。第一块是验证。我今年初彻底被验证说服了，这跟以前我全职写代码时的一件事相通：找到最紧的开发循环来围绕你的想法。在 Instagram 时代，有时候意味着在 Xcode 里做一个新的构建目标，只包含那个屏幕和合成数据，只对这个循环迭代。我会辅导新来的工程师说"如果我只教一样东西，就是为你的项目搞出这个来，事情会快得多"。

现在的情况是：每次我搭东西的时候，我怎么确保 Claude 的每一个 PR 都附带了照片或视频——不管是 iOS PR 还是 UI 层的改动。这帮你获得了很多信心。Fable 可能自己跑去工作几个小时，回来跟你说"我做完了"，然后你看到"这里是全部 UI 的截图画廊"，就非常有用了。你会说"截图八里那个错误状态——我其实从来没见过，但我能看出来如果用户碰到了会怎样。我们把这个改一下。"做全面的验证是我们内部一直在大力搞的事情。

第二块：你最终还是要为你做的工作负责的。很多人每天都在用 Claude，但仍然有种可问责性——"Claude 也许写了代码，但你需要理解做了哪些宏观决策"。我看到相当多的工程师开始了一种实践：Claude 做完了活，但紧接着有一场后续对话——"我能不能确保我透彻理解了你做的所有取舍？"不管产出的是什么小写的 artifact，只要能让它变得容易理解，就值得做。

开会的时候很有意思——有人会说"这个 PR 我准备好了"，另一个人说"你做了 X 还是 Y？"然后有那一瞬间的停顿："说实话，我不太确定——合入之前我去搞清楚。"适应这种新常态，搞清楚怎么跟它共事，是我们所有人都需要学的。

主持人 Dan Shipper：你刚才提到的这个"验证循环"太有想象空间了。除了自动化截图和屏幕分享，你们还在探索哪些更硬核的思路？

Mike Krieger:

我们的核心切入点是：你能不能做到让它跑真实的流程，而不是只注入一个静态数据？当系统越来越复杂，这变得越来越难。比如，我们必须要让 Fable 搓出来的 iOS 应用，能够一键登录到我们的模拟环境里，调用的全都是最真实的测试账号和高保真的真实流数据。但同时，我们又不希望它在测试一个区区按钮的微调时，每次都要苦哈哈地去跑一遍长达 8 步的繁琐新用户注册流程。所以，我们专门为 AI 开发了一套特殊的高级权限和加密共享密钥体系，让 AI 能够一键越过前置关卡，直接切入最核心的业务现场，让它的测试体感和真实用户在手里的体验做到近乎像素级的贴合。

第二块是已知路径和当前改动路径的组合——前者对于回归测试非常有价值。我们已经把一些理想化的工作流用文字表达出来，Claude 可以反复检查这些。而 Claude 在表达它当前在做的那部分改动的意图上也做得非常好，所以这部分会被深入演练。这两者的组合很重要。

视觉验证也很关键，而视频是给 Claude 的一个极度未被充分利用的工具。我最近在做一个原型：把 Claude 构建出来的东西做成视频录像交给它，配合 FFmpeg，看着它自己逐帧分析，然后说"这个动画有卡顿，我去修"。截图永远不会捕捉到这个，因为截图错过了那个瞬间。

对于那些不容易端到端测试的部分，让 Claude 构建一个可靠的模拟后端，或者用现成的，也非常有意思。在 Artifact 的时代，我们在预 LLM 时代就有非常全面的测试。每一块基础设施都有一个很好的内存实现，可以在单元测试里快速运行。现在把这件事延伸到 Claude 的领域：我在做一个有相当稳健后端的东西，在我的开发服务器上不好启动，它一次性就搞了一个很好的替代品。随着时间推移，这个替代品随着代码本身的演进也在演进。以前我会说"这要同步太费劲了"。现在我只是想"Claude 会读变更，适配替代品，保持两边同步。就行了。"

主持人 Dan Shipper：有一些非常有趣的架构：当你收到一个 bug，一个 agent 自动去修，修完给客户发消息说"修好了"。你注意到在 Fable 上这种流程有变化吗？

Mike Krieger:

几个方面。在人与 Claude 的层面上，有一件事我反复看到：如果有人在我们 Slack 的反馈频道里报告了一个 bug，这个线程被传入 Claude Code 的会话。因为有 Slack MCP，它可以真的拉取那个线程，然后以我的身份发回："这是 Mike 的 Claude，我修好了，这里是 PR 链接。"但然后他它会说："别急——还没上线。等上线后我会再通知你。"几个小时之后："这次部署发出去了。你应该去试试修好了吗？"这种闭环的跟进是相对新的。我有过好几个长期运行的 Claude Code 会话在以我的身份互动。我在里面也放了一些免责声明。

第二块回到了我们刚才聊的那个品味和判断。一个层面是"有 bug 反馈，所以我要去修"，另一个层面是有好的判断力。我周末遇到一个情况，我们有一个内部系统运行了好一阵子没重启，出现了内存泄漏。好的判断是："Mike，这是周末。你重启一下服务器，现在就能解决，我会异步开一个 PR 做长期修复。"如果你要 Claude 介入这种 bug 到修复的流程，你真的希望它理解任何好的 SRE 或工程师都会理解的东西：解决眼下的问题，至于要不要换平台重构那另说。理解这个平衡非常重要。

人们应该用这个模型来构建什么

主持人 Dan Shipper：这一代新模型最让人热血沸腾的地方在于，它们不仅仅是抬高了下限，让任何没有背景的普通人都能一键搓出属于自己的 App，更重要的是，它们同时掀翻了专家的天花板。如果你现在是一名职业工程师或者创业团队的创始人，你完全有能力去单枪匹马搞定以前连想都不敢想的硬核项目。在你看来有哪些可能大家目前还没缓过神来、但其实完全可以用这一代模型去闭眼冲的前沿领域？

Mike Krieger:

几个想法，也许可以先从好玩的说起。人们总有很多关于怎么把他们的世界的复杂性表达出来的创意想法，每个领域都有一个你特别了解的东西，而总会有些版本是"我怎么把它解释给别人？我能不能把别的地方的技术用到我这上面？"拿我太探来说，她最近正在跨界死磕环境工程——主攻地热能方向，那里面充斥着令人头秃的复杂数学模型和流体力学模拟。但随着 Fable 这一代推理模型的断代式升级，她居然成功地把原本完全不属于她专业范畴的硬核技术，完美地嫁接到了她自己的科研工作中。现在，她甚至能指使 Fable 去帮她搭建一套全量 PyTorch 的端到端深度学习模拟系统——这放在以前，对她一个非计算机专业的学者来说，简直是天方夜谭。

第二块是它组合软件来解决对你自己非常独特的问题的能力。内部我们做的大量工作是把我们尽可能多的内部系统 MCP 化，配合正确的权限结构和部署设置。外部也有很好的 PaaS 平台，你直接问 Claude 就行，它会帮你搭好。但我特别喜欢那种"做了一个你一直想要的东西"的感觉。

还有一件事是最近彻底震撼到我的。我们内部有一位商业化团队的同事，她并非技术出身，但她把 Claude 深度整合到了她日常业务流程的每一个毛细血管里。最可怕的是，她没有在完成了 V1 版本后就浅尝辄止——她就拿着这套工具，在后台默默跟大模型一起，连着高强度迭代了几个月。

这恰恰揭示了这一代推理模型最被严重低估、也最性感的一点：在前几代模型的温饱线里，项目往往存在一个"复杂度天花板"。一旦你的业务代码或者逻辑堆叠到了一定体量，大模型就会开始"顾头不顾屁股"，你再想塞进新功能，它就会疯狂报错，直接把你之前的已有架构给活生生改烂。

但现在，这位不懂代码的女同事，在 Fable 这个级别的模型加持下，已经把她的系统在后台连着养了几个月。你能清晰地看到那个软件像一个活生生的有机体一样，在 AI 的灌溉下持续生长、生长、疯狂进化。 如今，她已经开始把这套极其庞大、复杂的自建系统，向我们公司整个商业化部门进行全量部署了。

一个完全没有程序员背景的普通人，如今能够凭借一己之力，把一个长周期软件的复杂度天花板顶到这种令人窒息的高度——这在人类科技史上，是前所未有的神迹。

动态工作流

主持人 Dan Shipper：你说的另一个非常强大的东西是动态工作流，跟我展开说说吗？

Mike Krieger:

我们在内部经常会魔改出一些这类前沿工具，然后我就会在办公室里死命去"催更"那些写工具的工程师："这玩意儿到底什么时候能公开发布？"有时候确实是因为一些底层的硬核基建限制导致只能内部先跑，但我们正在竭尽全力把这些宝贝早点推向市场。对我来说，动态工作流绝对是属于惊艳全球的那一款。

Fable 这样的模型之所以特别强大有两个大原因。一是它能帮你为深度、有意义的工作创建脚手架。我用它干过的最疯狂的一件事，是直接甩给 Fable 一个挺复杂的内部 Python 项目，让它帮我把一整套核心业务完整地重构成 TypeScript 版本——当时我们有一个非常具体的线上部署考量。

当年在 Instagram 的时候，高层也曾极其严肃地讨论过："我们要不要把 IG 整个底层的代码用 Hack 语言全部重写一遍，从而无缝并入 Facebook 的基础设施里？"我们当时的结论是：打死也不干，这根本不具备现实可操作性。

但就在上周末，我面对一个同样盘根错节的核心代码库，我直接在后台丢给它一套动态工作流，然后我就拍拍屁股去过周末了。我给它设定的工作流是：深入理解现有代码，生成一份很像 spec 的文档说明一切怎么运作，然后逐个模块翻译，增量测试，做对抗性验证，检查遗漏项。等我周一收心回来拉开电脑一看，奇迹发生了——它已经是一套跑在 TypeScript 和 Bun 开发工具链上的崭新系统了，而且在某些架构层面上，它甚至比我的 Python 原版写得还要优雅、还要快。

另一个更性感的长远原因在于：随着动态工作流的普及，在不久的将来，我们可以把不同难度的子任务，无缝分发给对应复杂度的模型梯队去跑。

主持人 Dan Shipper：对于没用过的人，告诉我你是怎么做出那个工作流的。你是怎么设计的？怎么确保它是好的？

Mike Krieger:

整个调教过程其实充满了极客式的迭代趣味。我最开始只是打开 Claude Code，对它说："兄弟，我手里现在有个极其棘手的重构大活——来，我们先联手设计一套全自动的工作流方案。"

它给我展示了计划，我说"这很接近了，但我需要三到四个额外的验证层次来检查遗漏的功能"。然后它就回复："这是你的方案。准备好了吗？"工作流是代码表达的，我觉得这一点非常有价值，你能看到它到底准备怎么做。

在它做了完整移植之后，我有几个后续的小调整项，我就把它们作为迷你工作流，从上一个工作流的输出基础上继续。这回到了那个问题：chat 是不是正确的界面。工作流是一个好的中间地带，你用 chat 来编排它，但它是用代码表达的，然后在一个干净的 UI 里面执行，每一步都在展示发生了什么。我觉得我们以后会用类似的方式来把长视野的工作和 chat 连接起来。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。

对话 Instagram 创始人：Anthropic Fable 5 发布，纯手工写代码的时代一去不复返

要点总结

精彩观点摘要

Fable 如何彻底重塑了 Mike 的工作流

什么时候用 Sonnet，什么时候用 Fable

Fable 5 催生的 Agent-native 架构

构建成本已经坍缩

软件工程死了吗？

验证的机制与价格

动态工作流

Fable 如何彻底重塑了 Mike 的工作流

什么时候用 Sonnet，什么时候用 Fable

Mike 周末做的媒体追踪器揭示了 agent-native 架构的什么

构建成本已经坍缩

软件工程死了吗？

Anthropic 工程团队今天如何工作

验证的机制

人们应该用这个模型来构建什么

动态工作流

深潮TechFlow的精選文章

目錄

相關文章