OpenAI网络团队：MRC协议如何重塑AI超级计算机，让训练更稳定、更高效

撰文：Techub News 整理

在OpenAI最新一期的播客节目中，核心网络团队的Mark Handley与负载系统工程师Greg Steinbrecher深入探讨了AI训练基础设施面临的核心挑战，并分享了他们为解决这些问题而开发的「多路径可靠连接」（MRC）协议。这场对话揭示了前沿AI研究背后鲜为人知的系统工程博弈，以及如何通过重新设计网络协议，为下一代巨型模型的训练铺平道路。

从量子计算到AI超级网络：一位物理学家的转型

Greg Steinbrecher的职业生涯始于一个宏大的目标：理解复杂系统并建造量子计算机。然而，在攻读博士期间，他意识到量子计算机尚未成为现实，转而关注用于控制量子计算机光子的芯片设计。他灵光一现：“这看起来有点像网络交换机。如果我们用它来做网络交换机呢？”

这个想法将他引向了数据中心网络的世界。但他很快发现，学术界对真实数据中心负载的了解甚少，模型过于简化。为了接触真实问题，他争取到一家工业公司的资助，并开始构建最初的网络硬件，以探索数据中心网络的真实需求。

他发现，传统的数据中心网络硬件仍有巨大的优化空间，无需他那精巧的光学芯片。恰逢此时，AI浪潮兴起，OpenAI需要建造庞大的GPU集群及其网络。Greg的角色也从编写模拟软件，转变为直接编写让GPU彼此通信的软件，并最终加入OpenAI，更贴近模型训练的实际工作。他的团队核心任务就是确保GPU被高效利用：模型训练是否最快？网络是否成为瓶颈？故障发生时如何高效重启？如何绕过硬件 quirks？简而言之，就是“榨取硬件每一分性能”。

AI训练：网络协议的“最坏”挑战

Mark Handley的背景则植根于互联网标准。他曾致力于让互联网支持视频会议，其参与制定的标准如今被4G/5G网络广泛采用。然而，标准化需要全球共识，过程漫长。数据中心网络则不同，你只需要与建造它的人达成一致，这让他看到了创新的空间。

AI训练的兴起彻底颠覆了传统数据中心的设计理念。传统的“超大规模”数据中心为网页时代服务，其设计团队与具体工作负载是分离的，目标只是提供“计算海洋”。而AI迫使人们以截然不同的方式思考。OpenAI尤其认识到，系统设计是模型训练不可或缺的一部分，基础设施团队与模型团队必须进行“协同设计”。Greg的团队与研究人员并肩而坐，每日讨论如何让工作负载最佳适配现有服务器。他们为大型训练任务值班，半夜被叫醒处理故障。正是这种紧密协作，让他们深刻理解了痛点所在，并思考下一代如何解决。

AI训练对网络提出了“最坏情况”的挑战。传统互联网通信依赖“统计复用”：大量独立的通信流共享网络，流量趋于平滑平均。但AI训练恰恰相反：它是让世界上最快的数千个GPU协同完成单一任务。GPU间的通信本身就是计算的一部分，它们需要同步交换数据以达成每一步计算结果的共识。Mark指出，这简直是“你能想到的最糟糕的网络负载”。

关键在于，这不是关于平均通信速度，而是关于绝对最坏情况。当数千个GPU同时通信，产生数万甚至数十万个网络流时，你必须审视整个网络，找出那个瓶颈最严重的链路。这一条链路的速度将决定所有GPU的工作速度和数据传输时间，因为一切都在同步进行。他们不再能依赖“大数定律”的平均统计优势，而是受制于“尾部之尾”——即第100百分位的统计（P100）。这导致了完全不同的系统需求。

另一个问题是规模带来的必然故障。当系统变得极其庞大，链路故障、交换机宕机重启将成为常态。任何一个故障都会影响网络流量。在只关心“第100百分位”的情况下，一次链路故障可能导致路由重新收敛前的长时间“故障窗口”，甚至导致单个通信传输失败，进而引发整个训练任务崩溃。因此，他们需要设计一种能抵御瞬时拥塞和硬件故障的网络协议，让系统在故障发生时“几乎无感”地继续运行。

故障率随着规模线性增加。Greg用简单数学说明：如果故障是独立的，系统规模翻倍，平均故障间隔时间就会减半。更重要的是，网络中组件数量远超GPU数量。一个GPU连接到网络适配器，适配器中的光学收发器可能有多个激光器，对端也有激光器。仅连接GPU到第一跳交换机，激光器数量就已是GPU数量的一个数量级。再加上多层交换，网络内部的组件数量比网络边缘（GPU）多出好几个数量级。为了提供足够的带宽，他们必须建造庞大的网络，这意味着网络中拥有数百万条光学链路。故障无处不在。

MRC：化解拥塞与故障的“自愈”网络

为应对这些挑战，他们开发了「多路径可靠连接」（MRC）。其核心洞察包含几个部分。

首先，通过将数据包“喷洒”到多条路径上，可以在网络中实现非常均衡的负载平衡。如果网络拓扑容量足够，就不会产生热点。但这也会带来问题：数据包在不同路径传输可能顺序错乱（重排序）。如果发生拥塞导致丢包，就很难判断数据包是丢失了，还是因为重排序而尚未到达。

于是，他们引入了第二项技术：“数据包修剪”。当网络发生拥塞、队列溢出时，传统做法是丢弃整个数据包，这会造成不确定性。MRC的做法是修剪掉数据包的载荷（payload），只转发一个极小的包头到目的地。目的地可以立即请求重传，从而完全消除了因拥塞丢包还是因重排序等待的 ambiguity。

MRC对终端用户意味着什么？最直接的是，OpenAI将能更快地提供更好、更智能的模型。MRC加速了研究和部署的每一个环节。它让个体用户无需担心任务失败、任务调度或性能因与其他任务同处一个机架而波动。它让前沿模型的训练更快、更可靠，整体 pipeline 运转得更快更稳。用户将看到越来越令人兴奋的产品发布 pipeline。

MRC并非凭空发明，而是基于过去几十年的研究成果，将已有技术组合成一套功能集。去年，他们终于将其部署上线，从硬件到位到实际训练模型运行，仅用了几个月。

结果显著：他们避免了之前讨论的拥塞问题。更重要的是，当网络中某处发生故障，所有经过该处的流可能都会受影响，但影响微乎其微。在几个网络往返时间内，系统就会停止使用故障链路。链路故障导致网络瘫痪的问题就此消失。网络接口端的流会在传输过程中自动避开故障，就像“自愈”一样。

Mark补充道，传统网络中链路宕机时，一侧或两侧的交换机需要通知所有邻居，邻居再通知它们的邻居，这是一个分布式系统问题，通常由边界网关协议（BGP）这类 gossip 协议解决，需要收敛时间。MRC打破了这种协调需求，每个端点都能独立、快速地检测到“不应使用该路径”并立即停止使用。这比等待中央权威（单点故障）分发信息要快得多。收敛过程可能需要数秒甚至数十秒，而MRC能在毫秒内让所有人察觉并行动。

Greg激动地描述了部署场景：数据中心建设期间，由于大量人工操作（如光纤连接），链路频繁上下波动，频率远超自然故障。但他们毫不在意，甚至没有察觉。MRC自动检测并切换路径，堪称神奇。

MRC带来的另一个好处是，既然它能自行处理故障，他们便决定关闭网络中的路由协议，在最大规模上使用完全静态的路由。一些路径坏了？无所谓，MRC会找到仍能工作的路径。这消除了网络管理中一整块的复杂性。他们不再需要关心交换机控制平面是否收敛，因为它根本不需要。配置在启动时设定，此后路由表永不更改。

开放标准与行业协同：让基础设施成为共享命运

这一重大成果是与众多合作伙伴共同努力的结果。他们与微软（负责建造Fairwater数据中心）、NVIDIA、Broadcom、AMD和英特尔合作，标准化MRC规范，并为新的超级计算机建造硬件。

MRC的稳定性带来了巨大优势。Greg回忆早期，网络团队常因训练中断而愁容满面。如今，关于MRC集群稳定性的反馈“ universally positive”，研究人员不再需要为此操心。统计数据显示，故障一直在发生，但他们却感知不到。

Greg坦言，虽然他们仍在 pushing infrastructure 的极限，研究人员完全忽略基础设施的理想世界可能永远不会到来，但每次胜利的标志就是研究人员不再需要知道某个集群使用什么网络协议。MRC确实帮助他们移除了持续扩展和交付更好模型的关键障碍之一。

他们决定将MRC开放给所有人使用。规范将通过开放计算项目（OCP）作为开放标准发布。OpenAI坚信开放标准和开源的力量。他们的网络建立在以太网（一个无私的开放标准）之上。当行业能跟上他们在挑战性领域所做的努力时，他们自身也会受益。如果大家都在部署他们认为的最佳解决方案，这对所有人都有利。

Mark从个人角度表示，如果AI建设的供应链因追求微小优势而投资完全不同的技术和底层硬件导致分裂，将是真正的遗憾。他非常兴奋MRC将成为开放标准，这不仅会造福OpenAI之外的人，也利于整个行业朝同一方向推进。“基础设施是整个行业共享的命运。”开放此技术并带动所有人前进是一件非常好的事。

Greg也认同，在计算资源永远不足的背景下，协作最大化利用资源对所有人都有利，远比将其视为有限资源并各自闭门造车要好。以太网等协议的历史证明了共享带来的巨大益处。“我们要做的事已经够难了，没必要每个人都从头 reinvent the wheel。”

MRC的边界与未来：简化网络，聚焦效率

MRC的边界在哪里？它是一个灵活的、建立在以太网之上的标准。随着以太网扩展，MRC也会扩展。以太网是设备间通信的协议，MRC位于其上，融合了静态路由和拥塞控制。网络工作永无止境，总有方法可以改进，让网络更公平。网络存在根本性限制，例如光速是已知的速度上限。但随着每个链路速度不断提升，操作点会不断变化，需要持续的工程努力以确保最佳利用每一代硬件。但MRC为他们提供了一个灵活而强大的基础，以应对未来几代的挑战。

关键是，MRC基于以太网。以太网本身在过去40年不断演进，他们正在利用全球网络产业的全部发展成果，希望继续 riding that wave of innovation。由于MRC将智能推向网络边缘，只要以太网持续扩展，他们网络核心就能随之扩展，至少在近期未来没有明显理由阻止这种扩展。

他们所做的一项关键工作是将复杂性移出网络。如前所述，他们关闭了路由，每个数据包实际上是通过网络进行源路由的。他们使用IPv6分段路由技术，让每个数据包的地址列出其通过网络时经过的精确交换机序列。这意味着交换机本身可以非常“ dumb”。简化网络核心，对于可靠地扩展系统有巨大好处。

他们继续基于以太网建设，是因为它是开放标准，整个行业都采纳并推动它。他们希望MRC也能如此，成为应对AI系统挑战的下一层，并被广泛采用。他们认为，如果MRC仅限于OpenAI独家使用，效果不会这么好。

MRC的另一大优势是，由于其多路径喷洒特性，他们可以建造更简单、更小、设备更少的网络。这并不显而易见，但他们能够建造更扁平、交换机层级更少、功耗更低、成本也更低的网络。每瓦特所能做的有用工作因此上升，因为额外的电力没有被浪费在额外的交换机层上，而是更多地直接供给GPU用于实际工作。

随着模型从文本发展到多模态，系统需求也急剧增加。需要移动的数据量、延迟限制都变得更加严苛。网络速度稍慢所造成的“后悔”随着训练集群规模增大和其余部分的优化而越来越严重。OpenAI的优势在于众多聪明人朝同一方向推进：研究人员优化GPU上的工作，使其更快；这意味着网络传输的时间限制更紧。如果网络落后，他们的工作就无关紧要。因此，网络工作永无止境。

Greg特别指出，如果没有MRC，仅仅增加路径数量实际上会让尾部统计变得更糟。因为你是将相同数量的“球”扔进更多的“桶”里，最差桶与平均桶的比例会恶化。Mark提到的确定性路由以及在这种大量链路上进行精细负载平衡，对于避免陷入糟糕境地至关重要。整个技术栈的各层都紧密耦合，底层网络硬件人员需要了解工作负载层的情况，工作负载层的人员也需要了解网络交换机内部的情况。没有这种垂直整合和共同方向的推进，就无法突破系统规模的边界。

最后，谈及数据中心的地理分布乃至太空计算的设想时，Mark认为在他们Stargate数据中心进行的那种训练很难在太空实现，延迟将是巨大问题，故障率也是问题。地球上每天都有技术人员修复设备，这在轨道上很难实现。Greg从物理学家和梦想家的角度觉得太空计算很酷，但实践者的一面认为在地球上做这些事已经足够艰难。每天他们都在多个维度 pushing limits，即使在地球上启动MRC也是一项巨大努力，需要与多家公司的工程师紧密协作，有时还需要亲手调试机器。这些系统在地球上建造、运行和优化已经够难了，增加额外复杂性需要极强的理由。所以，结论是：“请建造更多的地面计算中心。”这正是他们努力的目标：建造大量计算能力，以增加世界的总智能量。

免责声明：本文章仅代表作者个人观点，不代表本平台的立场和观点。本文章仅供信息分享，不构成对任何人的任何投资建议。用户与作者之间的任何争议，与本平台无关。如网页中刊载的文章或图片涉及侵权，请提供相关的权利证明和身份证明发送邮件到support@aicoin.com，本平台相关工作人员将会进行核查。