AWS 用随机图理论重写数据中心网络：Leaf-Spine 架构的终结者

2026 年 6 月上旬，AWS 杰出工程师 James Hamilton 发表了题为《Flat Datacenter Networks at Scale》的技术文章，详细披露了 AWS 内部一项持续了三年的基础网络架构革新——RNG（Resilient Network Graph，弹性网络图）。

这项革新的结论非常直接：AWS 正在用一种基于随机图理论构建的扁平数据中心网络，替代已经统治了行业三十年的 Leaf-Spine（Clos 架构）设计。到 2026 年初，RNG 已经成为 Amazon 全球绝大多数新建数据中心的默认网络拓扑。

对于任何对大规模系统设计感兴趣的开发者来说，这篇文章都值得认真研读。下面将该项目的前因后果、技术方案和实际效果做一次全面的梳理。

背景：Leaf-Spine 时代的终结

数据中心网络在过去三十年里几乎没有发生根本性变化。从 1980 年代中期开始，Fat-Tree（折叠 Clos）拓扑成为了行业标准。它的结构是分层的：服务器连接到 Leaf 交换机，Leaf 交换机连接到 Spine 交换机。随着规模扩大，你增加更多 Leaf 和 Spine 交换机，保持层级关系不变。

这种架构有几个根深蒂固的问题：

布线复杂度：大规模 Clos 网络的布线极其复杂。交换机之间的连接需要精确规划，任何布线错误都可能导致性能下降
带宽碎片化：从一台服务器到另一台服务器，流量必须经过 Leaf → Spine → Leaf 的路径。如果上游 Spine 链路拥堵，即使 Leaf 之间有其他空闲路径也无法利用
容量阶梯：扩展时往往需要跨越"容量阶梯"——从 N 到 2N 的升级不是线性的，需要一次性增加大量交换机
单点风险：虽然 Clos 具有冗余性，但在某些故障模式下，特定 Spine 交换机的失效仍然会导致不成比例的性能损失

关于"在拓扑的哪一层引入随机性"的思考有一个经典前奏。2009 年，来自 UCSD 和微软研究院的 VL2 论文（SIGCOMM 2009，2019 年获得 SIGCOMM Test of Time 奖）提出在协议层使用 Valiant Load Balancing——随机化流量分配以均衡负载。而 2026 年的 RNG 则将随机化直接下沉到了链路硬件层。

—— 广告 ——

RNG 的技术之旅

RNG 项目并非一蹴而就。从 2023 年开始，AWS 工程师 Giacomo Bernardi 开始探索 Penrose 拼贴（一种非周期性的平面镶嵌图案）在扁平网络中的应用。Ratul Mahajan 加入后，模拟显示这种方法既不可靠也不高效。

2024 年中，团队转向纯粹的随机性方案。内部玩笑是："只要随机就好了"（"just be random!"）。

随后理论计算机科学家 Seshadhri Comandur 加入团队。他的背景在随机图理论领域至关重要——我们需要理解为什么"随机连接"在实践中表现得几乎和精心设计的拓扑一样好。1991 年 Friedman 的结果证明，随机连线的网络在与显式构造的扩展图（Expander Graph）相比时，几乎是同样优秀的扩展器。

三个核心难题的解决

1. 路由——Spraypoint

胖树网络中，路由是确定性的一对一映射。你可以精确知道哪些路径可用。但在随机图中，路由必须适应图的结构。AWS 团队开发了 Spraypoint——一种利用扩展图特性在多条等价路径上散布流量的路由方法，不会给路由器内存造成过大负担。

2. 布线——ShuffleBox

这是整个方案中最巧妙的部分。AWS 设计了一种名为 ShuffleBox 的无源光学设备。这种设备内部已有特定的接线结构，再加上 ShuffleBox 之间的随机化跳线，共同创建出了一种拟随机图（quasi-random graph）——它的行为在统计上几乎等同于真正的随机图，但在物理上可以通过制造和布线实现。

3. 运维——工程化落地

同样的路由器、同样的光模块、同样的操作系统。RNG 的差异只在拓扑层面。AWS 团队开发了专门的软件工具，将抽象的图结构翻译为端口级别的安装指令和故障诊断指南。在物理布线之前，性能模型就可以进行数学验证。

实际效果

AWS 在 2024 年建设了第一个 RNG 数据中心（爱尔兰都柏林附近）用于概念验证。2025 年拆除了该网络，完善设计后在德国和西班牙新建了两个 RNG 数据中心。到 2026 年初，RNG 成为 Amazon 全球新建数据中心的默认设计。

与等效的 Fat-Tree 架构相比：

指标	改善幅度
交换机数量	减少 69%
吞吐量	提升 33%
网络能耗	降低 40%
运营成本	降低 27%

弹性优势

RNG 最吸引人的特性是它的故障弹性比率。在 Fat-Tree 中，一台 Spine 交换机的失效可能影响大量流量路径，因为故障的影响是非线性的。但在 RNG 中，没有单台交换机是关键的——每损失 1% 的交换机，网络容量大致损失 1%。这种"可预测的比例降级"让运营团队可以安心接受渐进式故障，而不必对每一个硬件告警都做出紧急响应。

连续可扩展性

RNG 支持增量扩展：你可以随时添加额外的交换机或连接，而不必重新设计拓扑或在容量阶梯处跳跃。没有"扩容时不得不浪费一半的新增容量"的问题。

更广泛的行业影响

一位前 AWS 房地产开发人员在讨论中指出，RNG 最有趣的衍生影响可能不在网络本身，而在数据中心园区规划。连续可扩展性改变了人们思考土地使用、建设分期、资本部署的方式。因为网络不再是数据中心建设的硬约束了。

与此同时，网络界的反应也很有趣。ipSpace.net 的博客标题直接用了《Goodbye, Leaf-and-Spine Networks?》。行业正在认真评估 RNG 是否能够从 AWS 的一个内部实验，成为下一代数据中心网络的主流范式。

思考

RNG 的启示可能超越了网络工程。它证明了：一个被接受了几十年的"最佳实践"不一定是最优解——很多领域的所谓标准，只是在某一个时间点上被固化下来的局部最优。Leaf-Spine 在三十年前是最佳方案，但计算机体系结构和数据中心的规模已经发生了根本性变化——反而是三十年前存在于数学论文中的随机图理论，在今天成为了更为合理的工程选择。

James Hamilton 在回应讨论时的一段话也值得品味："也许教训是，尽可能将优化下沉到最底层——以消除那些非本质上冗余的复杂性。"这句话适合每一个做系统设计的开发者反复咀嚼。

原文来源：James Hamilton 的博客 — AWS 杰出工程师关于 RNG 数据中心网络的技术详解。同期论文见 arXiv:2604.15261。