LLM 不再「简单」：从 Transformer 堆叠到异质化架构的进化之路

原文来源：Ian Barber's Blog — Meta 前工程师 Ian Barber 回顾 LLM 架构从简单 Transformer 堆叠走向类似推荐系统的复杂异质化架构之路，以及可组合性（composability）如何成为新时代的核心挑战。

2022 年，如果你打开一篇 LLM 论文，大概率会看到一张熟悉的图：N 层 Transformer 编码器-解码器堆叠起来，每一层长得都一样，干净、对称、优雅。

2026 年，如果你打开一篇 SOTA 模型的架构图，你会看到一个更像「意面图」的东西——不同类型的注意力机制、混合路由策略、多模态嵌入、异构计算单元交织在一起，跟推荐系统的架构复杂度有得一拼。

Meta 前工程师 Ian Barber 近日发文《LLMs Are Complicated Now》，精准捕捉了这一趋势。

两条分岔的技术路线

Barber 回忆起 2022-2023 年在 Meta 工作的经历。那时，公司内部有两个截然不同的 ML 范式：

LLM 路线（Llama 等） — 干净的 Transformer 重复堆叠，结构简单、优雅、可预测
推荐系统路线 — 复杂的异质化图结构，各组件形态各异、彼此耦合紧密

当时的普遍认知是：推荐系统之所以复杂，是因为它需要处理大量特征、实时代价、业务约束。而 LLM 之所以简单，是因为「你只需要堆 Transformer」。

现在回头看，这个认知已经过时了。

「好在，业界已经解决了这个问题——通过让 LLM 也变得足够复杂。」

—— 广告 ——

LLM 变得更复杂的 4 个维度

1. 注意力机制的爆发

「Attention is all you need」的原始论文定义了一种注意力机制。如今，我们有几十种变体：

查询分组（Grouped Query Attention） — 多查询头共享 Key/Value 以降低 KV 缓存
压缩注意力（Compressed Attention） — 对长序列进行压缩后再计算
稀疏注意力（Sparse Attention） — 只计算部分注意力矩阵
线性注意力（Linear Attention） — 以线性复杂度替代平方复杂度
滑动窗口注意力（Sliding Window Attention） — 局部窗口 + 全局 token

一个现代模型通常不是只用其中一种——它可能在浅层用滑动窗口、中层用稀疏注意力、深层用标准注意力，同时还在某些层穿插 MoE 路由。

2. MoE 的全面扩散

混合专家（Mixture-of-Experts）已经从简单的 FFN 路由扩展到了几乎所有可路由的组件：

FFN 层路由 → 注意力块路由 → 残差流路由
不同专家之间的负载均衡策略也越来越精细化

如果说 2024-2025 年的 MoE 还是「稀疏 FFN 的流行实现」，那么到了 2026 年，MoE 已经演变成了一种通用的架构设计范式。

3. 多模态的深度集成

早期多模态模型的做法是：训练一个文本 LLM，然后把视觉编码器「粘」上去。

现在不是这样了。

视觉和音频编码器不再是附加组件——它们被直接混合到了核心架构中。多模态数据的融合发生在 Transformer 的各个层级，而不是在输入层做一次拼接就完事。

4. 多 GPU 推理的通信复杂度

当模型大到必须跨多张 GPU 部署时，通信操作就在模型内部创造了额外的边界。这些边界不仅影响推理速度，还影响了架构设计的约束条件——你设计一个模块时，必须考虑它在分布式环境中的通信代价。

与推荐系统的惊人相似

Barber 指出，推荐系统的复杂度来源是「能力扩张」和「推理效率」之间的持续拉锯。

LLM 现在走了一模一样的路。性能优化从"可选项"变成了"必要条件"——它们之间的距离急剧缩短。

这意味着：LLM 开发者正面临推荐系统团队已经挣扎了近十年的问题。好消息是，他们可以借鉴推荐系统中的经验教训。

可组合性：唯一的出路

Barber 提出了一个核心论点：当模型变得足够复杂时，唯一可行的设计原则就是「可组合性」（Composability）。

为什么？因为要验证一个新架构变体的有效性，你需要：

至少拥有一个部分融合/优化的版本
在优化版本的基础上测试新的变体
拥有一个固定的基线来验证正确性

但问题在于：手动融合每一个变体太慢了；自动生成内核但没有基线又不可靠。

解决方式只有一个：从一开始就为可组合性设计。

FlexAttention 的启示

Barber 特别提到了 PyTorch 的 FlexAttention。它通过 Triton 模板生成了一整类注意力操作的内核，让你能够：

以可接受的开销探索新的注意力变体
在新变体上自动生成性能基线
在确保正确性的同时保持灵活性

这正是可组合性的实践范例。

Karpathy 加入 Anthropic 的意义

Barber 顺便提到，Andrej Karpathy 加入 Anthropic 的部分动机是开发更丰富的「自动研究循环」（auto-research loops）。但 Karpathy 近期工作的关键洞察是：

把架构精简到本质，并使其可组合——这和一个巧妙的 Agent 设置同等重要。

这意味着，与其靠 Agent 来自动探索几十万个可能的架构变体，不如先把基本架构组件设计成可以自由拼装的乐高积木。然后，才是在这个积木系统上做自动搜索。

对开发者的启发

LLM 已经不是「堆 Transformer」那么简单了。 如果你的应用涉及模型选型或微调，仅看参数量和基准分数是不够的——架构细节（注意力类型、MoE 策略、路由方式）对实际表现的影响越来越大。
可组合性是值得投资的架构原则。 无论是在你构建的 AI 系统内部，还是在选择第三方模型时，可组合性都应该是一个评估维度。
Agent 不是万能药。 不要指望 AI Agent 能自动搞定理应预先设计好的架构问题。再强的 Agent 也需要一个好的基准才能开始工作。
关注 FlexAttention 这类工具。 如果你在做 LLM 相关的性能优化，Triton 模板 + FlexAttention 的思维方式可能是当前最实用的方案。

结语

LLM 架构的复杂度增长不是偶然的——它是能力提升和效率优化的必然结果。从「干净的 Transformer 堆叠」到「异质化、多模态、分布式」的架构，这个演进轨迹非常类似当年的推荐系统。

对于从业者来说，理解这个趋势比记忆某个模型的具体参数更重要：复杂度不会消失，但可以通过可组合性来管理。