AI 前沿·阅读约 2 分钟·
LLM 不再「简单」:从 Transformer 堆叠到异质化架构的进化之路

LLM 不再「简单」:从 Transformer 堆叠到异质化架构的进化之路

Meta 前工程师 Ian Barber 撰文指出,LLM 架构已经走过了简单的 'Transformer 堆叠' 时代,进入了类似推荐系统的异质化复杂阶段。注意力变体激增、MoE 全面扩散、多模态深度集成——现代 LLM 的复杂度已不可同日而语。

原文来源:Ian Barber's Blog — Meta 前工程师 Ian Barber 回顾 LLM 架构从简单 Transformer 堆叠走向类似推荐系统的复杂异质化架构之路,以及可组合性(composability)如何成为新时代的核心挑战。

2022 年,如果你打开一篇 LLM 论文,大概率会看到一张熟悉的图:N 层 Transformer 编码器-解码器堆叠起来,每一层长得都一样,干净、对称、优雅。

2026 年,如果你打开一篇 SOTA 模型的架构图,你会看到一个更像「意面图」的东西——不同类型的注意力机制、混合路由策略、多模态嵌入、异构计算单元交织在一起,跟推荐系统的架构复杂度有得一拼。

Meta 前工程师 Ian Barber 近日发文《LLMs Are Complicated Now》,精准捕捉了这一趋势。

两条分岔的技术路线

Barber 回忆起 2022-2023 年在 Meta 工作的经历。那时,公司内部有两个截然不同的 ML 范式:

  • LLM 路线(Llama 等) — 干净的 Transformer 重复堆叠,结构简单、优雅、可预测
  • 推荐系统路线 — 复杂的异质化图结构,各组件形态各异、彼此耦合紧密

当时的普遍认知是:推荐系统之所以复杂,是因为它需要处理大量特征、实时代价、业务约束。而 LLM 之所以简单,是因为「你只需要堆 Transformer」。

现在回头看,这个认知已经过时了。

「好在,业界已经解决了这个问题——通过让 LLM 也变得足够复杂。」

—— 广告 ——

LLM 变得更复杂的 4 个维度

1. 注意力机制的爆发

「Attention is all you need」的原始论文定义了一种注意力机制。如今,我们有几十种变体:

  • 查询分组(Grouped Query Attention) — 多查询头共享 Key/Value 以降低 KV 缓存
  • 压缩注意力(Compressed Attention) — 对长序列进行压缩后再计算
  • 稀疏注意力(Sparse Attention) — 只计算部分注意力矩阵
  • 线性注意力(Linear Attention) — 以线性复杂度替代平方复杂度
  • 滑动窗口注意力(Sliding Window Attention) — 局部窗口 + 全局 token

一个现代模型通常不是只用其中一种——它可能在浅层用滑动窗口、中层用稀疏注意力、深层用标准注意力,同时还在某些层穿插 MoE 路由。

2. MoE 的全面扩散

混合专家(Mixture-of-Experts)已经从简单的 FFN 路由扩展到了几乎所有可路由的组件:

  • FFN 层路由 → 注意力块路由 → 残差流路由
  • 不同专家之间的负载均衡策略也越来越精细化

如果说 2024-2025 年的 MoE 还是「稀疏 FFN 的流行实现」,那么到了 2026 年,MoE 已经演变成了一种通用的架构设计范式。

3. 多模态的深度集成

早期多模态模型的做法是:训练一个文本 LLM,然后把视觉编码器「粘」上去。

现在不是这样了。

视觉和音频编码器不再是附加组件——它们被直接混合到了核心架构中。多模态数据的融合发生在 Transformer 的各个层级,而不是在输入层做一次拼接就完事。

4. 多 GPU 推理的通信复杂度

当模型大到必须跨多张 GPU 部署时,通信操作就在模型内部创造了额外的边界。这些边界不仅影响推理速度,还影响了架构设计的约束条件——你设计一个模块时,必须考虑它在分布式环境中的通信代价。

与推荐系统的惊人相似

Barber 指出,推荐系统的复杂度来源是「能力扩张」和「推理效率」之间的持续拉锯。

LLM 现在走了一模一样的路。性能优化从"可选项"变成了"必要条件"——它们之间的距离急剧缩短。

这意味着:LLM 开发者正面临推荐系统团队已经挣扎了近十年的问题。好消息是,他们可以借鉴推荐系统中的经验教训。

可组合性:唯一的出路

Barber 提出了一个核心论点:当模型变得足够复杂时,唯一可行的设计原则就是「可组合性」(Composability)。

为什么?因为要验证一个新架构变体的有效性,你需要:

  1. 至少拥有一个部分融合/优化的版本
  2. 在优化版本的基础上测试新的变体
  3. 拥有一个固定的基线来验证正确性

但问题在于:手动融合每一个变体太慢了;自动生成内核但没有基线又不可靠。

解决方式只有一个:从一开始就为可组合性设计。

FlexAttention 的启示

Barber 特别提到了 PyTorch 的 FlexAttention。它通过 Triton 模板生成了一整类注意力操作的内核,让你能够:

  • 以可接受的开销探索新的注意力变体
  • 在新变体上自动生成性能基线
  • 在确保正确性的同时保持灵活性

这正是可组合性的实践范例。

Karpathy 加入 Anthropic 的意义

Barber 顺便提到,Andrej Karpathy 加入 Anthropic 的部分动机是开发更丰富的「自动研究循环」(auto-research loops)。但 Karpathy 近期工作的关键洞察是:

把架构精简到本质,并使其可组合——这和一个巧妙的 Agent 设置同等重要。

这意味着,与其靠 Agent 来自动探索几十万个可能的架构变体,不如先把基本架构组件设计成可以自由拼装的乐高积木。然后,才是在这个积木系统上做自动搜索。

对开发者的启发

  1. LLM 已经不是「堆 Transformer」那么简单了。 如果你的应用涉及模型选型或微调,仅看参数量和基准分数是不够的——架构细节(注意力类型、MoE 策略、路由方式)对实际表现的影响越来越大。

  2. 可组合性是值得投资的架构原则。 无论是在你构建的 AI 系统内部,还是在选择第三方模型时,可组合性都应该是一个评估维度。

  3. Agent 不是万能药。 不要指望 AI Agent 能自动搞定理应预先设计好的架构问题。再强的 Agent 也需要一个好的基准才能开始工作。

  4. 关注 FlexAttention 这类工具。 如果你在做 LLM 相关的性能优化,Triton 模板 + FlexAttention 的思维方式可能是当前最实用的方案。

结语

LLM 架构的复杂度增长不是偶然的——它是能力提升和效率优化的必然结果。从「干净的 Transformer 堆叠」到「异质化、多模态、分布式」的架构,这个演进轨迹非常类似当年的推荐系统。

对于从业者来说,理解这个趋势比记忆某个模型的具体参数更重要:复杂度不会消失,但可以通过可组合性来管理。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://www.aprilzz.com/ai/llms-are-complicated-now