Transformer 架构 · AI 专业名词百科

Transformer 架构 Transformer

现代 NLP/LLM 的基础架构，核心是自注意力机制（Self-Attention）。

分类：foundation 类型：model 别名：自注意力

Transformer 以自注意力为核心，摆脱了 RNN 的顺序计算限制，能够在 GPU 上高并行地对序列进行表示学习。

核心组件

多头自注意力（Multi-Head Self-Attention）：并行关注不同子空间的相关性，捕捉序列长距离依赖。
前馈网络（Feed-Forward Network）：在每一层对特征进行非线性变换。
残差连接与层归一化：缓解梯度消失并稳定训练。
位置编码：使用正余弦编码或可学习位置向量表示顺序信息。

变体与优化

Encoder-Decoder 结构：适合翻译等序列到序列任务，代表模型为原始 Transformer。
Decoder-only 结构：用于自回归生成，是 GPT 系列与大多数 LLM 的基础。
长上下文扩展：FlashAttention、ALiBi、RoPE、线性注意力等技术提升长序列效率。
多模态扩展：Vision Transformer (ViT)、Perceiver、Transformer-Decoder 图像生成等将架构拓展至视觉、音频领域。

工程实践

大规模训练依赖数据并行、模型并行与混合精度以提升效率。
推理阶段可通过 KV Cache、连续批处理、量化来降低延迟与显存占用。
对齐与安全层通常构建在 Transformer 主干之上。

参考资料

Vaswani et al. “Attention Is All You Need.” NeurIPS (2017).（首次提出 Transformer 架构）
Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” (2020).（将 Transformer 应用于视觉任务的 ViT）
Dao et al. “FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness.” (2022).（在硬件友好层面优化注意力计算）
Press et al. “Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation.” (2022).（提出 ALiBi 改善长上下文能力）

打开 GitHub 界面，修改后直接生成 PR