Transformer 模型由 Google 团队在 2017 年提出,彻底改变了自然语言处理(NLP)领域的格局。它摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)结构,完全基于注意力机制(Attention Mechanism)来处理序列数据。
核心设计思想
并行化计算是 Transformer 的最大优势。不同于 RNN 需要按时间步顺序处理,Transformer 可以同时处理整个序列,极大地提高了训练效率,并能够捕捉长距离的依赖关系。
整体架构由编码器(Encoder)和解码器(Decoder)两部分组成。编码器负责将输入序列转化为高维向量表示,解码器则根据这些向量生成目标序列。
| 原始论文参数 | 数值 |
|---|---|
| dmodel | 512(模型维度) |
| N | 6(编码器/解码器层数) |
| h | 8(注意力头数) |
| dff | 2048(FFN内层维度) |