一、Transformer结构图

从上图可以看到:
Transformer结构主要由编码和解码两大部分组成:
(1)输入- position embedding - patch embedding
(2)编码器
- 多头注意力机制
Add & Norm
MLP Add & Norm
(3)输出(迭代右移)- position embedding - patch embedding
(4)解码器
- 掩码多头注意力机制
Add & Norm
- 多头注意力机制
Add & Norm
MLP Add & Norm
(5)输出概率
二、代码实现
to becontinue…