个人技术分享

一、Transformer结构图

在这里插入图片描述
从上图可以看到:
Transformer结构主要由编码和解码两大部分组成:
(1)输入- position embedding - patch embedding
(2)编码器

  • 多头注意力机制 Add & Norm
  • MLP Add & Norm

(3)输出(迭代右移)- position embedding - patch embedding
(4)解码器

  • 掩码多头注意力机制 Add & Norm
  • 多头注意力机制 Add & Norm
  • MLP Add & Norm

(5)输出概率

  • Linear
  • Softmax

二、代码实现

to becontinue…