文章来源：初识 CV - Transformer 模型详解（图解最完整版）

# Transformer 是什么

$Transformer$ 是一种由谷歌团队在 $2017$ 年提出的深度学习模型架构，最初用于处理自然语言（翻译、文本生成等），现已广泛应用于图像、音频等领域，设计灵感是人类处理信息的方式关注重点、忽略无关内容

核心特点
- 注意力机制
- 无记忆性
- 通用架构

# Transformer 结构与工作流程

# 结构

由图可知， $Transformer$ 由 $Encoder$ 和 $Decoder$ 两部分组成

# 工作流程

获取输入句子的每一个表示向量 $x$ ，这个向量由 单词的意思Embedding 和 单词的位置Embedding 相加得到
将得到的 表示向量矩阵（每一行是一个 表示向量），传入 $Encoder$ 中，经过 $6$ 个 $Encoder$ 块后就可以得到该句子的编码信息矩阵 $C$
将编码矩阵 $C$ 传递到 $Decoder$ 中， $Decoder$ 会根据当前翻译的 $1 \to i - 1$ 个单词翻译下一个单词 $i$ ，在翻译过程中，需要通过 Mask（掩盖） 操作遮盖住 $i + 1$ 及之后的单词

# Transformer 各步骤详解

# Transformer 的输入

# 单词的词意 Embedding

可以通过 $Word2Vec$ 或 $Glove$ 等算法预训练得到，也可以在 $Transformer$ 中训练得到

# 单词的位置 Embedding

$Transformer$ 的核心是 自注意力机制，把句子中的所有词当成一个集合，但有个问题是 我爱你 和 你爱我 ，他们会是一样的集合，丢失顺序信息，而此时，我们就提出了位置 $Embedding$

假设一句话有 $L$ 个词，每个词的向量维度是 $d_{m}$ ，我们给每个位置 $pos$ 分配一个向量， $Positional~Encoding~(PE)$ ，大小也是 $d_m$ 。词意 $Embedding$ 和词位 $Embedding$ 相加，这样模型就能感知到 “位置” 信息

# 公式

$PE(pos, 2i) = sin(\frac{pos}{10000^{2i / d_{m}}})$

$PE(pos, 2i+1)=cos(\frac{pos}{10000^{2i/d_m}})$

以 我爱你 为例

位置 $pos = 0, 1, 2$
$d_{m}$ 取一个小一些的，假设是 $4$ ，那 $i = 0, 1, 2, 3$

每一个词都可以代入，得到一个唯一的位置 $Embedding$

# Self-Attention（自注意机制）

被额外框起来的部分是 $Multi-Head~Attention$ ，是由多个 $Self-Attention$ 组成的， $Encoder$ 包括一个 $Multi-Head~Attention$ ，而 $Decoder$ 包含两个 $Multi-Head~Attention$

每个 $Multi-Head~Attention$ 上都有一个 $Add ~ \& ~ Norm$ 层

$Add$ 层表示残差连接（ $Residual~Connection$ ），用于防止网络退化
$Norm$ 层表示 $Layer~Normalization$ ，用于对每一层的激活值进行归一化

# Self-Attention 结构

$Self-Attention$ 接受的是输入（单词的表示向量 $x$ 组成的矩阵 $x$ 或者上一个 $Encoder$ 块的输出）

$Q,K,V$ 三个矩阵都是通过矩阵乘法线性变换得来的

$Q~(Query)$ ：我是谁？我想找谁？
$K~(Key)$ ：我有什么特征？我可以被谁找？
$V~(Value)$ ：我的内容是什么？被找到的时候我要传递什么信息？

在数学形式上，就是三个线性变换

$Q = X·W_Q, K = X·W_K,V=X·W_V$

$W_{Q,K,V} \in \mathbb{R}^{d_{m} \times d_k}$ ：是可训练的矩阵
$d_k$ 通常比 $d_m$ 小

用 $Q$ 和 $K$ 做点积，可以得到相关性

$Scores = Q·K^{T} \in \mathbb{R}^{n \times n}$

这样一个 $n \times n$ 矩阵，表示第 $i$ 个词对第 $j$ 个词的注意力打分。为了避免数值太大，通常除以 $\sqrt{d_k}$ 进行缩放

$Score_{scaled}=\frac{Q·K^T}{\sqrt{d_k}}$

再对每一行做 $SoftMax$ ，变成权重形式

$Attention~Weights = SoftMax(\frac{Q·K^T}{\sqrt{d_k}})$

用这样的权重去加和 $V$ ，就能得到输入的新的表示

$Output = V·Attention~Weights \in \mathbb{R}^{n \times d_v}$

通过这样的形式，就能更新每个词的表示，同时还能融合其他词的信息

# Multi-Head Attention（多头注意力机制）

$Multi-Head~Attention$ 中包含多个 $Self-Attention$ 层，分别将输入 $x$ 传入 $h$ 个不同的 $Self-Attention$ 中，得到 $h$ 个输出矩阵 $Z$

将 $h$ 个输出矩阵 $Z$ 拼接（ $Concat$ ）到一起，然后传入一个 $Linear$ 层，从而得到 $Multi-Head~Attention$ 层的最终输出

# Encoder 结构

$Encoder$ 部分还有 Add & Norm 和 Feed Forward 部分，这里进行一个补充介绍

# Add & Norm

$Output = LayerNorm(x+SubLayer(x))$

顾名思义，这个部分分为

$Add$ ：残差连接
$Norm$ ：层归一化

# Add

计算完上一层的输入 $SubLayer(x)$ 后，与原始输入相加

$y = x + SubLayer(x)$

通过相加，既能保留原始信息，又能叠加上新信息，缓解梯度消失的问题

# Norm

对 $Add$ 的 $y$ 进行 $Layer~Normalization$ ，在特征维度上做归一化

$LayerNorm(y) = \gamma· \frac{y - \mu}{\sqrt{\sigma^2+\epsilon}} + \beta$

$\mu = \frac{1}{d} \sum\limits_{i=1}^{d} y_i$ ：样本均值
$\sigma^2$ ：方差
$d$ ：特征维度
$\gamma,\beta$ ：学习的参数，用来缩放和平移，恢复网络的表达能力
$\epsilon$ ：防除 $0$ 的小常数

# Feed Forward（前馈全连接网络 FFN）

$FFN$ 用来进一步对特征进行加工，核心是 两层全连接 + 激活函数

$FFN(x) = W_2 · \sigma(W_1·x+b_1)+b_2$

$W_1 \in \mathbb{R}^{d_f \times d_m}$ ：第一层权重，把 $d_m$ 升维至 d_
$b_1 \in \mathbb{R}^{d_f}$ ：第一层偏置
$\sigma(·)$ ：激活函数（通常是 $ReLU$ 或 $GELU$ ）
$W_2 \in \mathbb{d_m \times d_f}$ ：第二层权重，降维回到 $d_m$
$b_2 \in \mathbb{R}^{d_m}$ ：第二层偏置

通俗易懂的解释就是，一句话的表达 $x$ 先展开思路（升维），再把展开的思路精简一下（降维）
而激活函数的作用就是增加非线性的表达，如果没有激活函数的话，那就相当于一个线性变换了，什么都没做

# Decoder 结构

# 第一个 MHA

$Decoder$ 部分的第一个 $MHA$ 使用了 $Masked$ 操作，之前我们提过，在翻译过程中，是顺序翻译的（翻完 $i$ 个单词才能翻 $i+1$ 个）
注意， $Masked$ 操作是在 $Self-Attention$ 的 $Softmax$ 之前使用的
$Masked$ 矩阵参考图如下：

第一步仍是 $Q · K^T$ ，得到注意力矩阵 $QK^T$ （此处为了方便，不提及缩放）
区别就是，要在 $Softmax$ 钱，利用 $Masked$ 矩阵做掩码
用 $Mask(Q·K^T)$

# 第二个 MHA

第二个 $Multi-Head~Attention$ 之前的 $MHA$ 变化不大，主要的区别是其中的 $Self-Attention$ 的 $K, V$ 矩阵是使用 Encoder 的编码信息矩阵 C 计算的，而不是使用上一个 $Decoder$ 的输出

$K, V$ 是从 $Encoder$ 的编码信息矩阵 $C$ 来的
$Q$ 是由上一个 $Decoder$ 来的

这样的好处是，在 $Decoder$ 时，每一位单词都可以利用到 $Encoder$ 的所有信息（这些信息无需 $Masked$ ）

# Softmax

其实是得到一堆 $Softmax$ ，表示每个位置每词的概率