# 什么是有序列特性的数据

人类的自然语言，是符合某个逻辑或规则的字词拼凑排列起来的，这就是符合序列特性
语音，我们发出的声音，每一帧每一帧的衔接起来，才凑成了我们听到的话，这就是符合序列特性
股票，随着时间的推移，会产生具有顺序的一系列数字，这就是符合序列特性

符合时间顺序，逻辑顺序，或者其他顺序就叫序列特性

# RNN

$Recurrent~Neural~Network~(RNN)$ 循环神经网络，是一种用于处理序列数据的神经网络。核心特点是 具有记忆能力，能够在处理当前的输入时，结合之前的输出进行计算

例如，在预测中， 兰欣怡吃苹果 和 兰欣怡是苹果的老板 ，如果我们要给 苹果 打上标签，在 全连接神经网络 中，是以正确的概率最大为目标来训练模型，这将导致，语料中，两种苹果谁的数量多，预测的结果就是什么。显然，没有结合上下文的预测是很容易出错的，我们应该结合上下文训练模型，这就是全连接神经网络做不到的事情，因此引入了 循环神经网络

# RNN 数学原理

$RNN$ 的隐藏层不仅接受当前输入，还接受上一时刻的隐藏状态，由此形成” 循环结构 “

$h_t = f(W_{xh}·x_t + W_{hh}·h_{t-1}+b_h)$

$h_t$ ： $t$ 时刻的隐藏状态
$x_t$ ：当前输入
$W_{xh},W_{hh},b_h$ ：可学习的参数（注意，此参数为 共享参数）

# LSTM

# 为什么要有 LSTM

基础的 $RNN$ ，每一时刻的隐藏状态不仅由该时刻的输入决定，还取决于上一时刻的隐藏层的值。如果一个句子很长的话，到句子末尾时， $RNN$ 将记不住句子开头的详细内容。 $LSTM$ 利用 门控装置 有效地缓解了这个问题

# LSTM 是什么

$Long~Short~Term~Memory~(LSTM)$ ，长短期记忆网络相较普通 $RNN$ ，多了三个 门

# LSTM 的数学原理

$LSTM$ 的关键在于引入了 细胞状态 和 门控机制

遗忘门：决定哪些历史信息需要 “忘记”
- $f_t = \sigma (W_f · [h_{t-1}, x_t] + b_f)$
输入门：决定哪些新的信息需要存储进细胞状态
- $i_t = \sigma (W_i · [h_{t-1}, x_t] + b_i)$
- $\tilde{C}_t = tanh(W_c·[h_{t-1}, x_T] + b_C)$
输出门：决定当时当刻的输出和隐藏状态
- $o_t = \sigma (W_o · [h_{t-1}, x_t] + b_o)$
状态更新
- 细胞状态更新： $C_t = f_t·C_{t-1} + i_t · \tilde{C}_t$ $C_{t} = f_{t} \cdot C_{t - 1} + i_{t} \cdot \tilde{C}_{t}$
  - 前一状态的 $C_{t-1}$ 被选择遗忘 $f_t$
  - 新候选记忆 $\tilde{C}_t$ 被选择写入 $i_t$
- 隐藏状态更新： $h_t = o_t · tanh(C_t)$ $h_{t} = o_{t} \cdot t a n h (C_{t})$
  - 输出门 $o_t$ 决定当前细胞状态中哪部分流向隐藏层

# GRU

$Gate~Recurrent~Unit~(GRU)$ ，门控循环单元与普通 $RNN$ 的根本区别在于其支持 更新门、重置门，能很好地捕捉长距离的依赖关系，相比 $LSTM$ 结构更简单，参数更少，可以理解成 $LSTM$ 的简化版

没有显式的细胞状态 $C_t$ ，而是直接用隐藏状态 $h_t$ 传递信息
把 $LSTM$ 的遗忘门和输出门合并成更新门
另外保留一个重置门，用来决定历史信息在生成候选状态时的影响程度

# GRU 的数学原理

更新门：控制新旧信息的平衡
- $Z_t = \sigma(W_z · [h_{t-1}, x_t] + b_z)$
重置门：控制候选状态计算时，对旧信息的依赖程度
- $r_t = \sigma (W_r · [h_{t-1}, x_t] + b_r)$
候选隐藏状态：利用重置门决定保留多少过去的信息
- $\tilde{h}_t = tanh(W_h · x_t + U_h·(r_t \odot h_{t-1})+b_h)$
隐藏状态更新：利用更新门在旧状态和候选状态之间插值
- $h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$