导读:RNN.用于解决输入数据为,序列到序列(时间序列)数据,不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度,即输入内容的上下文关联性强。.整体结构.x、o为向量,分别表示输入层、输出层
用于解决输入数据为,序列到序列(时间序列)数据,不能在传统的前馈神经网络(FNN)很好应用的问题。时间序列数据是指在不同时间点上收集到的数据,这类数据反映了某一事物、现象等随时间的变化状态或程度,即输入内容的上下文关联性强。
x、o为向量,分别表示输入层、输出层的值;U、V为权重矩阵,U是输入层到隐藏层的权重矩阵,V是隐藏层到输出层的权重矩阵,W 是上一次的值 S(t-1) 作为这一次的输入的权重矩阵,S(t)是当前的隐藏层矩阵。
MatMul表示矩阵乘积。
这里的h也就是s,都是RNN层函数的输出结果。RNN层的处理函数是tanh,输出结果是h,因此RNN层具有”状态”,这也是其具有记忆性的原因。
RNN隐藏层的输出结果,也被称为隐藏状态或是隐藏状态向量,一般用h或s表示。
蓝线表示反向传播的线路图
由于激活函数Tanh其反向传播时,会导致梯度为0或趋于很大的数值,导致梯度消失或爆炸。
通过引入输入门、遗忘门和输出门,解决RNN模型下带来的梯度消失的问题。
输出门的结果用o来表示,其计算公式如下:
遗忘门的结果用f表示,其计算公式如下:
输入门的结果用i表示,其计算公式如下:
遗忘门从上一时刻的记忆单元中删除了应该忘记的东西,但需要添加一些应当记住的新信息,新的记忆单元g,其计算公式如下:
要注意的是,不同的门输出所代表的意义不一样,因为其最后流向的地方不一样,分别是转换为了新的记忆单元c,新的隐藏状态h。
最终汇总后的整体结构如下
蓝线代表反向传播路径,记忆单元的反向传播仅流过“+”和“×”节点。“+”节点将上游传来的梯度原样流出,所以梯度没有变化(退化)。
LSTM的优化可以从三个方面
上一篇:软件工程快速入门(下)
下一篇:质量保障体系建设演进案例