LSTM | 就和今天说早安

将门创投斗鱼直播动手学深度学习 gluon.ai

aww baord

数据可视化平台：fooplot(grafana)

GRU：重置门：中短期依赖关系把过去的信息set为0，
更新门：如何更新，上一时刻和当前时刻的候选状态，中长期依赖关系，Zt 为1，就可以一直拷贝以前状态

sigmoid:大部分接近0或者1
按位相乘：乘0 都为0，乘1保留原值判断是否保留过去信息

输入门
遗忘门
输出门: 是否把状态传递到隐含状态(比GRU多的步骤)

候选记忆细胞 tanh(-1到1之间) 中心化数据
记忆细胞

移位（错位）准备X，Y

最后全概率最大

随机批量抽样

相邻批量采样

上一个批量的最后一个字符与下一个批量的最后一个字符相关，上一个H3 初始化下一个批量的H0

残差F（x）比原始期望H（x）更容易优化，残差更容易优化为0
ResNet效果好是因为解决了退化问题，自动调节了网络结构

直接去掉当时是可以，但大多数时候，在训练前，我们不知道可以去掉，restnet就起到了类似于‘自动去除’的作用