将门创投斗鱼直播 动手学深度学习 gluon.ai
aww baord
GRU
数据可视化平台:fooplot(grafana)
GRU:重置门:中短期依赖关系 把过去的信息set为0,
更新门:如何更新,上一时刻和当前时刻的候选状态,中长期依赖关系,Zt 为1,就可以一直拷贝以前状态
sigmoid:大部分接近0或者1
按位相乘:乘0 都为0,乘1保留原值 判断是否保留过去信息
LSTM 1997年 6个公式
输入门
遗忘门
输出门: 是否把状态传递到隐含状态(比GRU多的步骤)
候选记忆细胞 tanh(-1到1之间) 中心化数据
记忆细胞
RNN
移位(错位)准备X,Y
最后全概率最大
随机批量抽样
相邻批量采样
上一个批量的最后一个字符与下一个批量的最后一个字符相关,上一个H3 初始化 下一个批量的H0
残差网络
残差F(x)比原始期望H(x)更容易优化,残差更容易优化为0
ResNet效果好是因为解决了退化问题,自动调节了网络结构
直接去掉当时是可以,但大多数时候,在训练前,我们不知道可以去掉,restnet就起到了类似于‘自动去除’的作用