##
软注意力是只注意的每项都可以是概率值,不一定是有或者无
Graph Attention Network 图注意力网络 (一) 训练运行与代码概览
Transformer中的Multi-Head Attention
关联性图注意力网络:Relational Graph Attention Networks(ICLR2019)
Graph Attention Networks网络结构+代码
翻译中的注意力机制
注意力机制的BahdanauAttention模型就很令人费解了,困惑的关键在于其中的算法。算法的计算部分只有两行代码,代码本身都知道是在做什么,但完全不明白组合在一起是什么功能以及为什么这样做。其实阅读由数学公式推导、转换而来的程序代码都有这种感觉。所以现在很多的知识保护,根本不在于源代码,而在于公式本身。没有公式,很多源代码非常难以读懂。
TensorFlow从1到2(十)带注意力机制的神经网络机器翻译
总结
他们只说注意力机制(Attention Mechanism)不练,还是我来给大家撸代码讲解
可视化
Visualizing attention activation in Tensorflow
论文中注意力机制可视化图的制作seaborn提供的热力图来制作
https://github.com/uhauha2929/examples/blob/master/self-attention.ipynb
请问注意力机制中生成的类似热力图或者柱状图是如何生成的 其实没啥用
各种各样的注意力
神经网络中注意力机制概述 摘自《Notes on Deep Learning for NLP》
层级注意力:Text Classification, Part 3 - Hierarchical attention network