更多来自于GitHub:Reflection_Summary.
mask+attention,mask的word结合全部其他encoder word的信息
tf.multal(tf.nn.softmax(tf.multiply(tf.multal(q,k,transpose_b=True),1/math.sqrt(float(size_per_head)))),v)
残差结构能够很好的消除层数加深所带来的信息损失问题
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!