92 字
1 分钟
自注意力机制中的掩码生成

设置一个屏蔽矩阵 M,然后我们

Attention(Q,K,V)=Softmax(QKTdk+M)VAttention(Q,K,V)=Softmax\left( \frac{QK^T}{\sqrt{d_{k}}}+M \right) V

其中 M 在需要屏蔽的位置上设置为负无穷

M=(00000000)M = \begin{pmatrix} -\infty & -\infty & 0 & 0 \\ -\infty & -\infty & 0 & 0 \\ -\infty & -\infty & 0 & 0 \\ -\infty & -\infty & 0 & 0 \end{pmatrix}

这样就可以在 softmax 之后把那几个区域都设置为 0 了​​