FFN(x, W_1, W_2, b_1, b_2) = max(0, xW_1 + b_1)W_2+b_2
用MoE Layer替代FFN layer,from Switch Transformers...1.3 矩阵视角看待MoE计算
我们从矩阵乘法操作角度来理解一下MoE的流程。...原始FFN,两个MLP的矩阵操作如下
A_2\left(B, S_0, H\right)=A_1(B, S, H) * W 1(H, 4 H) * W 2(4 H, H)
MoE,以两个Expert为例...先做符号化定义:矩阵乘法需要的三个矩阵中的一个(两个输入和一个输出)是稀疏的,而其他的是稠密的。每个操作都用一个由三个字符组成的字符串来描述,其中每个字符可以是“S”表示稀疏或“D”表示密集。...MoE中每个专家是一个两层的多层感知机(MLP)。前向传播需要进行SDD操作,然后是DSD操作。