,yt′−1,c)
并得到该输出序列的损失:
−logP(y1,...,yt′−1∣x1,...,xT)=−∑t′=1T′logP(yt′∣y1,...,yt′−1,c)-logP(y_1,......,x_T)=-\sum_{t^{′}=1}^{T^{′}}logP(y_{t^{′}}|y_1,...,y_{t^{′}-1},c)−logP(y1,...,yt′−1∣x1,......在最终候选输出序列的集合中,我们取以下分数最⾼的序列作为输出序列:
1LαlogP(y1,...,yL)=1Lα∑t′=1T′logP(yt′∣y1,......,yt′−1,c)\frac{1}{L^{\alpha}}logP(y_1,......,y_{t^{′}-1},c)Lα1logP(y1,...,yL)=Lα1t′=1∑T′logP(yt′∣y1,...