本教程将手把手地带你了解如何训练一个Transformer语言模型。我们将使用TensorFlow框架,在英文Wikipedia数据上预训练一个小型的Transformer模型。...四、超参数选择主要的超参数包括:1) 输入输出序列长度:一般设置为32-512之间2) 词表大小:一般限制在5000-500003) 隐层大小:256-10244) 注意力头数:2-85) 前馈网络宽度...设置梯度裁剪防止梯度爆炸,并Accumulate梯度实现大批量训练,提升性能。...六、模型调优如果训练效果欠佳,可以从以下方面调整:扩大模型参数量,堆叠Encoder/Decoder层数扩大训练数据量,迭代Epoch次数调大批量大小,但要考虑GPU内存增大词表大小,使用WordPiece...技术调整学习率策略,如warmup后衰减强化正则,增大Dropout概率使用Mixup,Cutmix等数据增强方法通过多次调整这些超参数组合,目标是求得验证集指标的最大化。