和边际对数损失,则必须指定证据块的掩码。...轴向位置编码将 Xi,j 分解为两个矩阵:Xi,j1,其中 i∈[1,…,d1],j∈[1,…,ns1]
和 Xi,j2,其中 i∈[1,…,d2],且 j∈[1,…,ns2]
因此,以下成立:...(ns1, ns2),其乘积必须等于config.max_embedding_size,在训练期间必须等于input_ids的序列长度。...RemBERT 模型在顶部具有一个用于提取问答任务的跨度分类头(在隐藏状态输出的线性层上计算span start logits和span end logits)。...logits(形状为(batch_size, config.num_labels)的tf.Tensor)— 分类(如果 config.num_labels==1 则为回归)得分(SoftMax 之前)。