5、 有监督微调
5.1、提示学习&语境学习
提示学习
完成预测的三个阶段:提示添加、答案搜索、答案映射
提示添加
“[X] 我感到 [Z]”
x = “我不小心错过了公共汽车。”...我感到[Z]”
答案搜索
Z = {“太好了”,“好”,“一般”,“不好”,“糟糕”}
将给定提示 x ′ 而模型输出为 z 的过程记录为函数
f_{fill} (x ′ , z)
,对于每个答案空间...具有外推能力的位置编码
ALiBi
相对位置编码
注意力加上线性偏置
Softmax(q_iK^T+m·[-(i-1),...,-2,-1,0])
m为坡度,取值为:
\{\frac{1}{a} ,...,\frac{1}{256} \} ,其中 a^{num\_heads} =256
[-(i-1),...,-2,-1,0]
表示相对位置,取值:-(k索引[1,i] - q索引[i])
插值法
RoPE...位置插值:
f’(x,m) = f(x,\frac{m}{L'})L
将更大的位置索引范围 [0,L′) 缩减至原始的索引范围 [0,L)
5.4、指令数据构建
指令数据的质量和多样性是衡量指令数据的重要维度