3展示的一定是最相关的,越往后翻页相关度越低....首先要明确的是训练数据,训练数据必须包含一列query id,该id下指明哪些样本要放到一起进行排序.同时特别需要注意的是,在训练集和测试集进行拆分时,需要按query id进行分割,如果直接随机拆分,...同一个query id下的数据就会被分开,这样会导致模型出问题.我们可以用如下代码进行拆分.
from sklearn.model_selection import GroupShuffleSplit...gss = GroupShuffleSplit(test_size=.40,
n_splits=1,...3.对噪声的label 非常敏感。
感兴趣的赶紧尝试起来吧!