
类似抖音、快手、小红书等产品的信息流推荐业务,主要通过信息流广告、信息流直播电商等获得经济收益,对于流量最大的核心推荐系统,或多或少都要承担商业指标,承接特定物料的曝光需求。但是广告、直播电商或其他业务物料,会根据自己的需求进行排序,由于不是一套模型,业务场景数据也不一样,插入物料的量纲与主推荐量纲必定不相同,随之但是的就是无法比较问题,如何将不同的量纲对齐且可比呢,今天介绍常见的几种方法。
Z-score标准化将数据转换为均值为0、标准差为1的分布。公式如下:


其中:

是原始数据点

是序列的均值

是序列的标准差
Sigmoid将均值为0、标准差为1的分布转化为值域为0-1的分布。公式为


Z-score+Sigmoid序列合并计算步骤
Min-Max 归一化将数据线性地转换到一个固定的区间(通常是 [0, 1])。公式如下:

其中:

是原始数据点
序列合并计算步骤:
Rank Transformation 将数据转换为它们的秩次。公式如下:

序列合并计算步骤:
如果数据分布偏斜,可以使用对数变换来压缩数据范围。公式如下:

序列合并计算步骤:
Robust Scaling 使用中位数和四分位距(IQR)进行标准化,适用于存在异常值的数据。公式如下:


是序列的中位数

是序列的四分位距(即第75百分位数减去第25百分位数)
序列合并计算步骤:
本文初步介绍了多种将不同量纲的多元物料转换为同一量纲的方法,主要目标就是让不同业务场景的推荐排序结果可以比较,通过公式化的序列转换,快速达到可比的预期,计算效率更高。在实践中,Z-score+Sigmoid方法更为实用。