在某机构国际新兴市场部门应用科学副总裁Rajeev Rastogi即将于下周开始的ACM推荐系统大会(RecSys)上发表的主题演讲中,他将讨论其团队在处理推荐算法工作中遇到的三个问题:有向图中的推荐;当目标标签随时间变化时训练机器学习模型;以及利用预测不确定性的估计来提高模型的准确性。
Rastogi解释说:“这些技术的共通之处在于,它们是横跨许多不同推荐问题的通用技术。而且这些是我们实际在实践中使用的东西,它们能在现实世界中产生影响。”
第一个问题涉及有向图,即其边描述的是仅单向运行的关系的图。
Rastogi解释说:“有向图在众多不同领域中都有应用——从引文网络开始,其中的边U-V表示论文U引用了论文V;或者在社交网络中,边U-V表示用户U关注了另一个用户V;在电子商务中,边U-V表示顾客在购买产品V之前购买了产品U。”
尽管探索有向图的问题具有普遍性,但Rastogi团队的研究人员专注于最后一种情况:相关产品推荐,其目标是预测刚完成购买的顾客还可能对哪些其他产品感兴趣。
Rastogi解释说:“这里有趣的部分在于,相关产品的关系实际上是非对称的。比如说,有两个节点,一个手机和一个手机壳。给定一个手机,你想推荐手机壳。但如果顾客已经买了手机壳,你就不想再推荐手机了,因为他们很可能已经有一个了。”
像许多基于图的应用一样,该团队解决非对称相关产品推荐问题的方法涉及图神经网络。在图神经网络中,图的每个节点都被嵌入到一个表示空间中,该空间中节点之间的几何关系携带着它们在网络中关系的信息。嵌入过程是迭代的,每次迭代都会考虑来自更远节点的信息,直到每个节点的嵌入都携带其邻域的信息。
Rastogi解释说:“单一的嵌入空间不具备对有向图中节点间的非对称关系进行建模的表达能力。我们从以往工作中借鉴的一个方法是,用双重嵌入来表示每个节点。我们的一项新颖贡献实际上是在利用整个图结构的GNN环境中学习这些双重嵌入。”
Rastogi补充道:“此外,我们还有额外的技术,比如自适应采样。这些原始的GNN为每个节点采样固定大小的邻域。但我们发现,当每个节点都使用固定大小的邻域时,低度节点(即与其他节点连接较少的节点)的性能会不佳,因为低度节点的连接结构稀疏。因此,当你从邻居聚合信息时,传递的信息就会较少。”
“所以,我们实际上选择为低度节点采样更大的邻域,而为高度节点采样更小的邻域。这有点反直觉,但它为我们带来了更好的结果。”
典型的机器学习模型是在标记数据上训练的,模型必须学会从数据中预测标签——其训练目标。Rastogi在演讲中谈及的第二个问题是如何在已知某些目标标签将在不久的将来发生变化时,以最佳方式训练模型。
Rastogi说:“这同样是一个非常普遍的问题,跨越众多不同领域。在推荐系统中,从顾客看到推荐到购买产品之间可能存在几天的时间延迟。”
“这里存在一个权衡:如果你实时使用所有的训练数据,那么其中一些较新的训练样本可能带有不正确的目标标签,因为它们会随时间变化。另一方面,如果你忽略了过去五天里得到的所有训练样本,那么你就丢失了最新的数据,你的模型就不会那么好——尤其是在需要频繁重新训练模型的环境中。”
“在这里,我们提出了一种重要性采样策略,该策略本质上为每个训练样本赋予一个重要性权重。设P(X,Y)为真实数据分布,Q(X,Y)为你在训练集中观察到的数据分布。我们的重要性采样策略使用比值P(X,Y)除以Q(X,Y)作为重要性权重。”
“我们的关键创新集中在新场景下计算这些重要性权重的技术。其中一种情况是我们考虑转化前信号。人们在转化前通常会做一些事情;他们可能会加入购物车,或者在完成购买前点击产品进行研究。因此,我们考虑这些信号,这帮助我们克服数据稀疏性问题。”
“但这使得重要性权重的计算变得稍微复杂一些。如果目标标签非常有可能从0(负例)变为1,那么重要性权重会比样本不改变的可能性很低时要低得多。本质上,你要做的是从数据中学习目标标签未来发生变化的可能性,并将其捕捉到重要性权重中。”
最后,Rastogi表示,他将在演讲中讨论的第三种技术是利用不确定性估计来提高模型预测的准确性。
Rastogi解释说:“机器学习模型通常会返回点估计。但通常你有一个概率分布。在某些情况下,你可能知道这位顾客购买该产品的概率是0.5。但在其他情况下,它可能介于0.2到0.8之间。我们发现,如果你能够为模型预测生成不确定性估计,我们就可以利用它们来提高模型的准确性。”
“我们训练了一个二元分类器来预测广告推荐应用中的广告点击概率。对于保留集中的每个样本,我们都生成了模型分数(即概率预测)和一个不确定性估计(即我对预测概率的确信程度)。”
“如果我在保留集中查看许多模型分数为0.5的样本,你会预期其中大约50%会产生点击:这就是经验阳性率。如果分数是0.8,那么经验阳性率应该大约为80%。”
“但我们发现,随着模型分数方差的增加,经验阳性率会下降。如果我有一个0.8的分数,我可以说,它在0.79和0.81之间,这对应于低方差。或者我可以说,它在0.65和0.95之间,这表明方差很高。我们发现,对于相同的模型分数,随着置信区间变大,经验阳性率开始下降。”
“这对二元分类器的决策边界选择有影响。传统上,二元分类器在模型分数上使用单一阈值。但现在,由于经验阳性率同时取决于模型分数和不确定性估计,仅仅选择一个单一的阈值值是次优的。如果我们选择多个阈值,每个不确定性水平一个,我们发现可以在给定的精确度下获得高得多的召回率。”
Rastogi团队的成员目前正在撰写一篇关于他们预测不确定性工作的论文——但该方法已在生产环境中应用。
Rastogi说:“有很多人们发表论文的东西,然后就被遗忘了,从未真正被使用过。在某机构,我们做的是真正能为客户带来改变、解决客户痛点的科学。这三个例子就是做以客户为中心的科学,在现实世界中真正产生影响。”FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。