Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >SIGIR'23 | 推荐系统中利用强化学习对embedding维度进行搜索

SIGIR'23 | 推荐系统中利用强化学习对embedding维度进行搜索

作者头像
秋枫学习笔记
发布于 2023-08-18 04:30:14
发布于 2023-08-18 04:30:14
4060
举报
文章被收录于专栏:秋枫学习笔记秋枫学习笔记

参考论文:Continuous Input Embedding Size Search For Recommender Systems 链接:https://arxiv.org/pdf/2304.03501.pdf 学校:昆士兰 会议:SIGIR 23

1.引言

隐语义模型因其出色的性能,成为了当前推荐系统最受欢迎的结构。隐语义模型将用户和item表征为实值embedding向量用于pairwise相似性计算,并且所有的embedding都限制为固定的较大维度(例如:256维),随着如今电子商务中用户基础和商品类型呈指数级增长,这种设计无疑使得内存使用率低下。为了适应轻量级推荐系统,强化学习(RL)最近为识别不同的embedding维度创造了机会。然而,受到搜索效率和学习最佳RL策略的挑战,现有基于RL的方法仅限于高度离散的、预定义的embedding维度筛选,这很大程度上忽略了,在给定内存预算下引入更精细粒度embedding维度以获得更好的推荐效果的问题。本文提出在连续搜索空间上的embedding维度搜索(CIESS, continuous input embedding size search),一种新型的RL方法,在具有任意embedding维度的连续搜索空间上进行维度选择。在CIESS中,进一步提出了一种创新的基于随机游走的探索策略,允许RL策略有效地探索更多的候选维度并且更易收敛。CIESS也是模型不感知的,因此可以泛化到更多的隐语义模型中。实验结果显示,CIESS在两个真实数据集上都获取sota结果

2 方法

CIESS有两个主要部分在训练期间交替工作: (1)由参数

组成的推荐模型F,(2)由参数

组成的基本RL的搜索函数G。CIESS工作流程如图,在每个优化迭代步骤中,推荐系统F调整用户item的embedding维度为策略G提供输入,并根据训练样本更新参数

,然后,F在固定的数据集上进行评估,其中top-k推荐结果可以由常用的指标来衡量,基于推荐结果,搜索函数G被重新修改,然后下一次迭代更新每个用户item的embedding维度

2.1 Mask embedding的基础推荐结构

设U和V分别代表用户集和item集,它们实值embedding向量存储在E中,E可以被看成是所有用户和item的拼接,即

, 其中初始embedding表中所有用户item的总维度为d,换言之,d也是搜索空间中的最大维度。通过执行embedding查找,可将每个用户item映射到实值向量

。为使embedding维度可以调整,引入一个二进制掩码 M ∈ {0, 1},在embedding查找时与E相乘:

其中M根据当前策略动态更新,以控制每个embedding向量的可用维度。给定特定用户item的自动学习维度

,相应掩码向量

的第s个元素定义为:

通过掩码M,对于每个用户item,我们可以保留其完整embedding的前

元素,同时将所有后续维度设置为0。值得注意的是,在轻量级推荐系统中通过用0掩盖不需要的维度来执行嵌入稀疏化是一种普遍采用的方法,作为结果的embedding表可以利用最新的稀疏矩阵存储技术,这些技术为存储0值条目带来的成本可以忽略不计。获取用户item的稀疏表征之后,推荐模型F可以得到一个分数表示用户对item的喜好程度

2.2 基于强化学习进行连续embedding维度的搜索

现在基础推荐器可以通过掩码稀疏化来适应不同的embedding维度,则开始使用G搜索最佳embedding维度。为了从连续空间中有效地学习高质量的embedding维度搜索策略,本节通过展示对环境(environment)、状态(state)、动作(action)、奖励(reward)、参与者(Actor and Critic)的设计来介绍在RL中的解决方案 和评论家。

在优化过程中,环境(environment)接收动作(action)(即所有用户item的embedding维度),提供关于内存成本和推荐性能的反馈(reward),并更新其状态以进行后续动作预测。状态s是策略网络(即 CIESS 中的参与者)的输入,它驱动每个用户/项目特定embedding维度的决策。已有方法表明,用户item的当前embedding维度决策在为策略网络提供后续搜索的上下文方面是有效的。本文方法继承这个设计前提下多了一个质量指标a记录当前策略下的推荐准确率波动,即:

其中,

代表用户item的流行度,

代表embedding维度,

量化当前embedding维度从

减少到

推荐质量的变化。将此质量指标纳入状态能够帮助追踪从最近的动作(即embedding维度)到推荐有效性的影响,这可以鼓励策略网络是从一个巨大的、连续的动作空间中选择embedding维度以更好地平衡内存成本和性能。表示为:

2.3 稀疏embedding的选择性再训练

伪代码如下

3 实验结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
HCCF:超图携手对比学习
预备知识:超图:https://zhuanlan.zhihu.com/p/361471954
秋枫学习笔记
2022/09/19
7420
MultiFS: 深度推荐系统中的自动多场景特征选择
传统的多场景推荐系统(MSRS)通常不加区别的使用所有相关的特征,忽视了特征在不同场景下的不同重要性,往往会导致模型性能下降。本文提出了多场景特征选择(MultiFS)框架来解决此问题,MultiFS能考虑场景间的关系,并通过分层门控机制为每个场景选择独特的特征。
秋枫学习笔记
2024/03/18
8770
MultiFS: 深度推荐系统中的自动多场景特征选择
AAAI'22「腾讯」多任务推荐系统中的跨任务知识蒸馏
多任务学习被广泛应用于推荐系统,先前的工作专注于设计底部层的结构来共享输入数据的信息,但是由于它们采用特定任务的二分类标签作为训练的监督信号,因此关于如何准确排序商品的知识并未在任务之间完全共享。
秋枫学习笔记
2022/09/19
4880
CIKM'21序列推荐|基于区域的embedding捕获用户行为中的偏好
可以先看背景和总结部分,对整个文章做的工作进行了简单的概括,公式太长的可以左右滑动哦~
秋枫学习笔记
2022/09/19
5160
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
本文针对点击率CTR预估提出新方法GMT,推荐系统的性能通常受到不活跃行为和系统曝光的影响,导致提取的特征没有包含足够的信息。本文提出基于邻域交互的CTR预测方法,通过异构信息网络HIN挖掘目标用户-商品对的局部邻域来预测他们的链接。并且,考虑节点之间的四种拓扑交互来增强局部邻域表征。
秋枫学习笔记
2022/09/19
4540
SIGIR'23 阿里 | 基于对比学习做转化率预估
标题:Contrastive Learning for Conversion Rate Prediction 地址:https://arxiv.org/pdf/2307.05974.pdf 代码:https://github.com/DongRuiHust/CL4CVR 会议:SIGIR 2023 公司:阿里
秋枫学习笔记
2023/08/18
7970
SIGIR'23 阿里 | 基于对比学习做转化率预估
KDD2023 | 面向推荐系统的自适应图对比学习
TLDR: 本文提出了一种新的用于推荐的自适应图对比学习范式,通过两种不同的自适应对比视图生成器来实施数据增强,以此提升协同过滤的效果。作者分别使用图生成模型和图去噪模型作为可训练的对比视图生成器,以此引入额外的自监督信号,缓解推荐数据中的稀疏和噪声问题。与此同时,自适应的的对比视图还解决了此前基于传统数据增强方法导致的对比学习模型坍塌问题。
张小磊
2023/10/25
8900
KDD2023 | 面向推荐系统的自适应图对比学习
CIKM'22 | 序列推荐中的多层次对比学习框架
本文主要针对序列推荐中的数据稀疏问题提出相应的解决方法,针对现有对比学习在缓解该问题上的不足提出MCLSR。现有方法的不足:由于对复杂的协作信息(例如用户-商品关系、用户-用户关系和商品-商品关系)的建模不足,学习信息丰富的用户/商品embedding还远远不够。本文提出了一种新的用于序列推荐的多层次对比学习框架,称为 MCLSR。与之前基于对比学习的 SR 方法不同,MCLSR 通过跨视图对比学习范式从两个不同级别(即兴趣级别和特征级别)的四个特定视图学习用户和商品的表征。具体来说,兴趣级对比机制与顺序转换模式共同学习协作信息,特征级对比机制通过捕获共现信息重新观察用户和商品之间的关系。
秋枫学习笔记
2023/01/30
1.1K0
推荐系统中的常用算法——行为序列Transformer(BST)
Behavior Sequence Transformer(BST)算法是由阿里在2019年提出的算法,应用于淘宝推荐中的ranking阶段。在目前的推荐系统中,主流的深度学习方案,如WDL,并没有充分利用用户的行为序列(User’s Behavior Sequence),在BST算法中,利用Transformer充分挖掘用户的行为序列,实现对用户行为序列的建模。
felixzhao
2022/03/04
5.6K0
推荐系统中的常用算法——行为序列Transformer(BST)
SIGIR'21 因果推断+推荐系统:利用反事实理论增强用户行为序列数据
针对用户历史行为序列数据中的稀疏性问题,本文采用因果推断中的反事实的相关理论来生成新的序列数据。要回答这样一个问题“如果用户之前购买的商品有所不同,她想购买什么?” 本文主要利用三种不同的反事实样本生成方式(启发式采样、基于数据的采样、基于模型的采样),来生成有助于模型训练的数据,从而进一步优化推荐模型。
秋枫学习笔记
2022/09/19
7790
CIKM'22 | 序列推荐中的双重倾向性估计缓解数据有偏问题
对于序列推荐中的数据有偏问题,现有的基于逆向倾向分数(IPS)的无偏学习是在商品维度的,即将反馈数据视为与用户交互的商品序列。然而,也可以从用户的角度将反馈数据视为与商品交互的用户序列。此外,这两种视角可以共同增强倾向得分估计。本文从用户和商品的角度来估计倾向得分,称为双重增强倾向得分估计(DEPS)。具体而言,给定目标用户-商品对以及相应的商品和用户交互序列,DEPS首先构建一个时间感知因果图来表示用户-商品观察概率。根据该图,基于同一组用户反馈数据,分别从商品和用户的视图估计两个互补倾向得分。最后,设计了两个Transformer来进行最终的偏好预测。
秋枫学习笔记
2023/01/30
5410
SIGIR'21推荐系统挖掘隐式交互,利用互信息进行图学习增强
基于user-item二分图的图神经网络推荐系统已经得到了广泛的应用与研究。对于一些隐式反馈,用户没有被观察到的一些行为,在图中不会存在边,在图学习的过程中会学习到一些隐式行为,而这些行为中,有一部分是能够反映用户真实偏好的。但是这些行为中会混合着无用信息,我们可以理解为噪声。本文所做的工作就是如何有效的捕获这些真实偏好。
秋枫学习笔记
2022/09/19
5870
CIKM'21「eBay」推荐系统--利用超图对商品的多模态信息建模
Click-Through Rate Prediction with Multi-Modal Hypergraphs https://dl.acm.org/doi/pdf/10.1145/3459637.3482327 CIKM 2021
秋枫学习笔记
2022/09/19
7030
推荐系统(十六)——FM全家桶(1),FM,FFM,DeepFM,NFM,AFM
因子分解机(Factorization Machines,FM)及其变种已经在推荐系统中得到了广泛的应用,本文就FM的系列模型进行简单总结。
秋枫学习笔记
2022/09/19
1.1K0
WWW'22 | 推荐系统:基于邻域关系的对比学习改进图协同过滤
本文利用对比学习缓解推荐系统中数据稀疏问题,并且利用图方法在对比学习中考虑邻域节点之间的关系。本文提出NCL方法,主要从两方面考虑对比关系,
秋枫学习笔记
2022/09/19
9000
SIGIR'21 微软|基于自监督图学习的召回方法
为了解决上述难点,本文采用自监督学习构建辅助任务来发掘数据内部的信息,从而为节点产生更好的表征,主要包含以下两部分:
秋枫学习笔记
2022/09/19
3600
RecSys'23 清华,shopee | STAN:基于用户生命周期表征的阶段自适应多任务推荐方法
标题:STAN: Stage-Adaptive Network for Multi-Task Recommendation by Learning User Lifecycle-Based Representation 地址:https://arxiv.53yu.com/pdf/2306.12232.pdf 会议:RecSys 2023 学校,公司:清华,Shopee
秋枫学习笔记
2023/08/18
7650
RecSys'23 清华,shopee | STAN:基于用户生命周期表征的阶段自适应多任务推荐方法
KDD'22 | 自监督超图Transformer构建推荐系统
现有基于 GNN 的推荐系统的思想是递归地执行沿用户-商品交互边传递消息,从而得到相应的embedding。尽管它们很有效,但大多数当前的推荐模型都依赖于充足且高质量的训练数据,因此学习的表征可以很好地捕捉用户偏好。许多实际推荐场景中的用户行为数据通常是嘈杂的并且呈现出偏态分布,这可能导致基于 GNN 的模型中的表征性能欠佳。本文提出了 SHT,自监督超图Transformer框架 (SHT),它通过以显式方式探索全局协作关系来增强用户表征。具体来说,利用图协同过滤范式使用超图Transformer来维持用户和商品之间的全局协作效果。利用提炼的全局上下文,提出了一种跨视图生成自监督学习组件,用于在用户-商品交互图上进行数据增强,以增强推荐系统的鲁棒性。
秋枫学习笔记
2022/09/19
1.2K0
CIKM'21「华为」图+推荐系统:比LightGCN更高效更有效的UltraGCN
如上式所示为lightGCN的每一层的计算方式,它直接聚合这些节点而不采用可学习权重和激活函数。其中u表示用户,i表示item,N(u)表示用户邻接的item集合,N(i)表示item邻接的user的集合,d表示节点的度。
秋枫学习笔记
2022/09/19
8710
Kdd'21「华为」利用图卷积进行特征交互和兴趣挖掘
基于特征交互和用户兴趣挖掘的方法已经得到了广泛的应用,比如比较有名的DIN,DIEN等。但是存在以下两个问题:
秋枫学习笔记
2022/09/19
5430
推荐阅读
相关推荐
HCCF:超图携手对比学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档