Loading [MathJax]/extensions/TeX/boldsymbol.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >行为感知Transformer:用于多行为序列推荐的

行为感知Transformer:用于多行为序列推荐的

作者头像
秋枫学习笔记
发布于 2024-02-27 00:32:50
发布于 2024-02-27 00:32:50
7380
举报
文章被收录于专栏:秋枫学习笔记秋枫学习笔记

标题:Personalized Behavior-Aware Transformer for Multi-Behavior Sequential Recommendation 地址:https://arxiv.org/pdf/2402.14473.pdf 会议:MM'23 学校:浙大 代码:https://github.com/TiliaceaeSU/PBAT

1.导读

本文主要针对序列推荐中的多行为序列推荐,即行为序列中包含不同的行为类型,比如点击,加购,购买等。为了捕获用户的个性化行为模式和行为间的复杂协作关系,作者提出PBAT方法:

  • 通过个性化行为模式生成器来提取动态且具有区分度的行为模式,不同用户的行为模式是不同的
  • 并在自注意力层引入行为感知的协作提取器,提取序列中的协作转换关系

alt text

如图所示是一个例子,对于Mike,他通常会将想要购买的物品添加到购物车,最终的购买也是之前加购物车的商品。而对于Anna,她的行为模式中可能加购和最终购买并没有强关联性,即不同用户的行为模式是不同的

并且,将手机添加到购物车可能会促使用户随后购买蓝牙耳机,因为这两种物品在用途上是互补的。然而,将耳机添加到购物车可能会降低购买耳机的概率,因为这两种产品在市场竞争力上存在竞争关系。这些行为序列暗示了潜在的物品间协作关系,而物品间的协作又反过来影响了行为转换的影响

2. 方法

alt text

PBAT基于Transformer,主要由两个模块组成:

  • 个性化行为模式生成器(Personalized Behavior Pattern Generator, PBPG),生成器包含两个部分:
    • 动态表征编码,利用高斯分布来描述多行为序列中的实体和关系,得到更具区分性的表征
    • 个性化模式学习,利用自适应高斯生成来精细化通用行为模式,更好地反映用户的个性化偏好。
  • 行为感知协作提取器(Behavior-Aware Collaboration Extractor, BACE)。
    • 通过整合统一的行为关系和个性化模式来提取行为协作影响因子;
    • 使用行为感知注意力机制探索从物品、行为和位置的复杂序列协作。

2.1 个性化行为模式生成器

2.1.1 动态表征编码

受外部和内部因素的影响,用户行为模式在序列环境中表现出很大的动态性和不确定性。因此,固定向量无法描述不断演变的序列模式。因此作者这里学习表征的分布,采用多维椭圆高斯分布来描述不同的实体。

实体分布

多维椭圆高斯分布可以用均值和协方差来表示,均值来区分特征,协方差来控制不确定性。对于所有的商品,初始化均值表征

,初始化协方差表征

是item个数。那么行为序列中item的序列表征可以表示为

同理可以得到用户,位置和行为类型的表征,即都初始化各自的均值和协方差,此处不赘述。

行为关系分布

由于每对行为转换都表现出异构的顺序依赖性(即不同行为之间的依赖性不同),因此需要考虑行为关系分布。一对行为类型之间的每个关系都被视为独立的分布表征,如两类行为

,则他们的依赖关系的均值的协方差表征为

2.1.2 个性化模式学习

本节设计了一种自适应高斯生成(SAGP),将统一的行为转换特征与个人特征相结合。用户和行为都是通过分布嵌入来表示的,其中均值向量决定全局特征,协方差向量指的是不确定性。个性化模式定义为下式,其中上标e,b,pt分别表示用户实体,行为实体和个性化模式实体。

SAGP的设计原则是从用户和行为的角度整合主要特征,并限制不确定性范围。融合均值向量如下式,

其中

是平衡来自用户和行为的影响,由于不同特征空间(即用户空间和行为空间)之间存在分布偏差,使用可学习的权重W来进行特征对齐。为了获得鲁棒的行为模式,需要提取强稳定性的判别特征,而较低的协方差表示更准确的分布,因此相对较大的协方差应该会对实体对最终模式产生较小的影响。通过下式融合用户和行为的分布的协方差,并且约束其上下限为

2.2 行为感知协作提取器

如前文所述,不用用户的行为模式不同,且item之间的写作关系也不同。因此本节提出了一种行为感知协作提取器来取代传统transformer中的普通注意力层。

2.2.1 行为协作影响因素

为了捕捉序列上下文中的行为转换语义,基于Wasserstein的方法来衡量行为协作影响因子。给定s位置和t位置的两个item

, 相应的行为是

。通过上文的SAGP结合用户和行为实体的分布,可以得到两个位置的模式

对其进行映射后,计算Wasserstein距离(计算两个部分的距离)来衡量行为协作影响,其中x表示s或t

其中Wasserstein距离表示为下式

得到表示模式之间的共同影响力系数m后,从关系对的集合中挑选出相应的行为关系表征(前面构造的两两行为关系的均值和协方差),将行为关系和行为模式结合起来得到下式,

2.2.2 融合行为感知注意力

本节引入了一种融合的行为感知注意力机制提取序列中的协作信息

位置增强的行为感知融合

为了实现多头注意力,要先对商品和行为的表征进行线性变换分别得到各自的qkv,这里以商品的query为例,同理可以得到其他的

对于传统的注意力层,点积通常用于计算商品之间的相关性,但不适用于推断高斯分布之间的距离。本节提出了一种位置增强的行为感知融合(PB Fusion),为混合分布表征设计,用于计算多行为交互对之间的差异。在SAGP的基础上提出TriSAGP,将SAGP扩展为三元的,在原有的基础上注入位置信息。(整体上和SAGP是类似的,就是多加个位置信息的表征),公式如下,

注意力聚合

使用前面得到的key和query,通过Wasserstein距离计算注意力得分为

,然后对得分进行归一化,之后进行加权求和:

然后在后面接FFN,类似transformer中一样,经过n层最后得到均值和协方差

2.3 预测和训练

2.3.1 预测

在预测阶段,我们在前面已经得到了最终的均值和协方差的表征,在此基础上结合上用户在目标行为下的模式来细化表征

,z表示目标行为,那

其实也是通过SAGP得到的。最终的预测自然也是通过wass距离来计算相似度

2.3.2 训练

采用Cloze任务作为训练目标,在这种多行为序列的情况下,对于每个训练step,随机在序列中屏蔽

比例的商品,即用[𝑚𝑎𝑠𝑘]替换item,但是保持对应的行为token不被mask。模型基于序列上下文和目标行为模式对mask商品进行预测。损失函数为交叉熵损失

3. 结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 秋枫学习笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CIKM'21「品趣」序列推荐DT4SR:将序列建模为不确定性分布
本文主要针对序列推荐,在序列推荐中,用户的偏好的动态变化的,并且序列中的商品转换模式是不断波动的并且具有一定的随机性在里面,因此在序列表征中存在一些不确定性。作者对基于Transformer的序列推荐方法进行改进,提出了基于分布的Transformer,DT4SR。
秋枫学习笔记
2022/09/19
4560
Ada-Ranker:咱就说咱能根据数据分布自适应,不信瞧瞧?
现在主流的排序模型设计和使用方式是:离线训练模型,冻结参数,并将其部署到在线服务。但是实际上,候选商品是由特定的用户请求决定的,其中潜在的分布(例如,不同类别的商品比例,流行度或新商品的比例)在生产环境中彼此之间存在很大差异。经典的参数冻结推理方式无法适应动态服务环境,使得排序模型的表现受到影响。
秋枫学习笔记
2022/09/19
5520
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral
新一代 Kaldi 团队是由 Kaldi 之父、IEEE fellow、小米集团首席语音科学家 Daniel Povey 领衔的团队,专注于开源语音基础引擎研发,从神经网络声学编码器、损失函数、优化器和解码器等各方面重构语音技术链路,旨在提高智能语音任务的准确率和效率。
机器之心
2024/01/29
2.5K0
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral
CIKM'21序列推荐|基于区域的embedding捕获用户行为中的偏好
可以先看背景和总结部分,对整个文章做的工作进行了简单的概括,公式太长的可以左右滑动哦~
秋枫学习笔记
2022/09/19
5180
CIKM'21「快手」视频推荐 | 概念感知的去噪图神经网络
本文提出的概念感知的去噪图神经网络CONDE进行短视频推荐。主要包含三个步骤:warm-up propagation, graph denoising and preference refinement。构建三方异构图:用户-视频,视频-概念。
秋枫学习笔记
2022/09/19
9390
WWW'22「快手」序列推荐:解耦长短期兴趣
4. 最后由于长期和短期兴趣的重要性是动态变化的,通过基于注意力的网络自适应地聚合它们进行预测。
秋枫学习笔记
2022/09/19
9230
WWW'22「Spotify」序列推荐:考虑不确定性的随机自注意力机制
本文和下面这篇文章有类似之处,都是考虑不确定性,指同一作者缩写,感兴趣的小伙伴可以阅读
秋枫学习笔记
2022/09/19
7140
CIKM'22 | 序列推荐中的多层次对比学习框架
本文主要针对序列推荐中的数据稀疏问题提出相应的解决方法,针对现有对比学习在缓解该问题上的不足提出MCLSR。现有方法的不足:由于对复杂的协作信息(例如用户-商品关系、用户-用户关系和商品-商品关系)的建模不足,学习信息丰富的用户/商品embedding还远远不够。本文提出了一种新的用于序列推荐的多层次对比学习框架,称为 MCLSR。与之前基于对比学习的 SR 方法不同,MCLSR 通过跨视图对比学习范式从两个不同级别(即兴趣级别和特征级别)的四个特定视图学习用户和商品的表征。具体来说,兴趣级对比机制与顺序转换模式共同学习协作信息,特征级对比机制通过捕获共现信息重新观察用户和商品之间的关系。
秋枫学习笔记
2023/01/30
1.1K0
WWW'21 | 推荐系统:兴趣感知消息传递的GCN缓解过度平滑问题
GCN存在过度平滑问题,在推荐系统中运用GCN同样也会面临这个问题。LightGCN 和 LR-GCN 在一定程度上缓解了这个问题,然而它们忽略了推荐中过度平滑问题的一个重要因素,即没有共同兴趣的高阶相邻用户会参与用户在图卷积操作中的embedding学习。结果,多层图卷积将使兴趣不同的用户具有相似的嵌入。本文提出了一种兴趣感知消息传递 GCN (IMP-GCN) 推荐模型,该模型在子图中执行高阶图卷积。子图由具有相似兴趣的用户及其交互商品组成。为了形成子图,本文设计了一个无监督的子图生成模块,它可以通过利用用户特征和图结构来有效地识别具有共同兴趣的用户。从而避免将来自高阶邻居的负面信息传播到嵌入学习中。
秋枫学习笔记
2022/09/19
9380
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
本文针对点击率CTR预估提出新方法GMT,推荐系统的性能通常受到不活跃行为和系统曝光的影响,导致提取的特征没有包含足够的信息。本文提出基于邻域交互的CTR预测方法,通过异构信息网络HIN挖掘目标用户-商品对的局部邻域来预测他们的链接。并且,考虑节点之间的四种拓扑交互来增强局部邻域表征。
秋枫学习笔记
2022/09/19
4550
深度学习应用篇-元学习[14]:基于优化的元学习-MAML模型、LEO模型、Reptile模型
Model-Agnostic Meta-Learning (MAML): 与模型无关的元学习,可兼容于任何一种采用梯度下降算法的模型。 MAML 通过少量的数据寻找一个合适的初始值范围,从而改变梯度下降的方向, 找到对任务更加敏感的初始参数, 使得模型能够在有限的数据集上快速拟合,并获得一个不错的效果。 该方法可以用于回归、分类以及强化学习。
汀丶人工智能
2023/10/11
1.8K0
深度学习应用篇-元学习[14]:基于优化的元学习-MAML模型、LEO模型、Reptile模型
对点云匹配算法ICP、PL-ICP、NICP和IMLS-ICP的理解
点云匹配算法是为了匹配两帧点云数据,从而得到传感器(激光雷达或摄像头)前后的位姿差,即里程数据。匹配算法已经从最初的ICP方法发展出了多种改进的算法。他们分别从配准点的寻找,误差方程等等方面进行了优化。下面分别介绍:
首飞
2022/08/17
5.9K0
推荐系统(二十一)DIN系列——DIN、DIEN、DSIN深度兴趣网络总结
本文为阿里DIN系列方法的简单总结,这里将会总结DIN系列文章的创新之处,以及相应的方法。DIN提出的原因我们在base model里面介绍。
秋枫学习笔记
2022/09/19
3.3K0
ImgX-DiffSeg:基于 DDPMs 的 3D 医学图像分割
本篇文章继续解读医学图像 diffusion 系列,之前我们分别介绍过在自监督和有监督分割中的 diffusion 应用。链接:
公众号-arXiv每日学术速递
2023/08/26
7700
ImgX-DiffSeg:基于 DDPMs 的 3D 医学图像分割
WSDM'22 | 利用反事实框架预测用户流失
本文针对用户流失预测提出结合因果推断的方法CFChurn。结合反事实推理,捕获社会影响的信息从而对流失进行预测。
秋枫学习笔记
2022/09/19
6640
【机器学习-无监督学习】降维与主成分分析
  在上一篇文章聚类中,我们介绍了无监督学习的重要问题之一:聚类问题,并主要讲解了k均值算法。结尾处我们提到,在解决复杂聚类问题时,第一步通常不会直接使用k均值算法,而是会先用其他手段提取数据的有用特征。对于高维复杂数据来说,其不同维度代表的特征可能存在关联,还有可能存在无意义的噪声干扰。因此,无论后续任务是有监督学习还是无监督学习,我们都希望能先从中提取出具有代表性、能最大限度保留数据本身信息的几个特征,从而降低数据维度,简化之后的分析和计算。这一过程通常称为数据降维(dimensionality reduction),同样是无监督学习中的重要问题。本文就来介绍数据降维中最经典的算法——主成分分析(principal component analysis,PCA)。
Francek Chen
2025/01/22
2430
【机器学习-无监督学习】降维与主成分分析
WWW'22 | 推荐系统:基于邻域关系的对比学习改进图协同过滤
本文利用对比学习缓解推荐系统中数据稀疏问题,并且利用图方法在对比学习中考虑邻域节点之间的关系。本文提出NCL方法,主要从两方面考虑对比关系,
秋枫学习笔记
2022/09/19
9020
SIGIR'22「amazon」CaFe:从粗粒度到细粒度的稀疏序列推荐
本文是针对序列推荐的一篇短文,主要针对自注意力方法无法很好地应对稀疏数据,无法对稀疏数据提高较好的保证,而提出的从粗到细的自注意力方法CaFe。该方同时从购物意图和交互商品中对用户动态性进行建模,显式地从粗粒度和细粒度两方面学习序列中的含义。
秋枫学习笔记
2022/09/19
6480
SIGIR'21 | 模式感知的序列推荐方法
本文是针对序列推荐而提出的相关方法,MoSeR。该方法在考虑行为序列宏观结构的同时,进一步考虑微观结构。MoSeR捕获隐藏在行为序列中的模式以对微观结构特征进行建模。MoSeR 提取同时包含最后一个行为和目标商品的模式。这些模式以有向图的形式反映了局部商品之间的拓扑关系。因此,MoSeR可以在了解局部商品之间的固有模式的情况下做出更准确的预测。
秋枫学习笔记
2022/09/19
4040
CIKM'21「华为」推荐系统 | 因果推断+强化学习:反事实用户偏好模拟
文中涉及变分推断,可参考这篇阅读:https://zhuanlan.zhihu.com/p/70644599
秋枫学习笔记
2022/09/19
8240
推荐阅读
CIKM'21「品趣」序列推荐DT4SR:将序列建模为不确定性分布
4560
Ada-Ranker:咱就说咱能根据数据分布自适应,不信瞧瞧?
5520
小米新一代Kaldi团队论文解读:新型自动语音识别 (ASR) 模型Zipformer诞生之路|ICLR 2024 Oral
2.5K0
CIKM'21序列推荐|基于区域的embedding捕获用户行为中的偏好
5180
CIKM'21「快手」视频推荐 | 概念感知的去噪图神经网络
9390
WWW'22「快手」序列推荐:解耦长短期兴趣
9230
WWW'22「Spotify」序列推荐:考虑不确定性的随机自注意力机制
7140
CIKM'22 | 序列推荐中的多层次对比学习框架
1.1K0
WWW'21 | 推荐系统:兴趣感知消息传递的GCN缓解过度平滑问题
9380
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
4550
深度学习应用篇-元学习[14]:基于优化的元学习-MAML模型、LEO模型、Reptile模型
1.8K0
对点云匹配算法ICP、PL-ICP、NICP和IMLS-ICP的理解
5.9K0
推荐系统(二十一)DIN系列——DIN、DIEN、DSIN深度兴趣网络总结
3.3K0
ImgX-DiffSeg:基于 DDPMs 的 3D 医学图像分割
7700
WSDM'22 | 利用反事实框架预测用户流失
6640
【机器学习-无监督学习】降维与主成分分析
2430
WWW'22 | 推荐系统:基于邻域关系的对比学习改进图协同过滤
9020
SIGIR'22「amazon」CaFe:从粗粒度到细粒度的稀疏序列推荐
6480
SIGIR'21 | 模式感知的序列推荐方法
4040
CIKM'21「华为」推荐系统 | 因果推断+强化学习:反事实用户偏好模拟
8240
相关推荐
CIKM'21「品趣」序列推荐DT4SR:将序列建模为不确定性分布
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档