关注我们,一起学习 标题: AT4CTR: Auxiliary Match Tasks for Enhancing Click-Through Rate Prediction 地址:https://arxiv.org...导读 本文主要是针对CTR预估中数据稀疏性问题提出的相关方法,再原有的ctr预估模型中引入了一个辅助匹配任务,通过对比学习来提高点击率预测精度(AT4CTR)。...两个受协同过滤启发的匹配任务,以增强用户和item之间的相关性建模。 第一个匹配任务旨在拉近用户和item之间正样本的表征。...用户的表征包含用户画像和行为序列的emb。在用户画像 x^{UP} 中有多种类型的特征,将所有这些特征的emb拼接得到对应的表示 e^{UP} 。...并经过MLP对齐user和item的维度 r^U=MLP(e^U) r^I=MLP(e^I) 基于本节开头所述的方式构建正负样本对,然后通过infoNCE来训练模型,分别构建用户锚点和item为锚点的
因此,我们将(x,y)输入到CTR任务中,得到CTR的预估值,将(x,z)输入到CVR任务中,得到CVR的预估值,CTR和CVR的预估值相乘,便得到了CTCVR的预估值。...其中,θctr和θcvr分别是CTR网络和CVR网络的参数,l(⋅)是交叉熵损失函数。...DIVISION 先分别训练出拟合CTR和CTCVR的模型,再拿CTCVR模型的预测结果除以CTR模型的预测结果得到对CVR模型的预估 ESMM-NS ESMM模型的基础上去掉了特征表示共享的机制 ESMM...可以看到,相对于BASE模型,ESMM模型在CVR任务中AUC指标提升了 2.18%,在CTCVR任务中AUC指标提升了2.32%。...另一方面,ESMM模型的贡献在于其提出的利用学习CTR和CTCVR的辅助任务,迂回地学习CVR的思路。
CVR = 转化数/点击数。是预测“假设item被点击,那么它被转化”的概率。CVR预估任务,与CTR没有绝对的关系。一个item的ctr高,cvr不一定同样会高,如标题党文章的浏览时长往往较低。...CVR-task和CTR-task使用相同的特征和特征embedding,即两者从Concatenate之后才学习各自独享的参数; 隐式学习pCVR。..._loss_dict: Weighted loss of ctr and cvr. """ cvr_tower_name = self...._loss_dict中的内容进行加和。 2. metric计算 注意:计算CVR的指标时需要mask掉曝光数据。...实验发现,ESMM的跷跷板现象较为明显,CTR与CVR任务的效果较难同时提升。 链接: https://tianchi.aliyun.com/dataset/dataDetail?
,以及对应的处理策略; 1.CTR/CVR数据流浪费问题: 问题:在使用两套数据流的时候,我们一般需要对CTR和CVR数据流分别进行batch采样进行模型的训练,例如CTR网络的batch_size为4096...问题:CTR数据和CVR数据是分开采样训练的,每次都是分别随机采样的不同batch_size的数据,丢失了CTR数据和CVR数据之间的关联信息;经常出现同一个用户的连续行为被分割开,CTR数据是A用户点击了某个商品...实验小结:设计辅助Loss,在使用CTR数据流+CVR数据流建模的情况下,可以稳定提升曝光到转化的预估准确率; 3.CTR&CVR网络数据Cotrain的问题: 发现:在模型的过程中,我们发现先对CTR...网络先进行单独训练,固定住CTR网络再对CVR网络进行训练,相较于CTR网络和CVR网络共同训练带来的效果要好很多,但是训练的成本也会大一些,这个发现应该是通用的,也较容易理解,我们先对CTR网络进行训练完成之后...纯CTR数据流 基于对CTR数据流和CVR数据流Cotrain的讨论,我们发现既然CVR的数据是全部被包含在CTR数据中的,分开训练又浪费数据又没法直接关联关系,既然所有的CVR数据流都来源于CTR数据流
通常,传统的CVR建模方法使用和CTR预测任务的技术相似,比如使用深度学习。然而,存在几个任务相关的问题使得CVR建模变得具有挑战性。...ESMM主要包括两个子网络:左半部分是CVR网络,右半部分为CTR网络。CVR和CTR网络采用相同的结构作为base模型。CTCVR将两个网络的输出值的乘积作为CTCVR。...loss函数中的 θctr\theta_{ctr}θctr 和 θcvr\theta_{cvr}θcvr 分别是CTR和CVR网络的参数,l()表示交叉熵函数。...在ESMM中,CVR网络的embedding和CTR网络的embedding相互共享,遵循特征表示的迁移学习模式。用于CTR训练的曝光样本数据量比CVR任务大很多。...ESMM模型在CTR和CTCVR上表现比其他模型号很多,AUC上有很大的差距。 在整个数据集上训练后,ESMM模型相比于BASE模型CVR上能取得2.18%的提升,CTCVR上取得2.32%的提升。
上述策略的一大关键在于没有考虑到 CTR 和 CVR 的顺序动作信息,而阿里妈妈的同学通过充分利用用户操作的顺序性提出了 ESMM 算法,该方法能够同时解决 SSB 和 DS 问题。...ESMM 并不是直接使用曝光样本来训练 CVR,而是利用 的关系,CTCVR 和 CTR 都可以通过曝光的样本进行训练,而 CVR 作为中间变量可以由 CTR 和 CTCVR 估算得到。...因此,通过这种方法算出的 CVR 也适用于整个样本空间(与线上分布一致),这便解决了 SSB 问题。此外,CVR 和 CTR 共享网络表征,由于后者的训练样本更多,所以也可以减轻 DS 问题。...(可以这样理解,CVR 模型是没有监督信号的,而 CTR 和 CTCVR 都是有监督信号的,最后利用公式约束得到 CVR 模型。)...我们来看下 ESMM 的损失函数,由具有监督信息的 CVR 和 CTCVR 任务组成: 其中, 和 分别是 CTR 和 CVR 网络的参数; 为交叉熵损失函数。
概述 在推荐系统中,通常有多个业务目标需要同时优化,常见的指标包括点击率CTR、转化率CVR、 GMV、浏览深度和品类丰富度等。...以CTR和CVR为例,最终的目标通常是CTCVR,因此,可以分别训练一个CTR模型和CVR模型,如下图所示: 通常在实际的任务中会根据不同任务的重要性,对该任务赋予不同的权重。...没有考虑两个数据之间的关系,如上述的CTR与CVR之间存在顺序的关系; 2.2....在CTR,CVR这个多任务场景下,ESMM(Entire space multi-task model)[3]模型就是为解决上述两个问题而提出,在ESMM模型的建模过程中引入两个辅助任务,即:CTR建模和...align*} 其中, \theta _{cvr} 表示的是CVR塔中的参数, \theta _{ctr} 表示的是CTR塔中的参数, y_i 表示的是样本 \mathbf{x}_i 在CTR任务上的label
概述在推荐系统中,通常有多个业务目标需要同时优化,常见的指标包括点击率CTR、转化率CVR、 GMV、浏览深度和品类丰富度等。...以CTR和CVR为例,最终的目标通常是CTCVR,因此,可以分别训练一个CTR模型和CVR模型,如下图所示:图片通常在实际的任务中会根据不同任务的重要性,对该任务赋予不同的权重。...,如上述的CTR与CVR之间存在顺序的关系;2.2....在CTR,CVR这个多任务场景下,ESMM(Entire space multi-task model)[3]模型就是为解决上述两个问题而提出,在ESMM模型的建模过程中引入两个辅助任务,即:CTR建模和...*}其中,\theta _{cvr} 表示的是CVR塔中的参数,\theta _{ctr} 表示的是CTR塔中的参数,y_i 表示的是样本\mathbf{x}_i 在CTR任务上的label,z_i 表示的是样本
一,两种广告 广告按其投放目的可以分成两类:效果广告 和 品牌广告。 效果广告是为了直接提升某个产品的用户数量或者销售收入。...五, CTR和CVR预估 从eCPM的计算公式中可以看到,对于CPC广告,计算它的关键是准确地估计点击率CTR。...而对于CPA广告,要计算eCPM,不仅需要准确地估计点击率CTR,还需要准确地估计转化率CVR。 可以说,CTR和CVR估计得准不准,直接决定了广告流量分发的效率,从而决定了广告平台的最终收益。...从算法角度来看,CTR预估和CVR预估可以转换成一个二分类问题(点击还是没点击,转化还是没有转化)。...但广告的CTR/CVR预估和推荐系统的精排有一点细微的差别,推荐系统的精排业务上只关心这个排序的相对值,但是广告系统的CTR/CVR预估是关心这预估概率的绝对值的。
ESMM模型结构 基于以上的分析,在ESMM模型的建模过程中引入两个辅助任务,即:CTR建模和CTCVR建模,ESMM的网络结构如下图所示: 在ESMM模型结构中,有两个特点: 第一,在ESMM结构中包含了两个塔...,如上图所示,左侧是一个CVR任务的塔,右侧是一个CTR任务的塔,两个塔可以构建两个任务,分别为pCTR和pCTCVR,这样样本分别是从“曝光->点击”和“曝光->转化”,解决了样本空间的问题,通过模型中参数的学习...结果 ctr_pred = PredictionLayer('binary', name=task_names[0])(ctr_logit) cvr_pred = PredictionLayer('binary...CTR * CVR model = Model(inputs=inputs_list, outputs=[ctr_pred, ctcvr_pred]) 3....总结 在ESMM网络中,通过引入两个辅助任务CTR和CTCVR,由于这两个任务的输入空间都变成了“曝光”,从而解决了传统CVR建模中在training和inference两个过程中输入空间不一致的问题,
建模,不过在对CVR建模的过程中需要同时对CTR以及CTCVR建模。...,如上图所示,左侧是一个CVR任务的塔,右侧是一个CTR任务的塔,两个塔可以构建两个任务,分别为pCTR和pCTCVR,这样样本分别是从“曝光->点击”和“曝光->转化”,解决了样本空间的问题,通过模型中参数的学习...损失函数因为在ESMM中存在两个学习任务,分别为CTR和CTCVR,则最终的损失函数为:\begin{align*}L\left ( \theta _{cvr},\theta _{ctr} \right..._{cvr} \right ) \right )\end{align*}其中,\theta _{cvr} 表示的是CVR塔中的参数,\theta _{ctr} 表示的是CTR塔中的参数,y_i...总结在ESMM网络中,通过引入两个辅助任务CTR和CTCVR,由于这两个任务的输入空间都变成了“曝光”,从而解决了传统CVR建模中在training和inference两个过程中输入空间不一致的问题,另一个方面
使用post-click数据建模,这部分数据量相较于用于CTR训练的数据少1-3个数量级。...ESMM模型使用多任务学习,分别学习post-view点击率CTR和post-view 点击转化率CTCVR,目标CVR通过两者计算得到CVR=CTCVR/CTR;点击率CTR是在整个样本空间上,即所有的曝光样本进行训练...同时两个任务CTR、CVR底层的embedding权重是共享的,可以缓解数据稀疏问题。...根据在序列图上定义的条件概率,使用多任务学习分别预测各自的小目标,然后将它们合并构成最终的CVR预测结果。 ? 模型分为3个模块:SEM、DPM和SCM。...同时根据条件概率可以知道,我们最终的目标PCVR也适用于整个曝光样本,pCVR=pCTCVR/pCTR,这样就可以解决样本选择偏差问题,同时由于D/O Action行为样本相比于转化样本数据量会提升,对于数据稀疏问题也可以得到进一步缓解
2.3.3 ESMM模型 由于解决任务序列有依赖关系的多任务建模,文章指出CVR预估模型,预估的正是这个转化概率,它与CTR没有绝对的关系,很多人有一个先入为主的认知,即若user对某item的点击概率很低...认识到点击(CTR)、转化(CVR)、点击然后转化(CTCVR)是三个不同的任务后,我们再来看三者的关联: 再思考下,ESMM的结构是基于“乘”的关系设计——pCTCVR=pCVR*pCTR,是不是也可以通过...例如分别训练一个CTCVR和CTR模型,然后相除得到pCVR,其实也是可以的,但这有个明显的缺点:真实场景预测出来的pCTR、pCTCVR值都比较小,“除”的方式容易造成数值上的不稳定。...损失函数设计为: 特点:解决了样本选择的问题,CVR是在点击的基础上进行训练,训练集只有点击的,实际数据可能有曝光点击和曝光未点击的数据,我们往往把曝光未点击的数据给忽略了,这样就造成了样本选择偏差,训练集和实际数据分布不一致的情况...特点:多任务学习中往往存在跷跷板现象,也就是说,多任务学习相对于多个单任务学习的模型,往往能够提升一部分任务的效果,同时牺牲另外部分任务的效果。
CVR预估面临两个关键问题: Sample Selection Bias (SSB) 转化是在点击之后才“有可能”发生的动作,传统CVR模型通常以点击数据为训练集,其中点击未转化为负例,点击并转化为正例...Data Sparsity (DS) 作为CVR训练数据的点击样本远小于CTR预估训练使用的曝光样本。...这涉及到CTR与CVR两个任务: 可以看到左侧就是我们要求解的目标pCVR,通过引入右侧的两个辅助任务pCTCVR和pCTR: 将乘法转化为除法,我们可以得到pCVR的计算: 在整个样本空间建模...由于CTR任务的训练样本量要大大超过CVR任务的训练样本量,ESMM模型中特征表示共享的机制能够使得CVR子任务也能够从只有展现没有点击的样本中学习,从而能够极大地有利于缓解训练数据稀疏性问题 损失函数由两部分组成...,即pCTCVR和pCTR输出的交叉熵:
最后讲一下精排阶段,这一阶段我们不仅要预估CTR、还要预估CVR,因为电商领域的推荐的目标一般是提高GMV(CTR * CVR * Price,商品的Price是确定的,无需预估)。...但是,这些特征在线上预估阶段是无法获取的,我们需要在给用户展示物品的时候就来预估CVR,所以对于CVR预估来说,用户在点击后进入到商品详情页的一些特征同样是Privileged Features。...使用这些Privileged Features,是可以提升模型的预测精度的。...因此本文借鉴模型蒸馏的思想,让粗排阶段的CTR模型或者是精排阶段的CVR模型,都能够学习到一些Privileged Features的信息。下一节,咱们来具体学习一下。...因此,一种做法是同时训练Teacher网络和Student网络,二者的损失函数变为: 这么做虽然能够带来训练速度的提升,但有时候的效果是比较差的。
美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。...前言 在计算广告领域,点击率CTR(click-through rate)和转化率CVR(conversion rate)是衡量广告流量的两个关键指标。...准确的估计CTR、CVR对于提高流量的价值,增加广告收入有重要的指导作用。...在这些模型中,FM和FFM近年来表现突出,分别在由Criteo和Avazu举办的CTR预测竞赛中夺得冠军[4][5]。...考虑到FFM模型在CTR预估比赛中的不俗战绩,美团点评技术团队在搭建DSP(Demand Side Platform)[6]平台时,在站内CTR/CVR的预估上使用了该模型,取得了不错的效果。
② 广告系统中的模型相比推荐模型的要求更高,推荐模型一般只要求把推荐物品的序排正确,广告模型则要求预估的CTR,CVR要非常准确,具备物理意义,因为这些都影响到出价和扣费这些直接和公司收入相关的模块。...② 过于复杂的深度学习模型已经被不少公司证明对业务指标的提升效果是微乎其微的。复杂结构对于稳定性的影响,模型体积过大对于资源的过度浪费,已经很难和模型带来的效果提升持平。...很多同行可能会说,上面主要说的是CTR,CVR这类比较重的精排模型吧,召回和粗排的迭代难道也遇到同样的问题吗?...其实广告系统的业界和学术界的同行们大多数的关注点都在CTR,CVR预估这类“大模型”上,Pacing这种非常偏实践,偏工程模块的曝光度就比较低。...CTR,CVR估的更准。
作者使用MMoE同时学习CTR和CVR,然后pCTCVR蒸馏给DSSM。MMoE是teacher网络,DSSM是student网络。...预测的pCTCVR p_{ctcvr} = p_{ctr}p_{cvr} 。...论文实验也展示了离线的AUC和线上的平均阅读时长都有不错的提升。 离线蒸馏方法 DMTL是同时训练MMoE和DSSM的。如果有大量的数据,训练的时间复杂度较高。...这时我们可以将精排的打分(比如ctr和cvr分)保存下来。 离线的蒸馏的方法得到的精排分是不及时的,毕竟是昨天产生的,可能与今天线上学习到的分有所区别。...本人也用多目标精排的打分和排序去蒸馏给DSSM,点击率影响不大(可能因为其它的召回模型都是在提升点击率,因此补充了DSSM在点击率上的损失),但是互动率却有很大的提升。
一、业务背景 一个专业背景推荐知识是:这里设计了一个数据结构m_cvr2是进行cvr打分。...作为对比,我们也打印了m_ctr和m_cvr容器) 可以看到这个m_cvr2的[场景id为258]的map没有clear成功。...v消息20220602-173840.png 对比m_ctr或者m_cvr的[场景id为258]的map已经成功clear了。...如果是只读这个m_cvr2本身是没问题的,但是一旦有线程没有find去创建新元素,那就会导致其他对m_cvr2的操作有几率出现core文件。...这里类似m_ctr和m_cvr,把元素都初始化预填充出来。
那么用户行为漏斗中的曝光、点击、时长的转化关系和概率量化可以用下面的图 7 来表示: 图7 曝光、点击、时长的转化关系和概率量化 因为 CTCVR 同时考虑了 CTR 和 CVR,是从文章曝光到最后一步时长转化的直接估计...ESMM 用了两个共享底层参数的 DNN 分别预估 CTR 和 CVR,CTCVR 的预估值则通过 CTR 和 CVR 的预估值的乘积得到,而不是用一个网络去直接预估。...预估的 CTR 和点击类标 用于计算拟合 CTR 的损失,预估的 CTR×CVR 和类标 用于计算拟合 CTCVR 的损失,其中的 CVR 只是一个用于构造预估 CTCVR 的中间变量,并不拟合任何目标...由于对 CTCVR 的预估分解成了对 CTR 的预估和对 CVR 的预估,所以在预估 CTCVR 时,上述两种不同负样本就能被很好地区分开来。...、 和 分别是拟合 CTR、时长 CTCVR 和关注 CTCVR 的损失函数,均为二分类交叉熵,θ 是对 CTR 的预估,θ 是对时长 CVR 的预估,θ 是对关注 CVR 的预估,θ 为模型参数,、
领取专属 10元无门槛券
手把手带您无忧上云