Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【SPA 大赛】简述一些平滑方法在 CTR 预估中的应用

【SPA 大赛】简述一些平滑方法在 CTR 预估中的应用

原创
作者头像
连庆
修改于 2017-06-27 07:25:23
修改于 2017-06-27 07:25:23
4.3K1
举报
文章被收录于专栏:连庆的专栏连庆的专栏

在网络广告投放指标评估中,CTR(click-through rate)是众多有效的评估手段中的一种,而预测CTR也是数据挖掘上一个热门的领域,在腾讯TSA举办的SPA大赛中,预测移动APP广告转化率,也有一定的相关性,所以前人在预测CTR中用到的方法也很值得在这次比赛中借鉴与学习。而对CTR的平滑处理这是这些方法的其中一种,并且在初赛实践中发现,平滑处理后相较于未平滑处理有0.0005~0.002之间的分数提升(这里面的区别跟统计的方法,还有参数设置等等有关,笔者也没有特别的把握,加了就能有这样的提升)下面文章将分三个方面:1、为什么要加入平滑处理 2、相关细节介绍 3、针对天数不同可以做的额外处理。

一、为什么要加入平滑处理

首先,我们在进行CTR预测时常常会加入一个广告ID或者用户等等过去的转换率作为特征,并且这个特征往往在最后训练中占有较大的权重,但是简单的计算转换率往往会由较大的方差。如:广告A过去被看到200次,而被转换了4次,最后的转换率是2%,广告B被点击了10次,转换了0次,转换率是0%,我们是否就能得出A的转换率比B高呢,我想这里面的稳定性是很低的。

并且时常会出现,近期新出现的广告需要预测,而这类广告的历史出现次数都是很低的。而这时候就需要平滑点击次数少的广告,降低低点击次数的噪音,并且避免对样本多的数据造成较大的影响。

二、相关细节介绍

(1)Add-Lambda Smoothing

首先介绍最简单的Smoothing 方法,

,其中将分子与分母加上lambda(如0.001、1、10等),这样就能够避免上面讲到的,因为没有被点击过而有可能错误的将其点击率估计为0%。

然而Add-One Smoothing 也有它的弊端,即使加上1之后,因为样本少的原因,这样计算出来的点击率仍旧是存在较大的方差的。

(2)Additive smoothing and generalized to the case of known incidence rates

当我们除了这个特征以外,在其他特征上有对应较好的转换率作为先验的话,就可以将这个信息加入到我们的平滑方法中去,

μ = (μ1, …, μd)是对应的其他特征上的转换率。如在TPA比赛中,因为connectionType特征维度低,样本数量够大,我们可以将connectionType的转换率作为我们的μ,使得我们平滑后的转换率噪音更低,避免了过拟合并且符合真实情况,而这个方法也是笔者在Owenzhang在kaggle avazu 上的solution中学到的,读者可以前往进行深入的学习。但是这里仍然存在一个问题,这里的lambda到底要设多少,我也没有很好的解决方案(如果读者有更好的想法,欢迎交流),可能这里也是需要调参的地方,而这会花费大量的时间。

三、针对天数不同可以做的额外处理

首先,我们在统计前几天转换率时,大部分时间我们是对天数统一看待,每一天在统计转换率的权重都是相同的,而真实情况下,前一天的转换率相较于再前一天的转换率有更高的可信度,此时我们可以给每一天设置一定的权重,并增加近期转化率的权重,降低较远时间上转化率的权重,以使得构造的特征更具有可信度。而这个方法是在 Yahoo实验室发的一篇关于CTR的paper上看到的1具体方法,可以前往查看。

(PS:笔者在使用这个方法上得到的提升没有上面的方法得到的提升更有效)

最后,因为刚接触CTR比赛的原因,所以上面的一些见解可能存在偏颇,所以,若有发现,希望能够指出,并希望在比赛中,能够与伙伴们一同进步。

Reference Link:

1.http://cs229.stanford.edu/notes/cs229-notes2.pdf 2.https://www.cs.jhu.edu/~jason/465/PowerPoint/lect05-smoothing.ppt 3.http://www.cs.cmu.edu/~xuerui/papers/ctr.pdf 4.https://github.com/owenzhang/kaggle-avazu

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
我想问一下 第一个公式中的d 是啥?d是咋定义的,是不是分子和分母同时加上一个数值就OK啦。
我想问一下 第一个公式中的d 是啥?d是咋定义的,是不是分子和分母同时加上一个数值就OK啦。
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
【 SPA大赛 】数据测试与特征工程的优化思路
本文介绍了数据测试与特征工程的优化思路,通过分析比赛数据、尝试不同的特征工程方法以及交流心得,以提高模型性能。通过多尝试、多观察、多交流的方法,可以更好地优化比赛成绩。
马卓然
2017/06/06
1.1K0
【 SPA大赛 】数据测试与特征工程的优化思路
转化率预估中的贝叶斯平滑
在做比赛的过程中,我们发现了有转化率这个指标在大量数据下是有效的。理想情况下,例如某个广告点击量是10000次,转化量是100次,那转化率就是1%。但有时,例如某个广告点击量是2次,转化量是1次,这样算来转化率为50%。但此时这个指标在数学上是无效的。因为大数定律告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。后者点击量只有2次,不满足“重复试验多次”的条件。
阿泽 Crz
2021/02/09
2.3K0
【 SPA 大赛 】从点击率预估的视角看腾讯社交广告算法大赛
本文从点击率预估的视角,分析了腾讯社交广告算法大赛的赛题,并指出点击率预估与转化率预估的异同点。选手在解决转化率预估问题时,可以参考这些异同点,设计更合适的解决方案。
腾讯云开发者社区
2017/06/08
1.8K0
【 SPA 大赛 】从点击率预估的视角看腾讯社交广告算法大赛
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
本文主要介绍了在CTR预估中,特征工程的工作内容和流程,以及机器学习模型在CTR预估中的应用。作者通过实践中的案例,详细介绍了如何从原始数据中提取特征,并进行特征工程,以及使用机器学习模型进行CTR预估。同时,作者也分享了一些在实际操作中需要注意的问题和技巧。
王照彬
2017/06/08
2.3K1
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
Kaggle大神带你上榜单Top2%:点击预测大赛纪实(上)
大数据文摘作品 作者:Gabriel Moreira 编译:朝夕、Katherine Hou、党晓芊、Niki、元元、钱天培 作为全世界最知名的数据挖掘、机器学习竞赛平台,Kaggle早已成为数据玩家在学习了基础机器学习之后一试身手的练兵场。 那么,参加Kaggle比赛到底是怎样一种体验呢?Kaggle比赛的爱好者们不计其数,很显然这些比赛不会是简单枯燥的模型调参。 更进一步地问,Kaggle比赛的优胜者们又是如何取得优异的成绩的呢?优质的算法对大多数Kaggle竞赛来说显然不是制胜法宝——SVM、随机森林
大数据文摘
2018/05/24
1.2K0
Kaggle 数据挖掘比赛经验分享
Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过
CSDN技术头条
2018/02/12
1.6K0
Kaggle 数据挖掘比赛经验分享
【SPA大赛】预测广告转化率实战心得
肖洋
2017/06/07
1.7K0
【SPA大赛】SPA大赛数据探索与解题思路
本文介绍了腾讯社交广告算法大赛的背景、目标以及比赛过程中的一些探索和实践。参赛者需要利用数据分析和特征提取技术,搭建预测模型来预测移动App广告点击后被激活的概率。在比赛过程中,参赛者进行了深入的分析和实验,最终通过模型融合的方式取得了较好的预测效果。
朱云龙
2017/06/09
9760
【SPA大赛】SPA大赛数据探索与解题思路
程序化点击率预估(CTR)
指标 广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标: 1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。 2. 数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我们出价会相对保守,从而使得预算花不出去或是花得太慢;如果我们对CTR普遍高估,我们的出价会相对激进,从而导致CPC太高。从技术上,我们有Fac
机器学习AI算法工程
2018/03/13
2K0
程序化点击率预估(CTR)
【SPA大赛】腾讯社交广告大赛心得分享
本文介绍了如何通过分析腾讯社交广告大赛中的数据来提高CTR预估准确率。首先,作者讲述了数据处理和特征工程方面的内容,包括数据清洗、特征选择、特征构造和特征贝叶斯平滑等。然后,介绍了模型选择和模型融合方面的内容,包括模型选择、模型训练和模型融合等。最后,作者分享了比赛心得,包括训练集构造、特征提取和模型调参等方面,希望对读者有所帮助。
申星
2017/06/08
2.1K0
【SPA大赛】腾讯社交广告大赛心得分享
【 SPA大赛 】关于数据处理和特征工程的一些分享
本文介绍了关于数据处理和特征工程的一些分享,主要包括数据探索、数据预处理、特征工程和技巧等内容。作者通过参加腾讯社交广告高校算法大赛,在比赛中尝试了不同的数据处理和特征工程方法,最终取得了良好的成绩。同时,作者也分享了一些在实验过程中积累的经验和技巧,对于参赛者具有一定的参考意义。
方舒
2017/06/08
1.1K0
一文梳理2017腾讯广告算法大赛决赛方案
时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。
Coggle数据科学
2021/12/24
1.2K0
一文梳理2017腾讯广告算法大赛决赛方案
【SPA大赛】菜鸟在数据挖掘中的体验
本文介绍了自己在数据挖掘领域的学习和实践经验,包括参加腾讯广告算法大赛、数据可视化和特征工程等。作者认为,在比赛中,理解业务场景、开展特征工程和多与他人交流是非常重要的。通过参加这次比赛,作者希望能够学习到更多的经验和技巧,提高自己的实际能力。
谭学仕
2017/06/06
1.1K0
【SPA大赛】菜鸟在数据挖掘中的体验
【干货】Kaggle 数据挖掘比赛经验分享
如果你也跃跃欲试,不妨选一个合适的任务,开启数据挖掘之旅吧。
腾讯知文实验室
2018/02/08
1.6K0
【干货】Kaggle 数据挖掘比赛经验分享
【技术博客】深入FFM原理与实践
FM和FFM模型是最近几年提出的模型,凭借其在数据量比较大并且特征稀疏的情况下,仍然能够得到优秀的性能和效果的特性,屡次在各大公司举办的CTR预估比赛中获得不错的战绩。美团点评技术团队在搭建DSP的过程中,探索并使用了FM和FFM模型进行CTR和CVR预估,并且取得了不错的效果。本文旨在把我们对FM和FFM原理的探索和应用的经验介绍给有兴趣的读者。 前言 在计算广告领域,点击率CTR(click-through rate)和转化率CVR(conversion rate)是衡量广告流量的两个关键指标。准确
美团技术团队
2018/03/12
1.6K0
一文搞懂CTR建模
作者:coreyzhong,腾讯 IEG 应用研究员 本文分为三个部分: Part1 是前菜,帮助没接触过相关内容的同学快速了解我们要做什么、为什么做; Part2 适合刚刚接触 pCTR 建模想要完成项目的算法同学; Part3 适合正在做 CTR 建模项目且想要进一步优化效果的算法同学。 Part1 计算广告 广告是互联网流量变现的重要手段,也是互联网产品进行推广的重要方式。互联网广告行业经历了合约广告时期、精准定向广告时期、竞价广告时期等多阶段的发展,现在行业内已经普遍采用了自动化竞价的广告投放
腾讯技术工程官方号
2021/10/19
2.1K0
【点击率预估】Wide&deep 点击率预估模型
导语 PaddlePaddle提供了丰富的运算单元,帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里,我们针对常见的机器学习任务,提供了不同的神经网络模型供大家学习和使用。本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 点击率预估模型预判
用户1386409
2018/03/15
2.1K0
【点击率预估】Wide&deep 点击率预估模型
【论文笔记】CVR预估之ESMM模型
预测post-click转换率CVR在排序系统如推荐系统、广告中是至关重要的。传统的CVR模型使用深度学习方法已经实现到state-of-the-art水平。但是在实际应用中会遇到几个特定的问题让CVR模型建模变得困难。比如,传统的CVR模型是在点击曝光样本上训练的;但是最终是在整个样本空间上进行应用(曝光样本空间)。这就造成了样本选择偏差问题(Sample Selection Bias)。此外,数据稀疏问题让模型训练变得困难。在这篇论文中,提出利用用户行为序列数据,如曝光—>点击—>转化,对CVR模型建模的新方法。提出的ESMM模型可以同时消除上述两个问题:1)在整个样本空间对CVR模型进行建模;2)使用特征表示迁移学习策略对数据稀疏问题进行解决。在淘宝推荐系统收集的数据集上,ESMM模型比其他方法表现优异。最后公开了一个抽样版的数据集,包含点击、转换标签序列独立的用于CVR训练的训练样本。
公众号-不为谁写的歌
2020/08/14
3.4K0
推荐广告系统中的特征
数据和特征的机器学习的基础,没有足够数量的正负样本和有效且适合模型的特征,即使模型再优秀,模型的效果也不好太好,相反数据量足够,设计出有效且适合模型的特征,即使使用最简单的模型也可能获得较好的效果,特征的重要性不言而喻,我们应该从哪些方面设计特征呢?文本中特征相关概念、人工特征工程、特征处理方式、特征工程和模型的结合等方面具体介绍下推荐广告系统中的特征。
用户2794661
2022/07/20
2.5K0
业界 | 从FM推演各深度CTR预估模型(附代码)
多年以后,当资深算法专家们看着无缝对接用户需求的广告收入节节攀升时,他们可能会想起自己之前痛苦推导FM与深度学习公式的某个夜晚……
大数据文摘
2018/07/31
2K0
业界 | 从FM推演各深度CTR预估模型(附代码)
推荐阅读
相关推荐
【 SPA大赛 】数据测试与特征工程的优化思路
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档