Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【SPA大赛】广告数据挖掘的经验分享

【SPA大赛】广告数据挖掘的经验分享

原创
作者头像
王晓娟
修改于 2017-06-19 10:55:10
修改于 2017-06-19 10:55:10
1.2K0
举报
文章被收录于专栏:王晓娟的专栏王晓娟的专栏

大家好,我们的团队是由来自三个不同专业的小伙伴组成,且都是萌新,这是我们团队第一次参加数据挖掘比赛。我们团队从5月10号下载数据后开始看题目,找相关资料等,就在当天晚上我在腾讯官方微信公众平台上看到了腾讯数据挖掘工程师陈成龙分享的“ kaggle 数据挖掘比赛经验分享”的干货,这份干货对数据挖掘小白的我们实在是太有用了,于是我和队友花了整整一天的时间研究了一下这份干货,随后再去看题目,这才有了一些思路。尽管我们在初赛过程中困困重重,但我们经过两周的共同的努力,目前以0.099711的成绩进入了决赛。下面我就针对具体问题介绍一下我们的做法。

1.数据集构造方面

我们在看了好几遍题目后,开始尝试用干货中提到的数据清洗策略清洗本次数据。首先是分别统计了 train.csv 中 label=1 和 label=0 的样本数量,发现这个比例是1:40,很明显是正负样本不均衡的问题。然后发现数据分布在6个.csv 文件中(train.csv和test.csv除外),这里需要做的工作就是 merge,但真正要把 merge 做好就需要找对连接的标签和采用的连接方式,我们用了左外连接。另外在 validation 划分方面,我们随机选取数据集的12%作为 validation ,因为不同的随机数种子产生的 validation 集的 logloss 会有些差异,但是要注意数据泄露的问题,比如用18-24的数据去做训练,25天的数据去做测试,这就有可能导致数据泄露,这里我们尝试改变随机数种子使得线上线下接近一致。

2.模型构建方面

我们队使用的模型是模型 xgboost,没有调参,也就是默认的参数。我们的主要精力放在寻找特征上,在决赛中我们可能考虑用 lightgbm,因为决赛数据是预赛数据的10倍,所以为了尽快看到结果,所以会选择 lightgbm。

3.特征工程方面

在广告点击率和转化率的特征中,特征可以分为三类,一是 categorical feature (无序特征),二是 ordinal feature(有序特征),三是 numberical feature(数值特征)。我们队对于特征的处理如下:

(1)使用统计频率、转化次数特征、转化率特征代替 onehot ,这里我们对 label=1的用户进行统计分析,针对用户的历史交互,安装 app 等信息,从用户的角度去思考可能决定他点击广告后发生激活的原因,由此提取出一些可能的特征,之后再进行特征提取以及验证。

(2)对训练集和测试集中的重复样本构造是否第一次点击,是否中间点击,是否最后点击,第一次和最后一次间隔特征。

(3)大量使用组合特征,主要是用户特征和广告上下文特征。

总结

在初赛过程中,我们不断地挖掘特征,检验特征,阅读 kaggle 上竞赛获奖者的开源代码等,尽管我们目前的成绩不是太好,但是我们真正学到了东西,正所谓,一次参赛,终身受益。最后感谢腾讯为我们提供的平台和服务。

最后预祝小伙伴们在决赛中取得好的成绩。谢谢。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯算法大赛-社交广告APP转化率预测总结与源码分享(决赛第26名)
本文个别公式为正常显示,详细请查看原文: https://jiayi797.github.io/2017/06/07/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-CVR-Tencent_CVR%E9%A2%84%E4%BC%B0%E5%88%9D%E8%B5%9B%E6%80%9D%E8%B7%AF%E6%80%BB%E7%BB%93/ 本文代码获取: 回复公众号 datadw 关键字"腾讯"即可。 正文: “这一段奔波太过匆忙,有时来不及回
机器学习AI算法工程
2018/03/15
2.8K0
腾讯算法大赛-社交广告APP转化率预测总结与源码分享(决赛第26名)
【SPA大赛】关于APP广告预测转化率的经验分享
关于APP广告预测转化率的经验分享。
周恒
2017/06/05
9980
【SPA大赛】移动app广告转化率预估算法优化思路及解决办法
本文介绍了关于腾讯社交广告算法大赛的参赛经历,包括数据获取、特征提取、模型选择、调参、模型融合等方面的内容。同时,也对未来进行了展望,包括复赛阶段的挑战和新的技术趋势。
何颖
2017/06/05
3K0
【SPA大赛】移动app广告转化率预估算法优化思路及解决办法
【SPA 大赛】简述一些平滑方法在 CTR 预估中的应用
本文介绍了CTR预估中平滑方法的应用,包括Add-Lambda Smoothing、Additive Smoothing、Add-One Smoothing以及针对天数不同可以做的额外处理。平滑方法可以降低噪音,提高模型的鲁棒性,在CTR预估中发挥着重要作用。
连庆
2017/06/13
4.3K1
【SPA 大赛】简述一些平滑方法在 CTR 预估中的应用
【SPA大赛】菜鸟在数据挖掘中的体验
本文介绍了自己在数据挖掘领域的学习和实践经验,包括参加腾讯广告算法大赛、数据可视化和特征工程等。作者认为,在比赛中,理解业务场景、开展特征工程和多与他人交流是非常重要的。通过参加这次比赛,作者希望能够学习到更多的经验和技巧,提高自己的实际能力。
谭学仕
2017/06/06
1.1K0
【SPA大赛】菜鸟在数据挖掘中的体验
2018腾讯广告算法大赛总结/0.772229/Rank11
liupengsay/2018-Tencent-social-advertising-algorithm-contest​github.com
Coggle数据科学
2019/09/12
1.4K0
2018腾讯广告算法大赛总结/0.772229/Rank11
【SPA大赛】预测广告转化率实战心得
肖洋
2017/06/07
1.7K0
2019腾讯广告算法大赛初赛分享-Part3(冠军篇)
感谢队友带我carry,有幸拿到初赛的冠军,在这里我也将初赛思路做一下分享,一是帮助进行复赛的同学扩展些思路,二是帮助大家能从这次比赛中学习到不一样的东西。比赛的目的就是为了学习,很乐意与大家交流。
Coggle数据科学
2019/09/12
5860
2019腾讯广告算法大赛初赛分享-Part3(冠军篇)
一文梳理2017腾讯广告算法大赛决赛方案
时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。
Coggle数据科学
2021/12/24
1.2K0
一文梳理2017腾讯广告算法大赛决赛方案
文本点击率预估挑战赛-冠亚季军方案总结
搜索中一个重要的任务是根据query和title预测query下doc点击率,本次大赛参赛队伍需要根据脱敏后的数据预测指定doc的点击率,结果按照指定的评价指标使用在线评测数据进行评测和排名,得分最优者获胜。
致Great
2021/01/18
7910
【 SPA大赛 】关于数据处理和特征工程的一些分享
本文介绍了关于数据处理和特征工程的一些分享,主要包括数据探索、数据预处理、特征工程和技巧等内容。作者通过参加腾讯社交广告高校算法大赛,在比赛中尝试了不同的数据处理和特征工程方法,最终取得了良好的成绩。同时,作者也分享了一些在实验过程中积累的经验和技巧,对于参赛者具有一定的参考意义。
方舒
2017/06/08
1.1K0
【 SPA大赛 】关于数据挖掘的理论与实践
本文讨论了数据挖掘的理论与实践,通过参加数据挖掘比赛,学习数据预处理、特征工程和模型融合等方面的知识。在比赛中,作者通过实践应用,学会了如何处理稀疏特征值、构建有效的验证集以及特征筛选和模型融合等技术。通过参加这次比赛,作者对数据挖掘有了更深入的理解,并提高了自己的实践能力和技术水平。
窦凯丽
2017/06/08
1.1K0
【 SPA大赛 】关于数据挖掘的理论与实践
Kaggle 数据挖掘比赛经验分享
Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过
CSDN技术头条
2018/02/12
1.6K0
Kaggle 数据挖掘比赛经验分享
分分钟带你杀入Kaggle Top 1%,8000字实战分享
【新智元导读】参加Kaggle常常会获得很多启发,与来着世界各地的队伍进行厮杀的刺激更让人欲罢不能。本文内容包括了Kaggle比赛介绍,以及来自Kaggle Top 1%团队以及冠军团队的宝贵经验。全文近8000字。 不知道你有没有这样的感受,在刚刚入门机器学习的时候,我们一般都是从MNIST、CIFAR-10这一类知名公开数据集开始快速上手,复现别人的结果,但总觉得过于简单,给人的感觉太不真实。因为这些数据太“完美”了(干净的输入,均衡的类别,分布基本一致的测试集,还有大量现成的参考模型),要成为真正的数
新智元
2018/03/28
1.1K0
分分钟带你杀入Kaggle Top 1%,8000字实战分享
【SPA大赛】腾讯比赛的一些分享
本文介绍了如何利用机器学习和深度学习解决CTR预估问题,包括数据清洗、特征工程、模型选择、模型融合等方面。作者还结合实际业务场景,分享了在腾讯广告算法大赛中的实战经验和思考,并给出了相应的模型算法和框架设计的建议。
深蓝DeePBluE
2017/06/15
9810
【SPA大赛】腾讯比赛的一些分享
【 SPA大赛 】数据特征处理技巧
本文介绍了第一届腾讯社交算法大赛中的leakage和trick处理技巧,以及参赛队伍在比赛中如何利用这些技巧提高线上成绩。作者认为,通过不断挖掘比赛中的技巧和信息,可以进一步提高模型的表现。同时,作者也分享了一些在比赛中遇到的挑战和解决方法,以及如何避免信息泄露等问题。
李宗阳
2017/06/05
3.9K0
【 SPA大赛 】数据特征处理技巧
2020腾讯广告算法大赛——算法小白的复盘
《2020腾讯广告算法大赛》复赛已经接近尾声,作为一瓶初赛酱油,打算做个复盘,留个笔记,本来初赛结束就打算写的,被各种事情耽搁了,直到今天才动手开写
诡途
2022/05/09
1K0
2020腾讯广告算法大赛——算法小白的复盘
【SPA大赛】分享推荐类大数据的相关经验
该文介绍了关于推荐类大数据的相关比赛经验,包括京东算法大赛、腾讯广告高校算法大赛等。作者强调了特征工程的重要性,提出了在比赛中挖掘特征、建立稳定的线下模型、细致的特征设计等方面的建议。同时,作者分享了自己在比赛中的经验和教训,并鼓励新手积极参与比赛,一起学习交流。
李智
2017/06/02
8900
【SPA大赛】分享推荐类大数据的相关经验
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
本文主要介绍了在CTR预估中,特征工程的工作内容和流程,以及机器学习模型在CTR预估中的应用。作者通过实践中的案例,详细介绍了如何从原始数据中提取特征,并进行特征工程,以及使用机器学习模型进行CTR预估。同时,作者也分享了一些在实际操作中需要注意的问题和技巧。
王照彬
2017/06/08
2.3K1
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
【SPA大赛】如何预测移动 App 广告点击率
本文主要研究了如何预测移动 App 广告点击率的问题,通过分析提供的数据集,采用 XGBoost 算法进行模型训练,并探讨了特征处理的方法,包括特征选择、特征降维等。最后总结了模型精度的提升方法,包括特征处理、算法优化等。
周鸿宇
2017/06/09
2K0
【SPA大赛】如何预测移动 App 广告点击率
推荐阅读
相关推荐
腾讯算法大赛-社交广告APP转化率预测总结与源码分享(决赛第26名)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档