前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【 SPA大赛 】关于数据挖掘的理论与实践

【 SPA大赛 】关于数据挖掘的理论与实践

原创
作者头像
窦凯丽
修改于 2017-06-19 10:55:10
修改于 2017-06-19 10:55:10
1.1K0
举报
文章被收录于专栏:窦凯丽的专栏窦凯丽的专栏

这是我第一次参加数据挖掘类的比赛,幸运的是在比赛中认识了两个小伙伴,能够一起讨论,分享,得出成果,对我来说,受益良多。下面按照数据挖掘过程:数据预处理、特征工程、模型融合这三个方面进行一下总结,谈谈感受。

1. 数据预处理

1.1 稀疏特征值处理

在初赛中,数据量在百万级别,因为我们没有做稀疏特征值的处理,但是决赛这种数据量增长了10倍的情况下,稀疏特征值的处理能够影响模型的稳定性,因此我们会对特征值中少于10次出现的值进行统一的稀疏标记。

1.2 验证集的构建

构建验证集是比较重要的,目的是为了让线下成果与线上测试集结果保持一致,在几个周冠军的分享中,也都提到了构建有效的验证集的事情。在初赛中,我们直接使用了29号的数据进行验证,因为30号的数据不够准确,直接被我们舍弃了。在决赛中,我们会尝试一下方法进行验证集的构造:使用29号的数据,使用训练数据的10%(10%取决于训练集与测试集的比例)。

2. 特征工程

特征工程一般有三步:找到新的特征,然后进行简单的统计分析,判断其价值,再使用模型判断其是否有用。

2.1 特征产生

在本次比赛中,我们将所有特征分成以下几类:

特征分类

描述

原始特征

数据当中原有的特征

组合特征

将原来特征中的两个或多个直接进行组合

计数特征

主要针对用户,广告进行时序,非时序的统计

先验概率特征

类别特征的历史转化率

gbdt特征

利用gbdt模型对部分特征进行学习,将gbdt结果的叶子特征作为新的特征

在产生新的特征的过程中,如何初步判断特征的有效性是非常重要的,我们可以采取一些初步的统计进行比较,然后进行特征验证。

2.2 特征筛选

在本次比赛中,最让我感到困惑的地方就在于特征筛选,特征筛选的流程一般如下图所示:

在一开始的时候,我们将生面提到的所有特征一股脑的塞到模型里面,尽管有些特征的重要性很低,然而在我们删除了某些特征以后,模型的效果还是下降了,然而我们之后再删除特征的情况下,进行了模型参数的调整,把xgboost训练的树的深度增加以后,线下验证集的效果就提升了很多。其实,现在的特征中有很多冗余的特征,特征之间相关度比较高,目前正在采用单个特征逐步验证的方法,希望能够有所提升。

2.3 特征验证

此次比赛中,我们使用了xgboost来进行特征的验证,之所以选择这个,是因为本次比赛中的很多特征都是类别特征,用传统的lr模型进行分类的话,会遇到onehot维度爆炸的情况,而是用xgboost则比较便捷,并且能够很好的查看特征的重要性。

3. 模型融合

在初赛中,我们并没有采用模型融合的方法,但是“三个臭皮匠,赛过诸葛亮”,据此次比赛中的小伙伴们实践分享,模型融合能够大幅度提升效果。

在类似的比赛中(广告点击率预估),比较常用的模型包括ffm,ftlr,xgboost,这些模型在各个优胜大佬们的分享中都起到了很大作用,值得尝试一下。模型融合方法有简单的平均,均值平均,或者是stacking等,初步的计划是使用不同的模型进行训练,然后讲给结果进行stacking。

参加这次比赛,能让我将理论与实践相结合,是一次很不错的经历。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
本文主要介绍了在CTR预估中,特征工程的工作内容和流程,以及机器学习模型在CTR预估中的应用。作者通过实践中的案例,详细介绍了如何从原始数据中提取特征,并进行特征工程,以及使用机器学习模型进行CTR预估。同时,作者也分享了一些在实际操作中需要注意的问题和技巧。
王照彬
2017/06/08
2.3K1
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
腾讯算法大赛-社交广告APP转化率预测总结与源码分享(决赛第26名)
本文个别公式为正常显示,详细请查看原文: https://jiayi797.github.io/2017/06/07/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E5%AE%9E%E8%B7%B5-CVR-Tencent_CVR%E9%A2%84%E4%BC%B0%E5%88%9D%E8%B5%9B%E6%80%9D%E8%B7%AF%E6%80%BB%E7%BB%93/ 本文代码获取: 回复公众号 datadw 关键字"腾讯"即可。 正文: “这一段奔波太过匆忙,有时来不及回
机器学习AI算法工程
2018/03/15
2.8K0
腾讯算法大赛-社交广告APP转化率预测总结与源码分享(决赛第26名)
【干货】Kaggle 数据挖掘比赛经验分享
如果你也跃跃欲试,不妨选一个合适的任务,开启数据挖掘之旅吧。
腾讯知文实验室
2018/02/08
1.6K0
【干货】Kaggle 数据挖掘比赛经验分享
【SPA大赛】广告数据挖掘的经验分享
本文介绍了团队参加数据挖掘比赛的经验和总结。首先介绍了数据挖掘比赛的情况,然后介绍了团队在数据清洗和特征工程方面的做法,包括数据集构造、模型构建和特征工程等方面。最后总结了本次参赛的收获和教训,并感谢腾讯提供的平台和服务。
王晓娟
2017/06/08
1.2K0
Kaggle 数据挖掘比赛经验分享
Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot 商品搜索相关性比赛第三名(2125支队伍),曾在 Kaggle 数据科学家排行榜排名全球第十,国内第一。笔者目前在腾讯社交与效果广告部任职数据挖掘工程师,负责 Lookalike 相似人群扩展相关工作。此文分享笔者在参加数据挖掘比赛过
CSDN技术头条
2018/02/12
1.6K0
Kaggle 数据挖掘比赛经验分享
【SPA大赛】移动app广告转化率预估算法优化思路及解决办法
本文介绍了关于腾讯社交广告算法大赛的参赛经历,包括数据获取、特征提取、模型选择、调参、模型融合等方面的内容。同时,也对未来进行了展望,包括复赛阶段的挑战和新的技术趋势。
何颖
2017/06/05
3K0
【SPA大赛】移动app广告转化率预估算法优化思路及解决办法
【SPA大赛】SPA大赛数据探索与解题思路
本文介绍了腾讯社交广告算法大赛的背景、目标以及比赛过程中的一些探索和实践。参赛者需要利用数据分析和特征提取技术,搭建预测模型来预测移动App广告点击后被激活的概率。在比赛过程中,参赛者进行了深入的分析和实验,最终通过模型融合的方式取得了较好的预测效果。
朱云龙
2017/06/09
9760
【SPA大赛】SPA大赛数据探索与解题思路
厦门国际银行 “数创金融杯”数据建模大赛-冠军分享
成员介绍:团队成员由当下国内赛圈著名选手组成,一月三冠选手宁缺,赛圈网红林有夕,以及最具潜力选手孙中宇组成。
Coggle数据科学
2020/06/23
1.4K0
一文梳理2017腾讯广告算法大赛决赛方案
时隔两年,这篇决赛方案梳理悄然登场,主要针对前十名的方案进行学习,17的腾讯赛算法是比较早的ctr比赛,很多方法都值得借鉴,同时也不乏有经典的操作。当时的我还没有开始参加数据竞赛,不过在之后的比赛中,也常分析这场经典赛事。接下来让我们回到两年前,以前来学习优秀方案。
Coggle数据科学
2021/12/24
1.2K0
一文梳理2017腾讯广告算法大赛决赛方案
智慧支付挑战赛一等奖方案分享
今天和大家分享的是前不久老肥我参加的银联商务和华东理工商学院一起举办的智慧支付挑战赛,本次比赛我也是单人参加,最终很高兴收获了一等奖的好成绩。
老肥码码码
2021/05/13
4860
智慧支付挑战赛一等奖方案分享
【 SPA大赛 】数据模型与特征工程
本文介绍了一个广告点击率预测比赛,选手们使用xgboost、gbdt、nn等模型进行预测,通过特征工程、模型选择、模型调优等方法,最终取得了不错的预测效果。在比赛过程中,选手们也遇到了很多问题,如特征工程、模型选择、调优等,需要不断尝试和改进。通过比赛,选手们不仅提高了自己的技术水平,也为今后的比赛积累了宝贵的经验。同时,也希望更多的选手参与到比赛中来,共同提高技术水平,为广告点击率预测做出更大的贡献。
郭安静
2017/06/06
1.5K0
【 SPA大赛 】数据模型与特征工程
这两年:我的数据竞赛之路
大家好,我是鱼遇雨欲语与余,本次我将带来不一样的分享,这将是我的个人竞赛历程。将从三个部分展开分享,主要竞赛经历、关于我的竞赛和未来竞赛的我。一位竞赛小白是如何一路打怪升级,然后取得不错成绩的,到后来一年获得“两冠四亚一季”的佳绩。这里我尝试记录这两年主要做过的事情和其中的感想,希望对大家有所启发。
石晓文
2019/08/23
9280
这两年:我的数据竞赛之路
【 SPA大赛 】数据测试与特征工程的优化思路
本文介绍了数据测试与特征工程的优化思路,通过分析比赛数据、尝试不同的特征工程方法以及交流心得,以提高模型性能。通过多尝试、多观察、多交流的方法,可以更好地优化比赛成绩。
马卓然
2017/06/06
1.1K0
【 SPA大赛 】数据测试与特征工程的优化思路
数据挖掘入门指南!!!
摘要:入门数据挖掘,必须理论结合实践。本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析、特征工程、建模调参和模型融合等技能。
Datawhale
2020/04/21
8950
数据挖掘入门指南!!!
一战成名,用户贷款风险预测 参赛代码与数据集分享
队伍名“一战成名” 最终线上排名第七。 任务 融360与平台上的金融机构合作,提供了近7万贷款用户的基本身份信息、消费行为、银行还款等数据信息,需要参赛者以此建立准确的风险控制模型,来预测用户是否
机器学习AI算法工程
2018/03/15
2.6K1
一战成名,用户贷款风险预测 参赛代码与数据集分享
干货 | 携程酒店浏览客户流失概率预测
作者简介 陈无忌,就读于中国科学技术大学计算机学院,15 级硕士研究生。研究方向机器学习、大数据、智能交通等。在校期间多次参加大数据竞赛,在携程云海平台比赛中,两次和队伍一起获得第一名。 客户流失率是考量是业务成绩的一个非常关键的指标。根据历史数据建立模型,使用机器学习的方法预测客户流失概率,可以找出用户流失的因素,从而完善产品,减少客户流失概率。 那么,对于这样的一个问题,我们需要做哪些数据分析?特征又是如何提取?如何选择合适的机器学习模型?如何调整模型的参数?同时对于类似的这些问题,又有什么常见的套路
携程技术
2018/03/16
7K0
干货 | 携程酒店浏览客户流失概率预测
JDATA如期而至-用户购买时间预测Rank9
7月中旬答辩结束,大概三个月后才抽空完成这篇比赛总结,争取参加过比赛都有一个总结分享。
Coggle数据科学
2019/09/12
1K0
JDATA如期而至-用户购买时间预测Rank9
【算法比赛】NFL Big Data Bowl 数据挖掘比赛回顾
NFL Big Data Bowl是Kaggle上的一个数据比赛,本文旨在通过回顾比赛,梳理和学习其中的建模思路(点数据挖掘、图挖掘)、数据处理技巧(对抗验证、数据增强)、模型集成技巧(Snapshot Ensembles)。
腾讯云TI平台
2020/04/03
1.7K0
双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?
简介:鱼遇雨欲语与余,Datawhale成员,武汉大学硕士,天池数据科学家。2019腾讯广告算法大赛冠军,数据竞赛爱好者。
Datawhale
2020/04/16
4610
双节棍「大师」鱼佬亲传武功秘籍:如何进行一场数据挖掘算法竞赛?
数据挖掘比赛通用框架
作者|穆文 报名啦CDA数据分析师认证培训Level 1 国内权威的数据分析师系统 培养学员超过上千人理论结合实际 更有多重福利提供 点击文末“阅读原文”查看详细 ◆ ◆ ◆ 前言 Kaggle上有篇名为「Approaching (Almost) Any Machine Learning Problem」的博客(点击底部阅读原文),作者是Kaggle比赛的专业户,博客是他参加Kaggle比赛的经验总结。在进入正题前随便扯几句: 本文并非原博客的翻译版,而是90%的原创,是在原博客基础上融合自己的
小莹莹
2018/04/25
1.7K0
数据挖掘比赛通用框架
推荐阅读
相关推荐
【 SPA大赛 】腾讯社交广告大赛初赛阶段小结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档