【 SPA大赛】数据特征处理技巧

原创

李宗阳

修改于 2017-06-19 18:55:49

4.1K0

导语

作为萌新，很荣幸能参加到第一届腾讯社交算法大赛，我们的队名是“竟然有这种操作”，在这里我希望和大家分享一些比赛过程中leakage和trick处理的技巧。

其是最开始参加比赛是奔着前300名提交得文化衫去的，但当真正进入比赛后，我才感受到了竞赛场上的厮杀，目的也已不是单纯的拿件文化衫那么简单了，特别是初赛A阶段很长一段时间都保持在前50名更是给了我莫大的信心，进入初赛B阶段，队伍始终保持在前100，最终以25名进入决赛，这无疑是让我们萌新打了鸡血一样，也非常感谢在腾讯算法群里面分享和讨论自己idea的大大们（比如已跃升第三的‘中大渣渣’），我从中受益颇多，目前刚进入决赛阶段，下面聊聊比赛的trick和leakage。

关于Trick

整个初赛阶段大家讨论的最多的无疑是传说中的trick了，第一周郭大神的登顶就是靠首先发现了trick，B榜中，大佬们说这个trick能让线上成绩提升2个千分点(大几十名的差距啊有木有)，事实上，就我们队来说，利用这个trick构造的6个特征把队伍成绩从0.1033拉到了0.0997，近3.5千分点(难不成和特征工程好坏成反比？)。

虽有trick相助，奈何萌新特征工程不过关成绩仍不理想。关于这6个特征，首先是和重复数据有关，细心的人应该发现了重复数据的label标注是有规律的，按时间顺序大部分标在了最后一条上，当我在舒(bian)舒(di)服(fei)服(zao)的澡堂洗澡的时候突然想到群大佬的一句话”训练集上的情况也会在测试集上出现”(划重点！)，回去后秒试了一把，将数据分为3类进行标注：非重复、重复非最后一个、重复最后一个（要相信模型，通过标记让模型自己学习这个trick规律），进行炫酷的一波操作(One-Hot)后，效果不错，提了近2个千分点。第二天，想要再次从trick中发现点什么的我和队友讨论数据的规律，发现重复数据的label1不仅是标在最后一条，还有标在第一条的，甚至有少量的标在中间，于是仍交给模型学习这个规律，又经过一波炫酷操作，线上0.1006，总共提了3个多千分点。尝到了甜头，于是又开始挖掘trick的信息，注意到只利用上了时间顺序，没有用到时间差，又联想到群里大佬的“真实情况不存在信息泄露”。加上了2列时间差特征，分别是与重复第一条的时间差和重复最后一条的时间差，于是，线上成绩从0.103突破到了0.997。

关于trick透露的比较详细了，稍微发散一下应该有不错的效果，个人感觉这个trick还能继续挖掘。

关于leakage

相信很多第一次参加比赛的小伙伴们会跟我一样遇到泄漏的问题，即同了未来信息来预测当前，造成线下成绩很美好，线上成绩爆炸，我们队通过参考一些比赛获奖选手的经验使用滑动窗口解决了这个问题，如下图：

我们构造统计特征时统计clickTime前一周的统计量，来避免信息泄露，这是个比较好的避免泄漏的方法，当然还有很多其他方法，作文萌新就不赘述了=。=！

最后，希望大家在比赛中关注的不仅仅是成绩，学到的东西和经验才是最宝贵的。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据

编程算法

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

大数据

编程算法

登录后参与评论

0 条评论

热度