首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Kaggle入门-初识Titanic

Kaggle机器学习的基本方法:快速上手一个比赛,熟悉基本的流程先run一个baseline,之后在baseline的基础上不断改进,提高模型性能。

前两天,我们建了一个kaggle数据分析群,寻找一起参加比赛的队友。很多同学加进来,现在群里有300多人。

说明

按照开始的计划,前一阶段我主要是帮助没入门的同学通过Titanic手写数字识别房价预测这三个比赛来入门Kaggle机器学习竞赛。

需要达成的目标:

熟悉Kaggle的基本流程,和常见操作。

了解机器学习的基本算法。

比赛成绩进入Top10%

资源问题

代码

GitHub托管,https://github.com/wsg011/kaggle-start

数据集

kaggle网站对应的比赛去下载,https://www.kaggle.com/

交流

Titanic实战

Kaggle数据分析的基本流程

这是一个很重要的问题,希望初学者一定要牢牢记住。

了解问题,探索数据

清洗数据

特征工程

模型训练

模型评估

模型融合

这些步骤里面我们首先需要快速完成的第一个迭代是:了解问题,探索数据;清洗数据;特征工程;模型训练

完成一个基本的baseline以后,我们再不断回溯到开始,重新迭代我们的流程。不要一开始就纠结在一些小问题上卡死,小步快跑。

这是第一篇文章,所以讲得非常的简单,具体的代码解释请参考jupyter notebook。

资源连接

code:0-3 Kaggle竞赛入门 - Titanic实战(请移步GitHub,https://github.com/wsg011/kaggle-start/blob/master/titanic/Notebook/0-3%20kaggle%20start%20with%20Titanic.ipynb)

其他。。。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180325B0S8WV00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券