Kaggle机器学习的基本方法:快速上手一个比赛,熟悉基本的流程先run一个baseline,之后在baseline的基础上不断改进,提高模型性能。
前两天,我们建了一个kaggle数据分析群,寻找一起参加比赛的队友。很多同学加进来,现在群里有300多人。
说明
按照开始的计划,前一阶段我主要是帮助没入门的同学通过Titanic、手写数字识别、房价预测这三个比赛来入门Kaggle机器学习竞赛。
需要达成的目标:
熟悉Kaggle的基本流程,和常见操作。
了解机器学习的基本算法。
比赛成绩进入Top10%
资源问题
代码
GitHub托管,https://github.com/wsg011/kaggle-start
数据集
kaggle网站对应的比赛去下载,https://www.kaggle.com/
交流
Titanic实战
Kaggle数据分析的基本流程:
这是一个很重要的问题,希望初学者一定要牢牢记住。
了解问题,探索数据
清洗数据
特征工程
模型训练
模型评估
模型融合
这些步骤里面我们首先需要快速完成的第一个迭代是:了解问题,探索数据;清洗数据;特征工程;模型训练
完成一个基本的baseline以后,我们再不断回溯到开始,重新迭代我们的流程。不要一开始就纠结在一些小问题上卡死,小步快跑。
这是第一篇文章,所以讲得非常的简单,具体的代码解释请参考jupyter notebook。
资源连接
code:0-3 Kaggle竞赛入门 - Titanic实战(请移步GitHub,https://github.com/wsg011/kaggle-start/blob/master/titanic/Notebook/0-3%20kaggle%20start%20with%20Titanic.ipynb)
其他。。。
领取专属 10元无门槛券
私享最新 技术干货