泰迪杯数据挖掘竞赛3月1号已经开始了,很多参加过数学建模竞赛的小伙伴们是不是也想在数据挖掘竞赛中一显身手呢?
数学建模和数据挖掘竞赛有什么异同点?
数据挖掘竞赛更看重什么?
如何准备数据挖掘竞赛?
小编今天邀请到了去年泰迪杯特等奖、数模国赛全国一等奖得主,分享他的参赛经验——数学建模和数据挖掘竞赛的区别和联系。
随着各项学科竞赛的不断普及,很多小伙伴对数学建模竞赛并不陌生,但对数据挖掘竞赛却很陌生。相较于前者,数据挖掘竞赛起步较晚、参与度相对较低,目前数据挖掘竞赛主要有“泰迪杯”数据挖掘挑战赛、天池大数据竞赛、DataCastle大数据竞赛等。
为了对比两大赛事,小编先带着大家了解三个概念。
数学建模是根据实际问题建立数学模型,然后求解数学模型,并根据结果解决实际问题。
大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数学建模与数据挖掘一样吗?
数学建模是数据挖掘的前提,只有建立好的数学建模,才有可能在数据挖掘中有针对性、科学、高效地处理所收集到的数据,才能对实践起到指导作用及对发展趋势起到预判的作用。
为了更加直观地对比两大竞赛,小编在下表中对两大竞赛进行了几点比较。
两大竞赛的主要区别在于竞赛时间、建模思路、论文写作以及评阅的侧重点。
数学建模竞赛比赛时间较短,建模时需要从赛题入手,论文写作有严格的格式要求,评审更加侧重于模型和结果;而数据挖掘挑战赛比赛时间较长,数据量大,建模时需要从数据入手,论文写作较为自由,评阅更加注重数据处理过程及模型的适用性;此外,数据挖掘竞赛最核心的两大问题就是数据处理和模型建立。
数据挖掘竞赛重点注意什么?
我们主要从数据处理,模型建立,论文写作三个方面进行分析。
01
数据处理
由于数据挖掘挑战赛所给指标多、且样本量大,因此数据挖掘挑战赛要做的首先就是进行数据处理。这里小编将数据挖掘中的数据处理分为数据预处理、横向降维和纵向选取样本三部分。
1、数据预处理(即检查样本中的缺失值和异常值)
缺失值常见处理方法:补插均值或插值法
异常值处理思路:先剔除,后补插。
2、横向降维(即减少指标)
常用的方法有:主成分分析、因子分析、回归分析、相关性分析、聚类分析、判别分析等。
3、纵向选取样本(即减少样本量)
常用方法:周期性分析等
注意事项:
(1)数据处理时,不管横向降维还纵向选取样本均需有理有据,不可随意选取;
(2)数据预处理时,对于缺失值和异常值不要直接剔除,以防误差较大;
(3)数据处理时,要灵活选择方法,必要时可同时使用多种方法进行比较。
这里小编以2017年“泰迪杯”数据挖掘挑战赛B题中央空调系统的数据分析与控制策略为例进行详细说明
(http://www.tipdm.org/bdrace/jingsa/20161227/1030.html#sHref)。
本题给了51个指标,88841条数据。由于所给数据样本量较大,且噪声较高,如果直接使用原始样本进行建模,会带来很大的不变,并且所得模型效果较差,因此需要对原始数据进行处理。小编的数据处理思路为:
首先,检查数据中的异常值和缺失值,并采用均值替换法进行修正;然后,利用回归分析和聚类分析进行横向降维;同时,对数据进行周期性分析;使用以上两步所得结论进行纵向选取样本,这样就达到了数据处理的效果,大幅度的减少了样本量,同时也降低了数据噪声,有助于后续建模和分析。
02
模型建立
与数学建模竞赛的模型建立相比,数据挖掘竞赛的模型要从数据出发,通过对所给数据分析,得到相应的模型。在建模时要将数据分为两部分:训练数据和测试数据。前者用于构建模型,后者用于检验模型。
注意事项:
(1) 数据挖掘竞赛所建立的模型要从数据出发,由数据得模型,切不可本末倒置;
(2) 数据挖掘竞赛要求模型的适用性,不要去模型的高大上。因此,切不可一味地追求高深的数学模型;
(3) 数据挖掘竞赛建模时要将数据分为两部分,一部分用于建模,一部分用于检验模型的合理性。
(4) 数据挖掘竞赛所建立的模型要具有普适性。
03
论文写作
同数学建模竞赛相同,论文的重要性不言而喻。论文是评定成绩好坏、高低,获奖级别的依据,是竞赛活动的成绩结晶的书面形式。
由于数据挖掘竞赛论文写作较为自由,可以参照数学建模竞赛论文写作。下面小编向大家介绍一种论文结构:
摘要(一般200-300字,包括数据处理方法、结论以及模型的主要特点、建模方法和主要结果,建议采用“八股文”式的写作方法)
关键词(一般3-5个,包括求解的问题、使用方法中的重要术语)
英文摘要
目录
问题重述(一般包括问题背景、问题描述、研究现状)
问题分析(说明数据处理思路以及问题求解思路,建议按照问题分析。论文中可无此部分)
研究假设与约定(5-7条,由题目中的原始假设及建模必要假设组成。也可在各个模型建模前说明)
符号说明(此处只放全文通用的符号,个别模型单独使用的符号在首次使用时再进行说明)8、数据处理(包括数据预处理、横向降维及纵向选取样本)
模型建立与求解
结论(对前文所用方法及结果进行总结)
参考文献(在原文引用出标记,并按照科研论文引用格式书写)
附录(包括计算程序、框图;各种求解演算过程、计算中间结果;各种图形、表格。论文中可无此部分)
希望今天的分享对小伙伴们有所帮助,预祝大家在各项竞赛中取得优异的成绩。
领取专属 10元无门槛券
私享最新 技术干货