经过6周的激烈比拼,首届太湖信用大数据创新应用大赛算法赛的初赛已经告一段落,首先恭喜入围下一阶段的选手们!撒花撒花~~~
现将进入复赛的40名的选手名单公布如下:
赛题一:企业合规风险预测
赛题二:小微企业失信预测
再次恭喜以上入围选手!
下一赛段的比赛将于26号正式启动,我们也将会在26号同步更新复赛数据,希望各位选手再接再厉,挺进决赛!
说到这里,不知道大家还记不记得李长升博士分享的参赛建议?小编和大家重温一下,希望能让大家在后面的比赛中有所启迪。
● 认真分析题目,了解字段的含义,关键点还是在于对业务的深刻理解上,以便构造出强有力的特征,多分析错误。
● 在参赛过程中多与其他参赛者互动,能不断地获得启发,受益良多。
● 模型融合是数据挖掘类比赛的惯用套路。
● 比赛是不断迭代的过程,将比赛代码的流程自动化,是提高比赛效率的一个关键。
● 保持良好的心态,因为比赛会给你带来压力,也许过了一晚,你的排名就会一落千丈。认真去做,这些都是很宝贵的经历。
~~~~~~~~~~~~~~~我是彩蛋分割线~~~~~~~~~~~~~~~~
【选手分享】
要知道,在异常激烈的初赛过程中,还是涌现了不少的黑马,那么在初赛中成绩排名靠前的选手们,都有哪些优化思路和秘诀呢?大家快来围观吧。
特征是最重要的。在做之前多研究下数据分布,先看看哪些企业是违法的;再看他们是否有共同特点;再深入提取特征,这就考验数据的洞察力。
在我看来只要排名不是第一,那就值得再次优化。取得好成绩,是不断继续提特征
跑模型,一直循环,直到比赛结束。
—nurbs(初赛第一)
首先是常规操作,对于训练测试分布一致的题目,主要就在于多提特征,线下k折测试特征,以及模型融合。
其次是针对每个表提取特征,关注时间信息。
—ADA(初赛并列第二)
我觉得还是得多分析数据,我感觉自己应该还是有很多有用的信息没有发掘到。
—E(初赛并列第二)
感觉这个题目还是跟业务场景强相关的,我对于企业失信和行政处罚这一业务场景了解的并不深,所以拿到这个题目之后我还是挺痛苦的。
而且这个题目的表很多,要在这么多表里面提取出富含业务逻辑的特征,然后整合到一起真的很考验人。对领域知识的匮乏导致我现在已经到了瓶颈期,复赛还不知道能否找到更好的特征来提高成绩。
—天才儿童(初赛第四)
苏州优易
苏州优易智新数据科技有限公司是以数据应用和数据增值服务为主营业务的平台化公司,致力于研发、运营大数据平台,通过建设、运营大数据创新创业基地和大数据产业园区,促进大数据产业凝聚和完整生态体系的构建。
领取专属 10元无门槛券
私享最新 技术干货