2016 年 12 月 25 日,由 CCF 中国计算机学会主办、DataFountain 大数据平台等单位承办的“2016 CCF 大数据与计算智能大赛”(BDCI)正式落幕。
“CCF大数据与计算智能大赛”已成功举办三届,本届大赛引入 11 道来自创新企业与科研机构的大数据与人工智能领域高质量算法挑战赛赛题。多位大数据与计算智能领域顶尖人才,用作品赢得了行业专家的认可。
本次决赛中,中国科学院院士梅宏、中国工程院院士倪光南、青岛市副市长张德平、CCF 数据库专业委员会主任杜小勇、CCF大数据专家委员会秘书长、中国科学院计算技术研究所副所长程学旗、教育部易班发展中心主任朱明伦等多位政府、科研机构要员出席了“2016CCF大数据与计算智能大赛”的开幕式和颁奖典礼。
除此之外,国网信通产业集团副总经理孙德栋、中国联通研究院副院长张云勇、国双技术副总裁黄勇坚、AdMaster 技术副总裁卢亿雷等企业大数据领域精英,以及 70 余位学术界、产业界、投资界的专家评审就决赛作品进行专业点评。
最终,11 支技术团队从进入决赛的 55 支队伍中脱颖而出,其中:
各参赛队伍在数据清洗、压缩以及特征提取方面下足了功夫,如分对象抽取的用户、商户、优惠券、Label窗等特征,以及分层次抽取的全局特征、局部特征、元特征等。以“fgo非洲人”战队为例,其通过对“Human or Robot?”赛题的 1.5 亿条数据进行特征分析,将数据量压缩至 500 万条,只有原来的三十分之一,极大提升了后续模型训练的时间。
各战队在特征工程的基础上,也创新了多个算法模型。除了熟练运用 XGBoost、随机森林(RandomFore)、卷积神经网络(CNN)、循环神经网络(RNN)等常用数据挖掘模型,参赛队伍还对已有模型进行了优化和创新,如针对小目标检测的 R-FCN 算法、多任务学习框架的精细化人体属性识别算法。另有战队提出的多通道多窗口CNNs模型,只需 54 秒即可完成 2w 数据量的训练。“401 数据挖掘施工队”结合地理数据的经验,针对“基于多源数据的青藏高原湖泊面积预测”赛题,引入了数量平衡方程、彭曼蒸发公式等领域模型,利用时空关系构建的湖泊预测模型,实现了很好的效果。
超过 1 万名的大数据技术牛人,6500 多支队伍参与大赛,初赛及复赛在 DataFountain 大数据竞赛平台提交了近 3 万份参赛作品,除了国内参赛选手及队伍外,美国、英国、法国、日本、澳大利亚等国家的海外团队也有参赛。参赛团队中有 54% 来自高校等学研机构,覆盖了国内所有 985 及大部分 211 院校,其中近 40% 为硕士及以上学历。参赛团队中,有二百余家企业及科研机构派出了多支团队,本次大赛在多个维度创下历史记录。
随着“CCF大数据与计算智能大赛”(BDCI)影响力的不断提升,或将成长为国际领域的行业盛会,并反哺加速全球大数据及计算智能的发展与创新。