前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Kaggle | 如何解决提交错误

Kaggle | 如何解决提交错误

作者头像
老肥码码码
发布于 2022-04-13 08:51:01
发布于 2022-04-13 08:51:01
2.9K00
代码可运行
举报
运行总次数:0
代码可运行

老肥近期参加Kaggle平台的比赛,因为比赛类型为Code Competition,测试数据并不可见,我们需要将notebook代码在线提交进行推理,而因为测试集不可以见经常会遇到提交Error,同时报错完整的日志并不返回,只返回错误大类类型,在Debug时有一定程度上的困难。今天我便将之前遇到过的一些报错以及如何排查来做一个简单的总结回顾,使得自己在今后的提交尽量避免出错。

我们首先假设我们所要提交notebook在kaggle的notebook环境上能够正常运行,并且成功保存为新的版本,接下来对以下报错进行逐一分析(通常我们碰到的为前三类报错)。

1. Notebook Threw Exception

因为比赛所给出的sample_test文件仅包含极少量数据,最后线上用来预测的测试集可能和公开的数据集有差异的情况,这便是导致异常的罪魁祸首。举个曾经遇到过的例子,当我们使用Label Encoder对类别变量进行编码时,测试集中可能存在未曾出现过的类别,导致异常抛出。我们需要提高代码的健壮性,以应对未知测试集可能带来的异常情况。

2. Notebook Timeout

根据不同比赛的时间限制不同,我们需要在指定的时间内完成推理。为了避免超时错误,我们需要合理估计模型的推理时间,根据测试集的长度使用训练集来模拟推理(可以采用1/5、1/10的测试集数量的训练集以节约GPU时长)。超时错误经常发生在比赛后期多个模型进行融合时,我们应该控制整个推理时长在指定的时间内。除此之外,我们可以对代码进行优化,提升模型推理的速度,例如在Feedback比赛中,根据@hengck23在讨论区所提到的,我们可以对text的长度进行排序,将长度相仿的数据放入同个batch中,在batch中取最长的token来进行padding的方法以减少不必要的时间消耗(此方法提升推理速度约为6倍)。

3. Notebook Exceeded Allowed Compute

出现这种计算资源耗尽的问题通常有两种情况,一是显存在推理时超出16G爆掉,二是内存在推理时超出13G

我近期遇到的主要是使用内存超过容量,我们可以通过训练集制作与测试集大小相仿的数据,模拟进行推理,(模拟推理的时候可以采用输出与模型推理生成的结果形状尺度相同的随机数以节约宝贵的GPU时间),并时刻检查notebook的内存情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def memory_used_to_str():
    # https://stackoverflow.com/questions/61366458/how-to-find-memory-usage-of-kaggle-notebook
    pid = os.getpid()
    processs = psutil.Process(pid)
    memory_use = processs.memory_info()[0] / 2. ** 30
    return 'ram memory gb :' + str(np.round(memory_use, 2))

我们需要及时清除中间变量,并且尽可能的将代码调优以使用更小的内存空间。

对于显存超过容量的问题,我们可以使用较小的batch_size, 并且在加载完前一个模型并且完成推理保存结果后,及时清除显存,然后加载下一个模型。对于huggingface中预训练模型的加载,我们可以通过使用from_config而不是from_pretrained,后者可能会有异常的显存泄露导致OOM(来自@阁老师的discuss)。

4. Submission CSV Not Found

该错误是指比赛所指定的submission.csv文件未能找到。一种情况是我们生成的文件名不符合要求,注意生成的提交文件一定需要命名为submission.csv而不是其他;另外一种情况是notebook在运行时,遇到错误停止运行,未能生成提交文件。

5. Submission Scoring Error

我们需要按照比赛要求生成对应的提交文件,保证该提交文件的行数以及列数满足要求,保证输出的内容符合规范,以避免提交值无效,造成得分异常。

6. Kaggle Error

这种错误情况非常罕见,主要是平台内部导致的一些异常错误,我们仅需重新提交运行即可。

如果在以上错误排查后,仍然未能成功提交,请毫不犹豫地在Discuss区说出自己遇到的问题,热心的社区网友会给予有用的建议。最后,祝大家上分快乐,Happy Kaggling!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法与数据之美 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Kaggle 赛题解析 | AMP 帕金森进展预测
文章目录 一、前言 二、比赛说明 1. Evaluation 2. Timeline 3. Prize 4. Code Requirements 三、数据说明 四、总结 🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ ---- 一、前言 竞赛题目:AMP®-Parkinson’s Disease Progression Prediction 竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disea
叶庭云
2023/03/24
1K0
Kaggle 赛题解析 | AMP 帕金森进展预测
【深度学习基础】多层感知机 | 实战Kaggle比赛:预测房价
  之前几节我们学习了一些训练深度网络的基本工具和网络正则化的技术(如权重衰减、暂退法等)。本节我们将通过Kaggle比赛,将所学知识付诸实践。Kaggle的房价预测比赛是一个很好的起点。此数据集由Bart de Cock于2011年收集,涵盖了2006-2010年期间亚利桑那州埃姆斯市的房价。这个数据集是相当通用的,不会需要使用复杂模型架构。它比哈里森(Harrison)和鲁宾菲尔德(Rubinfeld)的波士顿房价数据集要大得多,也有更多的特征。
Francek Chen
2025/02/02
2900
【深度学习基础】多层感知机 | 实战Kaggle比赛:预测房价
Pytorch实战Kaggle房价预测比赛
这是分享的第一个Kaggle比赛,也是Kaggle中难度最低的比赛之一,房价预测是一个回归问题,给出了房子的一些特征要求预测房子的价格。本文使用Pytorch构建一个线性模型来完成预测。比赛地址为:我们可以在房价预测⽐赛的⽹⻚上了解⽐赛信息和参赛者成绩,也可以下载数据集并提交⾃⼰的预测结果。该⽐赛的⽹⻚地址是 https://www.kaggle.com/c/house-prices-advanced-regression-techniques 。
BBuf
2019/12/04
3.5K1
Pytorch实战Kaggle房价预测比赛
如何用卷积神经网络构建图像?
这张图片其实是由一个叫人工智能的程序生成的。是不是看起来很真实?非常不错,不是吗?
AI研习社
2019/07/23
9290
如何用卷积神经网络构建图像?
从零开始,教初学者如何征战Kaggle竞赛
选自Medium 作者:Oren Dar 机器之心编译 参与:刘晓坤、李泽南、路雪 在学习过深度学习的基础知识之后,参与实践是继续提高自己的最好途径。本文将带你进入全球最大机器学习竞赛社区 Kaggle,教你如何选择自己适合的项目,构建自己的模型,提交自己的第一份成绩单。 本文将介绍数据科学领域大家都非常关心的一件事。事先完成一门机器学习 MOOC 课程并对 Python 有一些基础知识有助于理解文本,但没有也没关系。本文并不会向大家展示令人印象深刻的成果,而是回顾基础知识,试图帮助初学者找到方向。 文章结
机器之心
2018/05/10
9250
Kaggle 新赛 | GoDaddy 微型企业密度预测
美国政策领导人努力发展更具包容性和抗衰退能力的经济体。他们也意识到,随着科技的进步,创业从来没有像今天这样容易。无论是创造一个更合适的工作/生活平衡,追随激情,还是由于失业,研究表明,越来越多的美国人选择创建自己的企业来实现他们的财务目标。挑战在于,这些 “微型企业” 往往规模太小或太新,无法在传统经济数据源中显示出来,因此决策者几乎不可能研究它们。但是,数据科学可以帮助填补这些空白,并提供与这些业务相关的因素的洞察力。
叶庭云
2022/12/23
9790
Kaggle 新赛 | GoDaddy 微型企业密度预测
MXNet | 手写字MNIST识别比赛
比赛的官网:https://www.kaggle.com/c/digit-recognizer
努力在北京混出人样
2019/02/18
6920
保姆级!一个新手入门 NLP 完整实战项目
分类模型还可用于解决一些起初并不明显合适的问题。例如 Kaggle 美国专利短语匹配[1]竞赛。在这项比赛中,我们的任务是比较两个单词或短语,并根据它们是否相似、在哪个专利类别中使用等因素进行评分。如果得分为 1,则认为这两个输入词具有相同的含义;如果得分为 0,则表示它们具有完全不同的含义。例如,abatement 和 eliminating process 得分为 0.5,表示它们有些相似,但不完全相同。
数据STUDIO
2023/09/04
3.9K0
保姆级!一个新手入门  NLP 完整实战项目
从零开始学Pytorch(十九)之Kaggle上的狗品种识别
在本节中,我们将解决Kaggle竞赛中的犬种识别挑战,比赛的网址是https://www.kaggle.com/c/dog-breed-identification 在这项比赛中,我们尝试确定120种不同的狗。该比赛中使用的数据集实际上是著名的ImageNet数据集的子集。
墨明棋妙27
2022/09/23
4120
干货 | 2019 Kaggle Freesound 音频标注挑战赛结果出炉,这是一份排名前 2 %的解决方案!
AI 科技评论按:日前,2019 年 Kaggle Freesound 音频标注挑战赛宣告完结,比赛结果也终于出炉。参赛者之一 Eric BOUTEILLON 是全球无缝支付解决方案提供商银捷尼科集团(Ingenico Group)的一位产品负责人,他提交的解决方案在本次比赛中进入前 2% 排名,取得了第 8 名的成绩,日前,他将解决方案分享在了 Github 上,详细地介绍了该方案的复现步骤。
AI科技评论
2019/07/05
9760
干货 | 2019 Kaggle Freesound 音频标注挑战赛结果出炉,这是一份排名前 2 %的解决方案!
Kaggle ICR 赛题 LightGBM基础思路
Kaggle ICR比赛现在在进行中,这个比赛是一个典型的数据挖掘比赛,很适合入门学习。本文将介绍现在ICR基础的解决方案。
Python数据科学
2023/08/29
3300
Kaggle ICR 赛题 LightGBM基础思路
免费GPU哪家强?谷歌Kaggle vs. Colab
作者 | Jeff Hale 译者 | Monanfei 责编 | 夕颜 出品 | AI科技大本营(id:rgznai100)
AI科技大本营
2019/06/14
7.1K0
免费GPU哪家强?谷歌Kaggle vs. Colab
Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林
作者:刘思聪 中山大学|计算机科学与技术研究生 来源自知乎专栏:AI带路党 量子位 已获授权编辑发布 大家好,我是思聪 · 格里尔斯,我将向您展示如何从世界上某些竞争最激烈的比赛中拿到金牌。我将面临一个月的比赛挑战,在这些比赛中缺乏正确的求生技巧,你甚至拿不到铜牌。这次,我来到了亚马逊热带雨林。 当我和我的队友们进入这片雨林的时候,这场长达三个月的比赛已经进行了两个月,想要弯道超车,后来居上,那可不是件容易的事。我们最后在比赛结束的时候,获得了Public Leaderboard第一, Private Le
量子位
2018/03/27
1.5K0
Kaggle获奖者自述比赛求生指南:我们如何“穿越”亚马逊热带雨林
如何在Kaggle上打比赛,带你进行一次完整流程体验
Kaggle是最著名的机器学习竞赛网站。Kaggle竞赛由一个数据集组成,该数据集可以从网站上获得,需要使用机器、深度学习或其他数据科学技术来解决问题。一旦你发现了一个解决方案,你就可以把你的模型结果上传到网站上,然后网站根据你的结果对你进行排名。如果你的结果可以击败其他参赛选手,那么你可能获得现金奖励。
HuangWeiAI
2020/03/04
3.4K0
大数据竞赛平台-Kaggle入门篇
本文作者: wopon_ 来源:36大数据 本文长度为1500字,建议阅读4分钟 这篇文章适合那些刚接触Kaggle、想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文。本文分为两部分介绍Kaggle,第一部分简单介绍Kaggle,第二部分将展示解决一个竞赛项目的全过程。如有错误,请指正! 1、Kaggle简介 Kaggle是一个数据分析的竞赛平台,网址:https://www.kaggle.com/ 企业或者研究者可以将数据、问题
小莹莹
2018/04/19
8.4K0
大数据竞赛平台-Kaggle入门篇
【数据竞赛】Kaggle ARC Top1方案解读
Kaggle:Abstraction and Reasoning Challenge Top1方案解读
黄博的机器学习圈子
2021/01/12
7200
【数据竞赛】Kaggle ARC Top1方案解读
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)
练习地址:https://www.kaggle.com/c/ds100fa19 相关博文: [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(RNN/GRU/LSTM) [Kaggle] Spam/Ham Email Classification 垃圾邮件分类(BERT)
Michael阿明
2021/02/19
1.1K0
[Kaggle] Spam/Ham Email Classification 垃圾邮件分类(spacy)
MXNet | LeNet-5(卷积神经网络)用于手写字识别
卷积神经网络参考:http://yann.lecun.com/exdb/lenet/ 比赛的官网:https://www.kaggle.com/c/digit-recognizer 若是下载数据集困难,可以去我的百度网盘下载:链接:http://pan.baidu.com/s/1sl50KjV 密码:ca56
努力在北京混出人样
2019/02/18
1.1K0
如何入手卷积神经网络
从 Alex Krizhevsky 及其朋友通过 ImageNet 公布这项技术至今,不过才七年。ImageNet 是一个大规模图像识别竞赛,每年都会举办,识别种类达 1000 多种,从阿拉斯加雪橇犬到厕纸应用尽有。之后,他们又创建了 AlexNet,获得了 ImageNet 竞赛冠军,远超第二名。
机器之心
2019/06/05
7380
如何入手卷积神经网络
从 0 到 1 走进 Kaggle
本文结构: kaggle 是什么 如何参赛 解决问题一般步骤 进一步: 如何探索数据 如何构造特征 提交结果 ---- kaggle 是什么? Kaggle 是一个数据科学竞赛的平台,很多公司会发布一些接近真实业务的问题,吸引爱好数据科学的人来一起解决。 https://www.kaggle.com/ 点击导航栏的 competitions 可以看到有很多比赛,其中正式比赛,一般会有奖金或者工作机会,除了正式比赛还有一些为初学者提供的 playground,在这里可以先了解这个比赛,练习能力,再去参加正
杨熹
2018/04/03
1K0
从 0 到 1 走进 Kaggle
推荐阅读
相关推荐
Kaggle 赛题解析 | AMP 帕金森进展预测
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档