首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Kaggle的入门介绍:通过竞赛磨练机器学习技能

内核(Kernels): 在Kaggle服务器上运行的在线编程环境,你可以在其中编写Python / R脚本或Jupyter notebook。...当你注册Kaggle时,你不仅获得了所有资源,还成为了数据科学家社区的一员。 通过努力成为社区的积极参与者,充分利用所有这些经验!从共享内核到在讨论论坛中提问。...将自己投入竞赛的一个很好的方法是找到一个较好排名的共享的内核,分叉内核,编辑它以尝试提高分数,然后运行它来查看结果。然后,将内核公开,以便其他人可以使用你的工作。...你可以像在Jupyter中一样编写Python代码和文本(使用标记语法),并完全在Kaggle的服务器(云中)上运行代码。...在data选项卡中,我们可以查看内核所连接的数据集。在这种情况下,我们拥有完整的竞赛数据。当然,我们也可以连接到Kaggle上的任何其他数据集或上传我们自己的数据并在内核中访问它。数据文件在..

1.6K10

Kaggle | 使用Python和R绘制数据地图的十七个经典案例(附资源)

我发现我们的代码和数据库是目前了解Python和R最新技术和库的好地方。 在这篇博客中,我将一些优秀的用户内核变成迷你教程,作为在Kaggle上发布的数据集进行绘制地图的开始。...,借助CDC在Kaggle上发布的数据,以显示美国哪些州每日吸烟者的百分比最高。...但是,它是我见过的最光滑的内核。如他们的主页上所述,“Highcharter是Highcharts Javascript库及其模块的R包装。你可以在这里找到他们的文档。...该作者显示,剩下的时间越少,科比在越远的投篮位置上越冒风险。 在科比布莱恩特的投篮选择的时间背后的探索。 利用DBenn绘制外太阳行星的3D空间位置的地图(R)。...任何这些内核的交叉和延伸,再佐以自己的天赋或通过选择“新脚本”或“新笔记本”,在Kaggle上发布的200多个功能数据集中get你的新的地图制作技能。

5.2K51
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Kaggle刚刚上线了机器学习课程,我们帮你做了个测评

    企业和研究人员在Kaggle上发布数据,让全世界的统计师和数据科学家对数据集进行建模和分析,以竞赛的形式评选出最佳模型。...目前在竞赛模式上,除了面向大众的竞赛,Kaggle还推出了免费的InClass模式,方便高校教师和学生在Kaggle平台上完成随堂练习。...Kaggle内核(Kernels): Kaggle内核目前最主要用于共享模型,以及分析公开数据集平台上的数据。...讲师选择 在讲师的选择上,也能看出Kaggle不强调理论背景,而是强调实践。...Python是数据科学中最受欢迎的语言,R是第二大流行语言。 所以我们推荐R和Python,且更倾向于Python。 我需要提前了解多少Python? 你应该熟悉变量,列表,字典,函数和循环。

    42620

    基于OpenCV实现海岸线变化检测

    2.1 子集多光谱立方体 在这个阶段中,先对两个多光谱立方体进行“对齐”(或正式注册),再切出不感兴趣的部分。 ? 我们可以使用ImageImages()函数“剪切”不需要的数据。...3.数据探索 3.1可视化多光谱立方体 让我们尝试查看2019/07/25收购的所有范围。出于纯粹的美学原因,在绘制图像之前,让我们使用 StandardScaler()对图像进行标准化。...3.2可视化复合RGB中的多光谱立方体 现在,让我们尝试可视化使用波段4(红色),3(绿色)和2(蓝色)获得的RGB复合图像中的两次采集。 定义BIAS和GAIN 仅是为了获得更好的效果。...4.自动化海岸线检测 在本段中,我们将使用Canny的算法执行边缘检测。 在进行实际检测之前,有必要准备数据集,尝试通过聚类算法对数据集进行分割以区分海洋和陆地。 ?...5结论 从结果中可以看到,Canny的算法在其原始管道中运行良好,但其性能通常取决于所涉及的数据。 实际上,所使用的聚类算法使我们能够对多光谱立方体进行细分。并行使用多个聚类模型可以总体上改善结果。

    1.2K20

    在TPU上运行PyTorch的技巧总结

    但是Kaggle和谷歌在它的一些比赛中分发了免费的TPU时间,并且一个人不会简单地改变他最喜欢的框架,所以这是一个关于我在GCP上用TPU训练PyTorch模型的经验的备忘录(大部分是成功的)。 ?..._models[0].state_dict(), filepath) 每个并行内核必须运行相同批数量,并且只允许运行完整批。因此,每个历元在小于100%的样本下运行,剩余部分被忽略。...如前所述,我只能使用单核运行进行推理。 直接在jupyter笔记本上运行的DataParallel代码对我来说非常不稳定。它可能运行一段时间,但随后会抛出系统错误、内核崩溃。...不幸的是,在损失函数中,我需要同时使用掩码和循环。就我而言,我将所有内容都移到了CPU上,现在速度要快得多。只需对所有张量执行 my_tensor.cpu().detach().numpy() 即可。...但是请注意,由于我们没有运行相同的架构,因此比较是不公平的。 尝试将训练映像切换到GCP SSD磁盘并不能提高性能。 总结 总而言之,我在PyTorch / XLA方面的经验参差不齐。

    2.8K10

    提升Kaggle模型的实用小技巧!

    所以,无论是建立自己的模型,还是从一个基准的公共内核开始,都可以尝试实施这些建议! ?...三、尝试超参数搜索 超参数搜索可以帮助你找到你的模型应该具备的最佳参数(学习率、softmax的温度等),以获得最佳的性能,而无需手工运行上千次的枯燥实验。...它们在不同级别上工作: 在优化过程中,千万不要忘了添加一个学习率调度器,帮助获得更精确的训练(从小开始,当你的模型学习良好时逐步增加)。...理论上,你可以获得更好的性能,虽然我从来没有发现这是真的;但它可以稳定训练,当你的数据非常嘈杂时,这是好事。...我个人的小技巧是:总是保存我运行过的每一个模型预测,并对所有模型进行平均(只是基本的平均,我从来没有发现任何证据表明,"聪明 "的集成,如按模型的单一性能加权,在最终得分中增加了什么)。

    44930

    年龄不是上限!我只是按照自己的兴趣专注于机器学习

    我不记得我是如何登陆 Kaggle 网站的,但是当我意识到ML的能力时,我感觉好像我在旷野长途跋涉后终于回到了家。 我认为ML最吸引我的是它可以用来回答如此广泛的现实生活问题。...如果我们具体谈谈您的 Kaggle 之旅,那么您面临哪些挑战,您是如何克服这些挑战的? Philip:我基本上是从零开始的,对机器学习、概率、统计或矩阵代数一无所知。...所以我必须一次学习所有东西R、Python、概率和统计,以及机器学习。我很幸运,正是在MOOC开始流行的时候开始了这段旅程。...如果我必须指定5个提示,我想它们是: 在查看论坛讨论和代码分享之前,可以尝试自己解决问题; 尽早开始,比赛中后期很难赶上比赛; 尝试与拥有更多知识/经验的人合作; 关注论坛,包含重要的信息; 如果排名下降...一旦我对验证设置有信心,我将开始尝试逐步改进模型。 当我模型停止改进,或者如果我的验证分数与排行榜分数不同步,我将对数据进行更深入的分析以找出发生了什么。我通常避免查看任何公共内核,直到卡住为止。

    31220

    如何在机器学习竞赛中更胜一筹?

    2.你解决问题时所采用的模型选择和数据处理技术是什么? 一般来说,我尝试(几乎)一切的大多数问题。原则上: 时间序列:我使用GARCH、ARCH、回归、ARIMA模型等。...做一些kaggle! 先解决有“知识”标志的比赛,,然后开始解决一些主要的问题。 尝试解决一些过去的。 14.在Kaggle和一般的大数据集上哪些技术最好? 如何解决内存问题?...在客户可能会点击/购买时尝试预测顾客会买什么并给定一些可用的数据,给定一些历史风险的建议 建立一个测试/验证框架。 找到最佳的解决方案来预测客户最佳选择。...如果一个人在Kaggle上做得很好,那么她会在她的职业生涯中成为一名成功的数据科学家吗? 有一定比例的重叠,特别是在制作预测模型时,通过python / R处理数据并创建报告和可视化。...这可能需要一段时间,所以运行一些回归以及你正在做的任何其他建模可能会很好,并且通常会尝试提供说明图和总结信息,以便为您的模型为什么执行此操作。 29.如何在Kaggle建立合作团队?

    1.9K70

    教程 | 一文入门Python数据分析库Pandas

    即使文档的规模如此庞大,它还是没有涵盖每一个操作,当然也不涵盖你在 Pandas 中能使用的函数/方法与参数的所有组合。 充分利用文档 为了充分利用文档,不要只阅读它。...当你阅读文档时,写下(而不是复制)代码,并且在笔记本中执行。在执行代码的过程中,请探索这些操作,并尝试探索使用它们的新方法。...你可能目前并不能进行高级的数据处理,但你应该能联系你在文档的前三部分学到的知识。 检视内核 每一个 Kaggle 数据集都有一个内核(kernel)部分。...不要被「内核」这个名字迷惑了——它只是一个将 Kaggle 数据集放在 Python 或 R 语言处理的 Jupyter notebook。这是很好的学习机会。...找到想要探索的数据集之后,继续用相同的方式创建 Jupyter notebook,当你有一个很好的最终成果时,可以将它发布到 github 上。

    95840

    年轻人的第一块金牌:我是如何成为 Kaggle 全网第一的

    竞赛之初 就自身而言,我通常会为新的Kaggle竞赛编写EDA内核,所以这次也不例外。在这一过程中,我发现这次竞赛非常有意思,也非常特别。...和往常一样,我在Kernels上公开了自己的工作。从下图中你可以看到,它们很受欢迎。 这次,该方法在leaderboard上取得了相当好的得分,我也得以保持白银段位。...一段时间之后,我甚至可以在自己的PC上运行这个模型,但是结果并不如LGB模型。但无论如何,现在我的团队知道了,如果想达到更高的目标,我们需要使用这些神经网络。...寻找新的方法是我的主要贡献之一 我看了很多关于神经网络架构的论文,包括EAGCN、3DGNN等; 我尝试了不同的损失函数,如Huber。...我甚至找到了一篇用于回归的焦点损失函数论文,但实现起来并不可行; 当然,我还尝试了RAdam、Ranger等新的热门优化器,但简单的Adam在此次竞赛中更加好用。

    58720

    保姆级!一个新手入门 NLP 完整实战项目

    如果是在 Kaggle.com 上运行,可以跳过下一部分。...只需确保在 Kaggle 上选择了在会话中使用 GPU,方法是点击菜单(右上角的 3 个点)并点击 "Accelerator" -- 应该是这样的: 根据是否在 Kaggle 上运行,我们需要的代码会略有不同...下面是一个简单的函数,用于标记我们的输入: def tok_func(x): return tokz(x["input"]) 要在数据集的每一行上并行快速运行,这里推荐使用 map函数: tok_ds...plot_poly(1) 如图所示,红线(拟合的直线)上的s点并不十分接近。这就是欠拟合,函数没有足够的细节来匹配数据。 如果我们在测量结果上拟合一个十项式,会发生什么情况?...只有在完成整个训练过程(包括尝试不同的模型、训练方法、数据处理等)后,才能检查测试集上模型的准确性。

    3.6K32

    教程 | 一文入门Python数据分析库Pandas

    手把手教你学 Pandas 几个星期前有人询问我如何练习使用 Pandas,因此我在 r/datascience subreddit 上发布了一个简单的指南。下面的内容将详细说明那篇文章表达的信息。...即使文档的规模如此庞大,它还是没有涵盖每一个操作,当然也不涵盖你在 Pandas 中能使用的函数/方法与参数的所有组合。 充分利用文档 为了充分利用文档,不要只阅读它。...当你阅读文档时,写下(而不是复制)代码,并且在笔记本中执行。在执行代码的过程中,请探索这些操作,并尝试探索使用它们的新方法。...你可能目前并不能进行高级的数据处理,但你应该能联系你在文档的前三部分学到的知识。 检视内核 每一个 Kaggle 数据集都有一个内核(kernel)部分。...不要被「内核」这个名字迷惑了——它只是一个将 Kaggle 数据集放在 Python 或 R 语言处理的 Jupyter notebook。这是很好的学习机会。

    97780

    手把手教你用Kaggle开启机器学习之旅(附资源链接)

    即使是与任何竞赛都无关的那些:与仅仅300个竞赛(在撰写本文时)相比,它包含9500多个数据集。...理由1:准确了解入门必备内容 关于Kaggle Learn的机器学习课程不会教你机器学习算法背后的理论和数学。相反,它专注于仅教授在分析和建模数据集时绝对必要的事物。...当您尝试解决的问题是真实的时,您将始终希望努力改进您的解决方案。这将提供学习和成长的动力。这就是参加Kaggle挑战所能获得的。...Kaggle拥有所有那些有野心的现实世界的问题有一个缺点,它可能是初学者进入的一个令人生畏的地方。我理解这种感觉,因为我最近开始在Kaggle上入门。...或者,如果你觉得你已经尝试了所有东西,但碰壁了,那么在论坛上寻求帮助可能会有所帮助。 ?

    1.5K20

    巧用Kaggle进行模型训练

    另外,在您的网页上运行的核,在无用户输入的情况下,只能在一个小时内运行。因此,如果您在运行模型后走开一个多小时,内核将停止。您将失去所有输出,并且必须重新启动核。...您可以通过提交代码来解决此问题,该代码将在与您在网页上看到的不同的核中运行。但是要注意的一点是,只有在核完全运行后才能看到输出。...以下是使用Kaggle时的硬件和时间限制: 9小时执行时间 5 GB自动保存的磁盘空间(/kaggle/正在运行) 16 GB的临时暂存磁盘空间(/kaggle/工作区外部) CPU规格 4个CPU核心...只要确保您的数据少于16GB的磁盘空间(除非您使用的是Kaggle数据集),并且能9小时内跑完。如果您的模型可以在这些限制下运行,那么请上传数据并开始工作! Kaggle入门 ?...选择Python或R 选择编码类型 如果要使用GPU,请单击Show Advanced Settings,然后选择GPU on 然后点击Create Kaggle核 ?

    9.1K32

    工具 | 你能用到的 kaggle kernel 学习技巧

    Kaggle Kernels几乎是一个更简单的笔记本,可以在浏览器中直接运行。...从另一个角度来看,kaggle Kernels本质上是一种jupyter笔记本,可以在浏览器中完全免费运行,并提供免费的gpu。...Forking Kaggle Kernels 在使用kaggle Kernels进行机器学习时,第一种技巧非常关键。Kaggle提供了一个名为“forking”的功能。...这个特性允许您查看一个完整构建的项目,并尝试使用它,然后在kaggles自己的免费gpu上运行它。...到今天为止,我发现关于机器学习最伟大的引言之一来自Ian Goodfellow,“在理解了基础知识之后,您应该尝试实现尽可能多的模型”。本质上,他所描述的是通过做来学习。

    1K30

    Kaggle Grandmaster 的 NLP 方法

    在数据上运行 TF-IDF 是一种特征提取的形式。在这里,我们需要推导出数据的某种重要的预测因子或特征,帮助我们找出哪位作者写了一个特定的句子。...在训练集和验证集上拟合 TF-IDF 后,Abhishek 建立了一个逻辑回归模型。如果这种类型的分类模型对你来说是新的,请在继续之前阅读它的介绍。...在拟合了逻辑回归模型后,Abhishek 计算了其逻辑回归模型的对数损失(回想一下,他在内核开始附近编写了多类对数损失函数)。对于逻辑回归模型,多类对数损失函数返回 0.626 的对数损失值。...从这里,我们有很多方法可以尝试,这正是 Abhishek 所做的。在我们研究和预处理了数据之后,我们得到了许多不同的特征提取和模型拟合组合。...不要害怕麻烦,多尝试几个模型——通过更多实验,你很可能找到适合优化你的评估指标的模型。我希望在阅读了这篇文章之后,你能更好地理解如何处理 NLP 问题,并且你也很欣赏 Abhishek 的工作。

    55420

    Unity基础教程系列(新)(五)——计算着色器(Rendering One Million Cubes)

    (100万个移动的立方体) 1 把工作移到GPU 图形的分辨率越高,CPU和GPU在计算位置和渲染立方体上要做的工作就越多。点的数量等于分辨率的平方,因此将分辨率加倍会大大增加工作量。...在指令下定义函数。这是一个空函数,最初没有参数。 ? 1.5 Compute 线程 当指示GPU执行计算着色器功能时,它会将其工作划分为多个组,然后安排它们独立且并行运行。...设置缓冲区后,我们可以通过使用四个整数参数在compute shader上调用Dispatch来运行内核。第一个是内核索引,其他三个是要运行的组的数量,每个维又进行划分。...它仅指示GPU运行计算着色器内核,然后告诉Unity从程序上绘制很多点。这不会立即发生。计算着色器已计划,将在GPU空闲时立即运行。程序绘制命令随后由DRP发送到GPU。...让我们尝试最大的分辨率。 ? ? (分辨率设置为1000) 当在小窗口中查看时,它看起来并不漂亮-出现摩尔纹图案,因为这些点太小了-但它可以运行。对我而言,以24FPS渲染一百万个动画点。

    3.9K12

    ubuntu7.10安装到3D开启

    现在总结一下安装过程(按操作顺序记录): 1.在xp下不管用pqmajac还是其他硬盘分区工具分出10G的空余分区来(实验阶段10G尝试下),不知道是不是必须得把空余分区放到硬盘的最后,似乎用中间分区会出现安装错误...这里是我出错最多的地方,所以把我出现问题的情况和解决方法也顺带提一下。...在3D开启的文章中经常提到的不是运行这行命令,如果不是执行这条命令,那么3D开启以后会在下次开机时出现白屏!...点击旋转立方体->一般,把缩放调整到1.0,把速度调整到0.7,再按Ctrl+alt+向左/向右键,可以看到立方体运动时的慢动作,并且立方体小了很多。...在CompizConfig设置管理器主界面选择“在屏幕上绘制火焰”前面的复选框,现在就可以直接按住Super+shift键,然后用鼠标左键在屏幕写了。

    1.8K80

    如何从零开始,自学成为一名数据科学家?

    根据 Kaggle 2018 机器学习及数据科学调查报告,83% 的受访者在日常工作中使用 Python。...因此,我推荐大家学习 Python 语言,同时也推荐大家花一点时间学习其他语言,比如 R 语言。...我自己采取的方式是:学习能够实现某项技术的代码(比如 KMeans),在代码运行后深入了解其概念,如惯性(inertia)。...你可以在注册可汗学院时选择想要学习的主题,这样就可以得到量身定做的理论学习路径了。查看下图中的所有复选框,提前了解下文将要列举的大部分理论元素。 ?...你甚至可以尝试使用 web 前端构建一个部署模型。将自己的项目存储在公共平台是个好办法,比如 GitHub,这可以帮你创建作品集,展示个人技能,为未来的求职打下基础。 ?

    95610

    MCU HardFault问题查找和破解方法

    ,在debug IDE的stack callback窗口能直接找到出错时上一级的调用函数,所以显得无从下手。...第一种:心里明白徒手分析法,就是在了解Hard Fault出错原理以及程序调用压栈出栈原理的基础上(当然按照本文的练就心法,心里不明白也可以),在Debug仿真模式下徒手去回溯分析CPU通用寄存器(LR...上,该方法支持在非Debug模式下,自动分析定位到出错的行号,无需了解复杂的压栈出栈过程。...(依次为 xPSR、PC、LR、R12以及 R3~R0),如果异常发生时,当前的代码正在使用PSP,则上面8个寄存器压入PSP,否则就压入MSP。...答案其实在Step 5的打印信息中已经揭晓“查看更多函数调用栈信息,请运行:addr2line -e CmBacktrace.out -a -f 00005f12 0000dda4 ”。

    6.3K21
    领券