首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >学术科研无从下手?27 条机器学习避坑指南,让你的论文发表少走弯路

学术科研无从下手?27 条机器学习避坑指南,让你的论文发表少走弯路

作者头像
HyperAI超神经
发布于 2023-02-27 08:38:06
发布于 2023-02-27 08:38:06
4760
举报
文章被收录于专栏:HyperAI超神经HyperAI超神经

By 超神经

内容一览:如果你刚接触机器学习不久,并且未来希望在该领域开展学术研究,那么这份为你量身打造的「避坑指南」可千万不要错过了。

关键词:机器学习 科研规范 学术研究

机器学习学术小白,如何优雅避坑坑、让自己的论文顺利发表?

来自苏格兰赫瑞瓦特大学数学与计算机科学学院的 Michael A. Lones 副教授,曾在 2021 年专门发表了一篇论文--「How to avoid machine learning pitfalls: a guide for academic researchers」,对此进行了详细论述。

阅读完整论文 (V2):

https://arxiv.org/pdf/2108.02497.pdf

Michael A. Lones 主要研究方向包括优化、机器学习

数据科学、复杂系统和非标准计算

以及在生物学、医学、机器人和安全问题中的应用

在这篇论文中,作者从学术研究的视角出发,结合自己的科研经历及教学经验,收录了在使用机器学习技术的完整链路中,频繁出现、需要特别关注的 5 大问题,并提出了相应的解决办法。

适用人群:

对 ML 领域比较陌生,只具备基础 ML 知识的同学或学者

温馨提示:

本文聚焦学术界普遍关注的问题,如:如何严格评估和比较模型,使得论文能顺利发表

接下来,我们将遵循 ML 模型训练的完整流程,分阶段展开叙述。

阶段 1:创建模型前

很多同学一上来就急着训练和评估模型,往往忽略了更重要的「做功课」,这些「功课」包括:

* 项目的目标是什么

* 实现这一目标,需要怎样的数据

* 数据会不会有局限性,如果有如何解决

* 这一领域的研发进展如何,已经做了什么

这些前置工作没有做好,光着急跑模型,那么最终很可能出现模型无法证明预期结论、科研工作无法发表等尴尬局面。

1.1 了解并分析数据

数据来源可靠、收集方法科学且数据质量高,会对论文发表大有裨益。这里需要注意,被广泛使用的数据集不一定都质量好,也有可能是因为它容易获取。选取数据前先进行一些探索性的数据分析,排除数据的局限性。

1.2 不要查看全部数据,开始前就把测试数据区分出来

测试集的信息泄漏到训练过程,是机器学习模型不能泛化的一个常见原因。为此,数据探索性分析阶段,不要过于细致地查看测试数据,避免有意或无意地做出无法测试的假设,限制模型的通用性。

温馨提示:

做出假设是可以的,但是这些假设应该只被纳入模型的训练 (training) 中,而非测试 (testing) 中。

1.3 准备充足的数据

数据不够可能降低模型的概括性和通用性,这取决于数据集的信噪比 (Signal-to-Noise Ratio, SNR)。在机器学习研究领域中,一个常见的问题是数据量不够,这时可以通过交叉验证、数据增强等技术,提高现有数据的可用性。

1.4 积极向该领域专家请教

领域专家具备丰富的科研经验,可以帮助我们明确需要解决的问题、最合适的特征集和机器学习模型,以及指导我们研究成果的发布,起到事半功倍的效果。

1.5 做好文献调研

学术进步是一个迭代的过程,每一项研究都提供了可以指导下一项研究的信息。忽视以前的研究,很可能会让自己错过有价值的信息。与其写论文的时候,才绞尽脑汁地解释为什么研究同样的课题、为什么不在现有的成果上开始研究,不如在开始工作前就做一个文献综述。

1.6 提前思考模型的部署问题

如果学术研究的最终目标,是创建一个可以在现实世界中部署的机器学习模型,则需要尽早考虑部署问题,如环境限制对模型复杂度的影响、是否有时间限制、如何与软件系统结合等等。

阶段 2:可靠地创建模型

以一种有组织的方式创建模型非常重要,这使我们可以正确地使用数据,并充分考虑模型的选择。

2.1 测试数据不能参与到模型训练过程中

一但测试数据参与到了模型的配置、训练或选择中,会极大影响数据的可靠性和通用性,这也是已发布的机器学习模型经常不能通用于现实世界数据的一个常见原因。

❎ 错误示例(注意规避):

* 数据准备期间,用整个数据集变量的均值和范围信息进行 variable scaling(正确做法是只在训练数据中进行)

* 在分割数据之前进行特征选择

* 使用相同的测试数据评估多个模型的通用性

* 在分割测试数据之前应用数据增强

为了避免以上问题出现,最好的办法就是在项目开始前,就划分出一个数据子集,并且在项目结束时只使用这个独立的测试集来测试单一模型的通用性。

温馨提示:

时间序列数据的处理要特别小心,因为数据的随机拆分很容易造成泄漏和过拟合。

2.2 尝试多个不同模型

世界上不存在放之四海皆通用的机器学习模型,我们的研究工作就是要找到适用于特定问题的机器学习模型。Python、R、Julia 等现代机器学习库,只需对代码进行少量修改,就可以尝试多种模型,找到最有效的模型。

温馨提示:

* 不要使用不合适的模型,使用验证集而非测试集来评估模型

* 比较模型时,要优化模型的超参数,并进行多次评估,并在发布结果时纠正多重比较。

2.3 不要使用不合适的模型

现代机器学习库降低了机器学习的实施门槛,同时也使得我们很容易选用不合适的模型,如将适用于 categorical feature 的模型应用于包含 numerical feature 的数据集,或者在该使用回归模型的时候使用分类模型。在选择模型时,应尽可能选用适合用例的模型。

2.4 深度学习有些时候并不是最优解

虽然深度神经网络 (DNN) 在某些任务上表现出色,但并不意味着 DNN 适用于所有问题,尤其是当数据有限、 underlying pattern 相当简单,或模型需要可解释的时候,DNN 的表现可能并不如某些 old fashioned 机器学习模型,如随机森林、SVM。

2.5 优化模型的超参数

超参数对模型的性能影响巨大,且通常需要与特定数据集相匹配。无目的地进行测试,可能并不是找到合适超参数的最佳方法。推荐使用超参数优化策略,如 random search 和 grid search。

温馨提示:

对于超参数数量巨大或训练成本较高的模型而言,这些策略并不适用,可以借助 AutoML、数据挖掘 pipeline 等技术来优化模型的选择及其超参数。

2.6 优化超参数及选择 feature 时需要额外细心

超参数优化和特征选择是模型训练的一部分,不要在模型训练开始前,对整个数据集进行特征选择,这会使得信息从测试集泄露到训练过程中。优化模型的超参数或特征,最好使用与训练模型完全相同的数据,一种常见的技术是嵌套交叉验证(也称双重交叉验证。

阶段 3:稳健地评估模型

不合理的模型评估非常普遍,这会阻碍学术研究的进展。因此,需要谨慎思考如何在实验中使用数据、衡量模型的真实性能并进行报告。

3.1 使用恰当的测试集

使用测试集来衡量机器学习模型的通用性,并确保测试集的数据是合适的。测试集不应与训练集重叠,且需要涵盖更广泛的条件,如一个物体的摄影数据集,如果训练集和测试集都是在晴天的室外收集的,测试集就不是独立的,因为没有捕捉到更广泛的天气条件。

3.2 分割数据前不要进行数据增强

数据增强有利于平衡数据集和提高机器学习模型的通用性和稳健性,需要注意的是数据增强应该只应用于训练集,不涉及测试集,以防出现过拟合。

3.3 使用验证集

使用一个单独的验证集来衡量模型性能,这包含一组不直接用于训练,而是用于指导训练的样本。验证集的另一个好处是可以进行 early stopping。

3.4 对模型进行多次评估

模型的单一评估并不可靠,可能低估或高估了模型的真正性能,为此,需要对模型进行多次评估,大多涉及到使用不同的训练数据子集对模型进行多次训练。交叉验证 (Cross-Validation) 是一种特别流行且种类众多的方法,如 Ten-fold Cross-Validation。

温馨提示:

报告多次评估的均值和标准差的同时,建议保留单个分数记录,以备后续使用统计检验 (statistical tests) 对模型进行比较。

3.5 保留一些数据来评估最终的模型实例

对模型实例的通用性进行可靠评估的最佳方法,可能就是使用另一个测试集。所以,如果数据量足够大,最好先保留一些,并用其对最终选定的模型实例进行无偏差 (unbisded) 的评估。

3.6 不要对非平衡数据集使用准确率

谨慎选择评估机器学习模型的指标,例如,分类模型最常用的指标是准确率 (accuracy),如果是平衡数据集(每个类别在数据集中都有类似数量的样本代表)效果就会很好;如果是非平衡数据集,准确率则可能是一个非常具有误导性的指标。

在这种情况下,最好使用 F1 score、科恩卡帕系数 (κ) 或马修斯相关系数 (MCC) 等对 class size imbalance 不敏感的指标。

阶段 4:公平地比较模型

对模型进行比较是学术研究的基础,但如果以不公平的方式进行比较,并且发表,就会带偏其他研究人员。所以,需要确保在同一条件下评估不同模型,并正确使用统计检验 (statistical tests)。

4.1 对于模型而言,并不是数字越高性能越好

论文中常出现这种表述「此前研究中的准确率是 94%,本文模型准确率高达 95%,因此更好」。各种原因表明,更高的数字不等同于更好的模型,如果模型是在同一个数据集的不同分区上训练或评估的,可能性能差异教小;如果是用了完全不同的数据集则可能性能差异巨大。没有进行相同数量的超参数优化也会影响模型性能差异。

因此,要想对两个模型科学地进行性能比较,应该将模型优化到相同程度,并进行多次评估,然后用统计测试的方法确定性能差异是否显著。

4.2 用统计检验比较模型

推荐用统计检验 (statistical tests) 比较两个模型的性能差异。广义上讲,比较机器学习模型的 test 分为两类:第一类用于比较同类模型实例,如比较两个训练好的决策树时,可以选用 McNemar 检验;第二类适用于更通用的模型比较,如比较决策树和神经网络哪个更适合时,选用曼-惠特尼 U 检验。

4.3 对多重比较进行校正

用统计检验比较两个以上模型有些复杂,multiple pairwise test 类似多次使用测试集,这可能导致对显著性 (significance) 过于乐观 (overly-optimistic) 的解释。

推荐使用多重检验 (multiple test) 校正来解决这个问题,如邦费罗尼校正 (Bonferroni correction)。

4.4 不要过于相信社区基准的结果

对于某些领域的问题,很多人会选用基准数据集来评估新机器学习模型的性能,因为大家都是使用相同的数据来训练和测试模型,那么比较起来就会更加直观。这种方法有一些主要缺点。

首先,如果测试集的访问不受限,则不能保证别人没有把它作为训练过程的一部分,这会导致对于结果的过度乐观。此外,即使每个使用数据的人只使用了一次测试集,但总体而言,测试集被社区使用了很多次,这也会导致模型过拟合的发生。为此,应该谨慎地解读基准数据集的结果,对性能的提高进行合理研判。

阶段 5:报告结果

学术研究需要对知识有贡献,这要求报告研究工作的整体情况,包括哪些工作成功、哪些失败。机器学习通常和 trade-offs 相关,一个模型在所有方面都比另一个模型好是很少见的。所以在报告结果时需要体现这一点。

5.1 报告需要透明

把所有研究工作都透明地分享出来,这利于其他人重复这项实验,也方便人们比较模型。清晰地记录实验及写出整洁的代码,对自己和他人都有好处。机器学习社区越来越注重实验的可复现,工作流程记录不充分,可能会影响后续发表。

5.2 多种方式报告性能

在评估模型性能时,一个更严谨的方法是使用多个数据集,这能帮助克服与单个数据集相关的任何缺陷,并给出模型性能的全面描述。为每个数据集报告多个指标是很好的做法,因为不同指标能呈现不同的结果,增加工作的透明度。

5.3 只针对数据进行归纳

不要提出无效结论,这会把其他研究人员带入歧途。一个常见的错误是,发表训练和评估模型的数据不支持的概括结论。模型在一个数据集上表现很好,不意味着在其他数据集上也做得好。虽然可以通过使用多个数据集获得可靠的 insights,但从实验中研究和推断出的东西总是有限的。不要夸大发现,意识到局限性。

5.4 谨慎报告显著性差异

上文探讨的统计检验,可以帮助检验模型间的差异。但统计检验并不完美,可能会低估或高估模型的显著性,出现假阳或假阴的问题。此外越来越多的统计学家主张放弃使用置信度阈值 (confidence threshold)、直接报告 p 值来测定模型显著性。

除了统计显著性,另一个要考虑的问题,是两个模型间的差异是否真的重要。因为只要样本足够,总是能找到显著的差异,哪怕实际性能差异微乎其微。所以在判断重要性时,可以衡量效应值 (effect size),方法包括 Cohen’s d statistic(更普遍)、Kolmogorov Smirnov(效果更好,推荐)等。

5.5 关注模型运行原理

训练过的模型包含众多有效信息,但很多作者只报告模型的性能指标,对模型原理不作解释。研究的目的不是获得比别人稍高的准确率,而是总结知识并分享给研究社区,进而增加工作成果发表的可能性,如,对于决策树一类的简单模型,提供模型可视化;对于深度神经网络一类的复杂模型,考虑使用 XAI(可解释人工智能)技术提取相关信息。

以上就是「避坑指南」的完整内容,期待每位刚接触机器学习的同学,都能收好这份宝典、常读常新,顺利找到研究方向、选好课题,并早日顺利发表论文!

期待各位的好消息~

参考链接:

[How to avoid machine learning pitfalls: a guide for academic researchers]

https://arxiv.org/pdf/2108.02497.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
英国AI学者Michael Lones独家避坑指南,破解机器学习五大陷阱
近日,Michael A. Lones教授在arXiv提交了一篇论文,全面论述了机器学习在实际应用中的常见陷阱以及对应方法,以帮助机器学习的学术小白们快速入门。
AI科技评论
2021/08/25
4950
英国AI学者Michael Lones独家避坑指南,破解机器学习五大陷阱
如何写一篇不水的机器学习论文?这17页指南从建模、评估到写报告,手把手教你
丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 还在学师阶段的研究生以及从业新手们,想在机器学习研究中少走弯路吗? 或许下面这篇论文可以帮到你: 《如何避免机器学习研究中的陷阱?一本给学术研究人员的指南》 作者是英国赫瑞-瓦特大学数学与计算机科学学院的副教授,同时也是爱丁堡机器人中心的成员,博士毕业已经十多年,这篇17页的论文主要介绍了机器学习学术研究中的一些常犯错误,以及如何避免。 指南共涵盖了机器学习过程的五大方面:建模前如何准备,如何建出可靠的模型,如何稳健地评估模型,如何公平地比较模
量子位
2023/03/10
4000
如何写一篇不水的机器学习论文?这17页指南从建模、评估到写报告,手把手教你
如何计算McNemar检验,比较两种机器学习分类器
在1998年被广泛引用的论文中,Thomas Dietterich在训练多份分类器模型副本昂贵而且不切实际的情况下推荐了McNemar检验。
AiTechYun
2018/08/06
3.5K0
如何计算McNemar检验,比较两种机器学习分类器
Nat Comput Sci|迈向可重复的机器学习
2021年10月21日,Nature Computational Science 杂志发表文章,就如何报告基于机器学习的研究提供了一些建议,以提方法的透明度和可重复性。
智药邦
2021/11/17
3510
Nat Comput Sci|迈向可重复的机器学习
部署机器学习方案之困(上)
近年来,机器学习无论是作为学术研究领域还是实际商业问题的解决方案,都受到了越来越多的关注。然而,就像其他领域一样,在学术环境中起作用的研究和实际系统的要求之间往往存在着显著差异,所以在生产系统中部署机器学习模型可能会带来许多问题。
绿盟科技研究通讯
2023/02/22
4700
部署机器学习方案之困(上)
最新剑桥《AI全景报告》出炉:中国发表机器学习学术研究超过美国
2019年即将过去一半,剑桥大学的两位研究人员近日推出了本年度的State AI 2019全景报告。
AI科技大本营
2019/07/25
4610
最新剑桥《AI全景报告》出炉:中国发表机器学习学术研究超过美国
机器学习和深度学习的区别
现在搞传统机器学习相关的研究论文确实占比不太高,有的人吐槽深度学习就是个系统工程而已,没有数学含金量。
落寞的鱼丶
2022/02/21
6490
注水、占坑、瞎掰:起底机器学习学术圈的那些“伪科学”
一边是今年的NIPS迎来了创纪录的8000多篇投稿,一边是李飞飞、Keras框架的作者François Chollet等大佬摊手承认,机器学习发展已进入瓶颈期。
大数据文摘
2018/07/31
3880
注水、占坑、瞎掰:起底机器学习学术圈的那些“伪科学”
【行业】如何解决机器学习中出现的模型成绩不匹配问题
评估机器学习模型的程序是,首先基于机器学习训练数据对其进行调试和评估,然后在测试数据库中验证模型是否具有良好的技能。通常,在使用训练数据集评估模型后,你会对得到的成绩非常满意,但用测试数据集评估模型时成绩不佳。在这篇文章中,你会了解到当这个常见问题出现时,你需要考虑的技术和问题。
AiTechYun
2018/07/27
1.2K0
【行业】如何解决机器学习中出现的模型成绩不匹配问题
机器学习的跨学科应用——模型篇
数据集的大小基本上可以确定您选择的机器学习模型。对于较小的数据集,经典的统计机器学习模型(例如回归,支持向量机,K近邻和决策树)更加合适。相比之下,神经网络需要大量数据,并且只有当您拥有成千上万个或者更多的训练数据条目时,神经网络才开始变得可行。通过 bagging , boosting 以及 stacking 等方法,经典统计模型可以进一步改进其性能。现有许多封装好的 Python 库可以调用实现以上模型功能,其中最著名的可能是 scikit-learn 。对于较大的数据集,神经网络和深度学习方法更为常用。在学术界中, PyTorch 以及 TensorFlow 通常用于实现这些架构。 特征工程对于较小的数据集非常重要。如果通过精心设计其特征,则可以大大提高模型的性能 。将化学成分转换成可用于机器学习研究的可用输入特征的常用方法是基于成分的特征向量(Composition-based Feature Vectors, CBFVs),例如 Jarvis , Mapie , Mat2Vec , Oliynyk 。这一系列的CBFVs包含了通过实验得出的值,通过高通量计算来得到的值,或者使用机器学习技术从材料科学文献中提取的值。除了使用CBFVs来进行特征化数据,您还可以尝试对元素进行简单的 one-hot 编码。这些CBFV特征化方案以及特征化化学成分都包含在GitHub项目中。 对于足够大的数据集和更有学习能力的架构,例如深度全连接网络 或者新兴的注意力机制架构(比如CrabNet),与简单的 one-hot 编码相比,特征工程和输入数据中领域知识的集成(例如CBFVs的使用)可能会变得无关紧要,并且不会为更好的模型性能做出贡献 。因此,由于需要整理和评估针对您的研究的领域知识功能,您可能会发现寻找其他的数据源,采用已经建立好的特征模式,或者使用不需要领域知识的学习方法会更有益。
智能生信
2021/02/04
5780
万字长文 - Nature 综述系列 - 给生物学家的机器学习指南 4 (生物应用的挑战)
也许建模生物数据的最大挑战是生物数据的多样性。生物学家使用的数据包括基因和蛋白质序列、随时间变化的基因表达水平、进化树、显微图像、3D结构和互作网络等。我们在表2中总结了特定生物数据类型的一些最佳实践和重要注意事项。由于所遇到的数据类型的多样性,生物数据通常需要一些定制的解决方案来有效地处理它们,这使得很难推荐现成的工具,甚至是通用的机器学习指南来进行模型的选择,训练程序和测试数据将在很大程度上取决于人们想要回答的确切问题。然而,为了在生物学中成功地使用机器学习,需要考虑一些常见的问题,但也需要更广泛地考虑。
生信宝典
2023/08/30
3030
万字长文 - Nature 综述系列 - 给生物学家的机器学习指南 4 (生物应用的挑战)
建立脑影像机器学习模型的step-by-step教程
机器学习的日益普及导致了一些工具的开发,旨在使这种方法的应用易于机器学习新手。这些努力已经产生了PRoNTo和NeuroMiner这样的工具,这并不需要任何编程技能。然而,尽管这些工具可能非常有用,但它们的简单性是以透明度和灵活性为代价的。学习如何编程一个机器学习管道(即使是一个简单的)是一个很好的方式来洞察这种分析方法的优势,以及沿着机器学习管道可能发生的扭曲。此外,它还允许更大的灵活性,如使用任何机器学习算法或感兴趣的数据模式。尽管学习如何为机器学习管道编程有明显的好处,但许多研究人员发现这样做很有挑战性,而且不知道如何着手。
用户1279583
2022/02/28
8670
建立脑影像机器学习模型的step-by-step教程
走进机器学习:新手必看的完整入门指南
以维基百科为例:机器学习 机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径之一,即以机器学习为手段,解决人工智能中的部分问题。机器学习在近30多年已发展为一门多领域科际集成,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法(要防止错误累积)。很多推论问题属于非程序化決策,所以部分的机器学习研究是开发容易处理的近似算法。 用一句话来概况就是:机器学习(Machine Learning,简称 ML)是人工智能(AI)的一个子领域,关注于研究如何通过数据来使计算机系统自动改进和学习。与传统的编程方式不同,机器学习通过输入数据来训练模型,模型能够从数据中识别模式,并根据这些模式做出预测或决策,而不需要显式地编程规则。
Yui_
2024/12/20
4180
走进机器学习:新手必看的完整入门指南
机器学习模型部署都有哪些坑?剑桥研究者梳理了99篇相关研究
近年来,机器学习在学术研究领域和实际应用领域得到越来越多的关注。但是,在生产系统中部署机器学习模型存在许多问题和担忧。近日,来自剑桥的研究者做了一项调查,综述了在各个用例、行业和应用中部署机器学习解决方案的报告,并提取了机器学习部署工作流程各阶段需要实际考量的因素。
公众号机器学习与AI生成创作
2020/12/21
5970
机器学习模型部署都有哪些坑?剑桥研究者梳理了99篇相关研究
《机器学习实战指南:CSDN 经验集成》
机器学习作为人工智能的重要分支,在各个领域都有广泛的应用。本文将结合 CSDN 上的丰富资源,为读者提供一份机器学习实战指南。
正在走向自律
2024/12/18
2210
《机器学习实战指南:CSDN 经验集成》
学界 | 综述论文:机器学习中的模型评价、模型选择与算法选择
选自 Sebastian Raschka 机器之心编译 参与:路雪、刘晓坤、黄小天 本论文回顾了用于解决模型评估、模型选择和算法选择三项任务的不同技术,并参考理论和实证研究讨论了每一项技术的主要优势和劣势。进而,给出建议以促进机器学习研究与应用方面的最佳实践。 1 简介:基本的模型评估项和技术 机器学习已经成为我们生活的中心,无论是作为消费者、客户、研究者还是从业人员。无论将预测建模技术应用到研究还是商业问题,我认为其共同点是:做出足够好的预测。用模型拟合训练数据是一回事,但我们如何了解模型的泛化能力?我们
机器之心
2018/05/10
1.3K0
深度 | 机器学习中的模型评价、模型选择及算法选择
作者:Sebastian Raschka 翻译:reason_W 编辑:周翔 简介 正确使用模型评估、模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要。本文将对这三个任务的相关技术进行回顾,并就每种技术的理论和实证研究的主要优缺点进行讨论。文章还将就机器学习算法中的超参数调优给出尽可能的建议,用以实现最佳的算法效果。文中内容涉及很多常用方法,比如模型评估和选择中的Holdout方法等;介绍了bootstrap技术的不同变体,通过正态逼近得到置信区间来衡量性能估计(performa
AI科技大本营
2018/04/26
2.6K0
深度 | 机器学习中的模型评价、模型选择及算法选择
如何「科学的比较」机器学习模型表现?
最近在赶paper,码字的时间不多,也刚好借着这个机会践行“写少、少写,写好”。今天谈谈如何对比多个机器学习算法的性能,阅读本文需要基本的统计检验知识,比如明白假设检验中 P<0.05通常说明了统计学显著性差异。 0. 背景 对比多个机器学习的算法性能是研究中很重要的一步,举几个常见的场景: 假设你开发了一个新的算法,那么希望在多个数据集上证明你的新算法是 state of the art(最牛逼的)。 假设你找到了一个新的数据集,你想研究到底什么算法在这个数据集上表现最优。 结合上面两个场景,你想知道
小莹莹
2018/04/24
2.6K0
如何「科学的比较」机器学习模型表现?
Hudson River Trading:如何正确看待Machine Learning学术论文
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。 前言 在HRT,做好工作意味着不断学习和提高。作为不断学习的一部分,HRT的研究员也持续关注学术研究——无论是为了跟上他们研究领域的最新发展,还是为了学习对我们工作有用的进展。我们经常被问到,阅读和应用最新成果是否是我
量化投资与机器学习微信公众号
2022/06/02
8160
Hudson River Trading:如何正确看待Machine Learning学术论文
学术圈竞赛圈大讨论,深度学习真的比不过GBDT模型吗?
作者:一元,四品炼丹师 Why Are Deep Learning Models Not Consistently Winning Recommender Systems Competitions Y
炼丹笔记
2021/05/14
8470
学术圈竞赛圈大讨论,深度学习真的比不过GBDT模型吗?
推荐阅读
相关推荐
英国AI学者Michael Lones独家避坑指南,破解机器学习五大陷阱
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档