Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习工作流的两阶段优化

机器学习工作流的两阶段优化

原创
作者头像
Jarvis Cocker
发布于 2019-07-17 07:49:23
发布于 2019-07-17 07:49:23
6050
举报

原文标题:Two-stage Optimization for Machine Learning Workflow

摘要:机器学习技术在处理海量数据方面起着非常重要的作用,几乎在所有可能的领域都有应用。建立一个高质量的机器学习模型在生产中是一项具有挑战性的任务,无论是学科专家还是机器学习实践者。

为了更广泛地采用和扩展机器学习系统,机器学习工作流的构建和配置需要在自动化方面取得进展。在过去的几年中,有几种技术是朝着这个方向发展的,被称为autoML。

本文提出了建立数据管道和配置机器学习算法的两阶段优化过程。首先,我们研究了数据管道对算法配置的影响,以说明数据预处理在超参数整定中的重要性。第二部分提出了在数据流水线构造和算法配置之间有效分配搜索时间的策略。这些策略与元优化器无关。最后,我们提出了一个度量来确定一个数据管道是特定的还是独立于该算法的,从而能够对冷启动问题进行细粒度流水线剪枝和元学习。

地址: https://arxiv.org/abs/1907.00678

作者: Alexandre Quemy

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
🌍 AutoML逆袭:普通开发者如何玩转大模型调参🌍
\text{模型健康度} = 0.4 \times \text{预测稳定性} + 0.3 \times \text{资源利用率} + 0.3 \times \text{业务收益}
Jimaks
2025/04/10
1320
Arxiv机器学习论文摘要10篇(2019-7-17)
原文标题:Two-stage Optimization for Machine Learning Workflow
Jarvis Cocker
2019/07/17
1.2K0
分布式流水线计算模式,学机器学习的同学要注意了
通过前面几篇文章,我们一起学习了分布式计算模式中的 MapReduce、Stream 和 Actor,它们各显神通解决了很多实际问题(分布式计算技术MapReduce 详细解读,分布式计算技术之流计算Stream,打通实时数据处理)。
架构师修炼
2020/07/17
1.5K0
工业场景全流程!机器学习开发并部署服务到云端
本篇内容 ShowMeAI 将带大家学习,从头开始构建机器学习管道,使用 Flask 框架构建 Web 应用程序,并部署到云服务器上的过程。具体包括:
阿珍
2022/09/21
2.4K0
工业场景全流程!机器学习开发并部署服务到云端
MLOps:构建生产机器学习系统的最佳实践
你可能已经听过很多次了,但只有一小部分机器学习模型投入生产。部署和运行机器学习模型对于大多数已经开始将ML应用于用例的行业来说都是一个挑战。在这篇文章中,我将分享一些MLOps的最佳实践和技巧,它们将允许您在生产环境中使用您的ML模型并正确地操作它。在我们开始之前,让我们讨论一下我们可能都知道的典型的ML项目生命周期。
deephub
2021/04/16
1.3K0
NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩、机器学习及最优化算法
导读:AI领域顶会NeurIPS正在加拿大蒙特利尔举办。本文针对实验室关注的几个研究热点,模型压缩、自动机器学习、机器学习与最优化算法,选取23篇会议上入选的重点论文进行分析解读,与大家分享。Enjoy! NeurIPS (Conference on Neural Information Processing Systems,神经信息处理系统进展大会)与ICML并称为神经计算和机器学习领域两大顶级学术会议。今年为第32届会议,将于 12月3日至8日在加拿大蒙特利尔举办。腾讯AI Lab第三次参加Ne
腾讯技术工程官方号
2018/12/11
1.3K0
NeurIPS 2018 | 腾讯AI Lab详解3大热点:模型压缩、机器学习及最优化算法
【重磅】Facebook首次公开内部机器学习平台,启动AI帝国
【新智元导读】Tensorflow凭“谷歌”“开源”两个标签自2015年底发布以来便名震深度学习圈。而前年底Facebook就打造其专属ML平台FBLearner Flow,大幅提高员工工作效率。今天,FB工程师首次披露该平台细节,公司意欲进一步提高速度、效率,迈向ML自动化。虽然目前仍限内部使用,但不排除FB这款“Flow”未来也将开源。两大巨头的两股“Flow”如何较量?先从了解FBLearner Flow开始。 Facebook 现在在信息推荐、过滤攻击言论、推荐热门话题、搜索结果排名等等已经使用了
新智元
2018/03/22
1.8K0
【重磅】Facebook首次公开内部机器学习平台,启动AI帝国
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
本文介绍了在零售商工作的数据科学家、项目经理和业务主管利用自动机器学习和Azure机器学习服务来减少产品库存过剩的具体过程。
数据派THU
2020/02/20
3720
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
MLFlow︱机器学习工作流框架:介绍(一)
之前的很多研究其实跟工程化是比较脱节的,模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。 各类开源项目其实很大程度上满足了我这样的调包工程师的需求,那么工程化就非常有必要了。 之前《DataOps、MLOps 和 AIOps,你要的是哪个Ops?》文章提到:DataOps、MLOps 和 AIOps的一些异同:
悟乙己
2021/12/07
4.7K0
MLFlow︱机器学习工作流框架:介绍(一)
半鞅的『机器学习』世界
用更加通俗易懂的话来说就是:金融定价理论中的布朗运动和莱维过程都是半鞅,半鞅是最大的无套利随机过程,超过半鞅以外将存在套利的空间。
量化投资与机器学习微信公众号
2025/01/10
1500
半鞅的『机器学习』世界
2022最新综述 | 自动图机器学习,阐述AGML方法、库与方向
图机器学习在学术界和工业界都得到了广泛的研究。然而,随着图学习相关文献的不断涌现,涌现出大量的方法和技术,手工设计出针对不同图相关任务的最优机器学习算法变得越来越困难。为了解决这一问题,自动图机器学习(automated graph machine learning)正受到越来越多的研究领域的关注,它旨在为不同的图任务/数据在没有人工设计的情况下发现最佳的超参数和神经结构配置。在本文中,我们广泛地讨论了自动化图机器方法,包括超参数优化(HPO)和神经结构搜索(NAS)的图机器学习。我们将分别简要介绍现有的用于图机器学习和自动机器学习的库,并进一步深入介绍AutoGL,这是我们专门的、也是世界上第一个用于自动图机器学习的开源库。最后,我们分享了对自动图机器学习未来研究方向的见解。这篇论文是第一个系统和全面的讨论的方法,库以及自动化图机器学习的方向。
Houye
2022/02/28
5460
2022最新综述 | 自动图机器学习,阐述AGML方法、库与方向
真正的敏捷工作流 —— GitHub flow
7991 年,随着极限编程(Extreme programming)方法论的提出,持续集成(Continuous integration)也随之成为一项标准化的敏捷实践,被逐步应用于各类软件的开发流程中。
ThoughtWorks
2019/09/08
1.6K0
部署机器学习方案之困(上)
近年来,机器学习无论是作为学术研究领域还是实际商业问题的解决方案,都受到了越来越多的关注。然而,就像其他领域一样,在学术环境中起作用的研究和实际系统的要求之间往往存在着显著差异,所以在生产系统中部署机器学习模型可能会带来许多问题。
绿盟科技研究通讯
2023/02/22
4570
部署机器学习方案之困(上)
MLJ:用纯JULIA开发的机器学习框架,超越机器学习管道
MLJ是一个用纯Julia编写的开源机器学习工具箱,它提供了一个统一的界面,用于与目前分散在不同Julia软件包中的有监督和无监督学习模型进行交互。
AiTechYun
2019/05/15
2K0
MLJ:用纯JULIA开发的机器学习框架,超越机器学习管道
工业场景全流程!机器学习开发并部署服务到云端 ⛵
本篇内容 ShowMeAI 将带大家学习,从头开始构建机器学习管道,使用 Flask 框架构建 Web 应用程序,并部署到云服务器上的过程。具体包括:
ShowMeAI
2022/11/19
2.8K0
工业场景全流程!机器学习开发并部署服务到云端 ⛵
20个必备的Python机器学习库,建议收藏!
来源丨网络 推荐阅读:终于来了,【第二期】 彭涛Python 爬虫特训营!! AutoML是指自动机器学习。它说明了如何在组织和教育水平上自动化机器学习的端到端过程。机器学习模型基本上包括以下步骤: 数据读取和合并,使其可供使用。 数据预处理是指数据清理和数据整理。 优化功能和模型选择过程的位置。 将其应用于应用程序以预测准确的值。 最初,所有这些步骤都是手动完成的。但是现在随着AutoML的出现,这些步骤可以实现自动化。AutoML当前分为三类: 用于自动参数调整的AutoML(相对基本的类型) 用于非深
sergiojune
2022/09/28
9170
20个必备的Python机器学习库,建议收藏!
QIML Insight | 基于两阶段机器学习模型的因子择时方法
量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。 量化投资与机器学习公众号 独家解读 量化投资与机器学公众号 QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。
量化投资与机器学习微信公众号
2024/01/11
6290
QIML Insight | 基于两阶段机器学习模型的因子择时方法
自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
去年11月,我写了一篇关于使用自动机器学习来进行AI民主化(democratization)的文章(见下面链接)。
AI科技大本营
2020/02/20
5970
自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
基于Machine Learning Studio的企业级MLOps架构设计指南
随着机器学习(ML)技术在企业中的广泛应用,如何高效管理从数据准备到模型部署的完整生命周期成为关键挑战。MLOps(机器学习运维)通过融合DevOps理念与机器学习特性,实现了模型开发与运维的协同优化。 Machine Learning Studio(以下简称Azure ML Studio)作为微软推出的云原生机器学习平台,提供了覆盖全生命周期的工具链,支持企业构建标准化、可扩展的MLOps架构。本文将从架构设计原则、核心组件、实施路径及最佳实践等方面,深入探讨基于Aure ML Studio的企业级MLOps解决方案。
Michel_Rolle
2024/12/26
1.5K0
【技术分享】基于可扩展自动化机器学习的时序预测
时间序列简单来讲是指一系列在时间轴上有序的数据,而时序预测是根据过去时间点的数值来预测将来时间点上的数值。现实中,时间序列预测除了在电信运营商中的网络质量分析、面向数据中心运营的日志分析、面向高价值设备的预测性维护等多有应用之外,还可用作异常检测的第一步,以帮助在实际值偏离预测值过多时触发警报。
腾讯云TI平台
2019/12/03
1.8K0
【技术分享】基于可扩展自动化机器学习的时序预测
推荐阅读
相关推荐
🌍 AutoML逆袭:普通开发者如何玩转大模型调参🌍
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档