原文标题:Two-stage Optimization for Machine Learning Workflow
摘要:机器学习技术在处理海量数据方面起着非常重要的作用,几乎在所有可能的领域都有应用。建立一个高质量的机器学习模型在生产中是一项具有挑战性的任务,无论是学科专家还是机器学习实践者。
为了更广泛地采用和扩展机器学习系统,机器学习工作流的构建和配置需要在自动化方面取得进展。在过去的几年中,有几种技术是朝着这个方向发展的,被称为autoML。
本文提出了建立数据管道和配置机器学习算法的两阶段优化过程。首先,我们研究了数据管道对算法配置的影响,以说明数据预处理在超参数整定中的重要性。第二部分提出了在数据流水线构造和算法配置之间有效分配搜索时间的策略。这些策略与元优化器无关。最后,我们提出了一个度量来确定一个数据管道是特定的还是独立于该算法的,从而能够对冷启动问题进行细粒度流水线剪枝和元学习。
地址: https://arxiv.org/abs/1907.00678
作者: Alexandre Quemy
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。