Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >自动机器学习:团队如何在自动学习项目中一起工作?(附链接)

自动机器学习:团队如何在自动学习项目中一起工作?(附链接)

作者头像
AI科技大本营
发布于 2020-02-20 12:00:00
发布于 2020-02-20 12:00:00
6030
举报

来源 | 数据派THU

作者 | Francesca Lazzeri

翻译 | 王琦

责编 | Carol

出品 | AI科技大本营(ID:rgznai100)

去年11月,我写了一篇关于使用自动机器学习来进行AI民主化(democratization)的文章(见下面链接)。

附链接:

https://medium.com/microsoftazure/democratize-artificial-intelligence-with-automated-machine-learning-169b348a9509

在今天这篇文章中,我将会向你展示自动机器学习的用例(发布在Github上了,见下面链接)。本文介绍了在零售商工作的数据科学家、项目经理和业务主管利用自动机器学习和Azure机器学习服务来减少产品库存过剩的具体过程。

附链接:

https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/automated-machine-learning/forecasting-orange-juice-sales/auto-ml-forecasting-orange-juice-sales.ipynb?WT.mc_id=azuremedium-blog-lazzeri

此外,本文还介绍了数据科学家、项目经理和业务主管各自如何使用自动机器学习来改进团队合作和学习,并促进数据科学新方案的成功实现。

当谈到在组织里执行机器学习项目时,数据科学家、项目经理和业务主管需要一起工作来部署最好的模型,从而满足特定的业务目标。这一步的中心目标就是识别出需要在分析中预测的关键业务变量。我们将这些变量看成模型的目标,然后使用和它们相关的指标来确保项目的成功。

在这个用例中(该用例对公众开放,发布在GitHub上),我们将会看到在零售商工作的数据科学家、项目经理和业务主管如何利用自动机器学习和Azure机器学习服务来减少商品的库存过剩。Azure机器学习服务是一个你可以用来训练、部署、自动化和管理机器学习模型的云服务,所有这些都可以在云提供的范围内进行。Azure机器学习服务中的自动机器学习是获取已定义目标特征的训练数据,并通过算法组合和特征选择进行迭代,从而基于训练分数来为你的数据自动选择最好模型的过程。

多余的库存很快就变成了一个流动性问题,除非我们通过折扣和促销来减少利润,否则它就不能转换成现金。或者更糟糕的是,当其累计到一定程度被送到其他渠道比如经销店,这会延迟其销售。提前确定哪些产品不会达到他们期望的周转水平,并通过与销售预测相符的库存补给来控制补货,这是帮助零售商实现投资回报率(ROI)的关键因素。让我们看看团队如何着手解决这个问题以及自动机器学习如何使整个公司的AI民主化。

为公司确定正确的业务目标

正确的产品组合和库存水平可以取得丰厚的销售额和利润。要实现这一理想组合,就需要拥有最近的、准确的库存信息。手动处理不仅花费时间,导致当前的、准确的库存信息的延迟,而且增加了出错的可能性。这些延迟和错误很可能会由于库存过剩、库存不足和缺货而导致收入损失。

库存过剩也可能占用宝贵的仓库空间,并占用本应用于购买新库存的现金。但以清算模式出售过剩的库存可能会引起一系列问题,例如损害声誉和冲击其他现有同类产品的销售。

作为数据科学家与业务运营之间桥梁的项目经理,与业务主管联系,讨论使用其内部的、以往的销售额中的一部分来解决其库存过剩问题的可能性。项目经理和业务主管通过询问和完善与业务目标相关的具体问题来定义项目目标。

此阶段主要有两个任务:

  • 定义目标:项目经理和业务主管需要识别业务问题,最重要的是,提出问题以定义数据科学技术可以针对的业务目标;
  • 识别数据源:项目经理和数据科学家需要找到相关数据来帮助回答定义项目目标的问题。

寻找正确的数据和流水线

这一切都要从找数据开始。项目经理和数据科学家需要识别包含业务问题答案的已知示例的数据源。 他们寻找以下类型的数据:

  • 与问题相关的数据。 他们是否有针对目标的指标以及与目标相关的特征?
  • 可以准确衡量其模型目标和感兴趣特征的数据。

在此阶段,数据科学家需要解决三个主要的任务:

  • 将数据应用到目标的分析环境中;
  • 探索数据以确定数据质量是否足以回答问题;
  • 建立数据流水线以对新数据或定期刷新的数据进行评分。

在将数据从源位置移动到可以运行分析操作的目标位置之后,数据科学家开始处理原始数据来产生干净的、高质量的数据集,该数据集与目标变量的关系是被充分理解的。在训练机器学习模型之前,数据科学家需要对数据有充分的了解,通过创建数据摘要和可视化来审核数据的质量,并在准备好建模之前提供处理数据所需的信息。

最后,数据科学家还负责开发数据流水线解决方案的架构,该架构会定期对数据进行刷新和评分。

通过自动机器学习预测橙汁的销售

数据科学家和项目经理决定使用自动机器学习有以下几个原因:自动机器学习让有或没有数据科学专业知识的客户都能针对任何问题来确定端到端机器学习的流水线,从而在花费更少时间的同时来取得更高的准确性。 而且,它还可以运行大量实验,从而加快了面向生产就绪型的智能经验的迭代。

让我们看看使用自动机器学习进行橙汁销售预测的过程如何实现这些好处。

在对业务目标以及应使用哪种类型的内部的以往数据来达成目标达成一致后,数据科学家将创建一个工作区。该工作区是该服务的顶级资源,为数据科学家提供了一个集中的地方来处理他们需要创建的所有工件。在Azure机器学习服务中创建工作区时,会自动添加以下Azure资源(如果它们在区域中可用):

  • Azure容器注册表
  • Azure存储
  • Azure应用程序洞见
  • Azure密钥保管库

要运行自动机器学习,数据科学家还需要做一个实验。实验是工作区中的一个命名对象,它代表一个预测性任务,该任务的输出是经过训练的模型和该模型的一组评估指标。

数据科学家现在已经准备好加载以往的橙汁销售数据,并将CSV文件加载到简单的pandas 中的DataFrame类型中。CSV中的时间列称为WeekStarting ,因此它会被专门地解析为日期时间类型。

DataFrame中的每一行表示某个商店中某个橙汁品牌的每周销售量。数据还包括销售价格、用来显示橙汁品牌每周是否在商店中做广告的标记以及基于商店位置的一些客户人口统计信息。由于历史原因,该数据还包括销售数量的对数。

我们目前的任务是为“数量”列构建时间序列模型。重要的是我们要注意到该数据集由许多单独的时间序列组成;每个时间序列都是针对商店和品牌的唯一组合。 为了区分各个时间序列,我们定义了grain,grain是其值能够确定时间序列之间边界的列。

为了以后的预测效果评估,我们将数据分为训练集和测试集。在这之后,数据科学家开始建模来执行预测任务,并且自动机器学习使用针对时间序列的预处理和估计步骤。自动机器学习将执行以下预处理步骤:

  • 检测时间序列样本的频率(例如每小时、每天、每周),并为不存在的时间点创建新记录来让序列变得有规律。 有规律的时间序列具有定义明确的频率,并且在连续的时间间隔中的每个采样点都有一个值;
  • 通过正向填充(forward-fill)和特征列的列中位数来估算目标中的缺失值;
  • 创建基于grain的特征来实现不同序列之间的固定效应;
  • 创建基于时间的特征来协助季节性模式的学习;
  • 将分类变量编码为数字量。

对于一个自动机器学习训练任务,AutoMLConfig对象定义了设置和数据。以下是用于训练橙汁销售预测模型的自动机器学习配置参数的概要:

访问GitHub以获取有关预测的更多信息(见下面链接)。每次迭代都在实验中运行,并存储来自自动机器学习迭代的序列化的流水线,直到它们找到在验证集上表现最佳的流水线为止。

附链接:

https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/automated-machine-learning/forecasting-orange-juice-sales/auto-ml-forecasting-orange-juice-sales.ipynb?WT.mc_id=azuremedium-blog-lazzeri

评估完成后,数据科学家、项目经理和业务主管再次会面以检查预测结果。项目经理和业务主管的工作是了解输出并根据这些结果选择实际步骤。 业务主管需要确认最佳模型和流水线以满足业务目标。此外,机器学习解决方案以可接受的准确性回答了把系统部署到生产中的各种问题,以供内部销售的预测应用程序使用。

微软在自动机器学习上的投资

自动机器学习基于Microsoft Research部门的一项突破。该方法结合了协同过滤和贝叶斯优化的思想,可以智能、高效地搜索可能的机器学习流水线的巨大空间。

现在,它作为Azure机器学习服务的一部分提供给你。正如你在此处所看到的,无论有无数据科学专业知识,自动机器学习都可以使客户确定端到端机器学习流水线,以解决任何问题,并在提高准确性的同时节省时间。它还可以运行大量实验并加快迭代速度。自动机器学习如何使你的组织受益?你的团队如何使用机器学习来更紧密地合作从而达到业务目标?

资源

  • 了解有关Azure机器学习服务的更多信息: https://docs.microsoft.com/en-us/azure/machine-learning/service/?WT.mc_id=azuremedium-blog-lazzeri
  • 了解有关自动机器学习的更多信息: https://docs.microsoft.com/en-us/azure/machine-learning/concept-automated-ml
  • 开始免费试用Azure机器学习服务: https://azure.microsoft.com/en-us/trial/get-started-machine-learning/?WT.mc_id=azuremedium-blog-lazzeri

作者简介: Francesca Lazzeri是一位机器学习科学家、作家和演讲者。她领导着一支由微软的云倡导者、数据科学家和开发人员组成的国际团队。加入微软之前,她是哈佛大学技术与运营管理部门的研究员。她还是微软“Women@NERD”协会的董事会成员、麻省理工学院和哥伦比亚大学的数据科学导师以及AI社区的活跃成员。

【end】

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
本文介绍了在零售商工作的数据科学家、项目经理和业务主管利用自动机器学习和Azure机器学习服务来减少产品库存过剩的具体过程。
数据派THU
2020/02/20
3770
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
前沿技术|自动机器学习综述
自从计算机时代开始,科学家和工程师们就一直想知道如何像人类一样,给计算机注入学习的能力。艾伦·图灵是第一批提出智能理论的科学家之一,该理论设想有一天计算机能够达到与人类同等的智能水平。从那时起,机器学习领域发生了一系列巨大的飞跃。我们已经看到机器学习在许多情况下击败或至少匹配特定的人类认知能力,例如在ResNet(一种深度残留的网络架构)的情况下超越了人类在图像识别方面的表现,或者微软的语音转录系统几乎达到人类水平的表现。
陆勤_数据人网
2021/08/06
1.2K0
前沿技术|自动机器学习综述
比谷歌AutoML快110倍,全流程自动机器学习平台应该是这样的
昨日,机器之心联合 MoBagel(行动贝果) 举行了 AutoML 线下技术分享会,我们很荣幸邀请到两位来自硅谷的技术大咖,MoBagel 钟哲民与郭安哲,他们向我们介绍了全流程 AutoML 技术到底是什么,它能干什么,能做哪些极致优化。
机器之心
2019/12/24
8490
自动机器学习工具全景图:精选22种框架,解放炼丹师
收集原始数据、合并数据源、清洗数据、特征工程、模型构建、超参数调优、模型验证和设备部署。
量子位
2018/09/29
1.2K0
自动机器学习工具全景图:精选22种框架,解放炼丹师
想快速部署机器学习项目?来看看几大主流机器学习服务平台对比吧
日前,kdnuggets 上的一篇文章对比了三大公司(谷歌、微软和亚马逊)提供的机器学习服务平台,对于想要启动机器学习项目的公司或是数据科学新手来说,提供了非常多的指导和建议。 AI 研习社将原文编译整理如下: 对于大多数企业来说,机器学习就像航空航天一样遥远,听起来既昂贵,还需要高科技人才。从某种角度来说,如果你想建立一个像 Netflix 一样好的推荐系统,那确实是昂贵且困难。但是,目前这个复杂的领域有一个趋势:一切皆服务(everything-as-a-service)——无需太多投资,即可快速启动机
AI研习社
2018/03/28
4.5K0
想快速部署机器学习项目?来看看几大主流机器学习服务平台对比吧
MLOps正在改变机器学习模型的开发方式
提供机器学习解决方案远不止仅提供模型那么简单。机器学习运维 (MLOps) 的基础理论可以帮助数据科学团队更快、更有信心地交付模型,其涉及版本控制、测试和流水线这三个关键概念。
深度学习与Python
2021/01/22
5910
MLOps正在改变机器学习模型的开发方式
【让调参全部自动化】自动机器学习,神经网络自主编程(代码与诀窍)
【新智元导读】自动机器学习(AutoML)是近来很活跃的研究方向。KDnuggets 的主编 Matthew Mayo 写了一篇文章介绍了 AutoML 的概念,以及为什么要做自动机器学习。本文后附 AI 软件工程师 Thibault Neveu 发表在 Medium 的文章,介绍他如何训练神经网络自动编程。 在过去几年,自动机器学习(AutoML)成了一个研究的热点。在继续接下来的话题之前,我们先简单介绍什么是 AutoML,它为什么重要。然后,我们将介绍一个训练神经网络自动编程的项目,附上代码,你可以自
新智元
2018/03/27
1.9K0
【让调参全部自动化】自动机器学习,神经网络自主编程(代码与诀窍)
Google VS 亚马逊 VS 微软,机器学习服务选谁好?
译者 | reason_W 编辑 | Just 对大多数企业来说,机器学习听起来就像航天技术一样,属于花费不菲又“高大上”的技术。如果你是想构建一个 Netflix 这种规模的推荐系统,机器学习确实是这样的。(注:Netflix是美国流媒体巨头、世界最大的收费视频网站,曾于 2017 年买下《白夜追凶》全球播放权。)但受万物皆服务(everything-as-a-service)这一趋势的影响,机器学习这一复杂的领域也正在变得越来越接地气。所以现在哪怕你只是一个数据科学领域的新手,并且只想实现一些很容易
AI科技大本营
2018/04/26
2K0
Google VS 亚马逊 VS 微软,机器学习服务选谁好?
机器学习—— 机器学习运维(MLOps)
随着机器学习技术的日益成熟,如何高效地将模型部署到生产环境并持续维护,成为许多企业关注的核心问题。MLOps(机器学习运维) 应运而生,它结合了传统的DevOps理念和机器学习的独特需求,旨在通过自动化和协作提高模型的开发、部署和监控效率。
六点半就起.
2024/10/18
3820
机器学习—— 机器学习运维(MLOps)
自动调优数据科学:新研究使机器学习流线化
一个新的自动化机器学习系统比它的人类同行表现得更好,并且工作速度提高了100倍。 数据科学既是一门学科又是一个应用程序。它最近的飞速发展可以部分归因于其强大的问题解决能力:它可以预测带有欺骗性的信用卡交易;帮助业主弄清楚什么时候发放优惠券可以最大限度的提高顾客反应;或者在学生即将退学的时候,通过预测来促进教育干预。 然而,为了得到这些数据驱动的解决方案,数据科学家必须通过一系列复杂的步骤来跟踪他们的原始数据,每个步骤都需要很多人为决策。整个过程的最后一步需选定一种建模技术,这是至关重要的一步。从神经网络到支
人工智能快报
2018/03/07
7440
原创翻译 | 机器学习模型服务工具对比:KServe,Seldon Core和BentoML
机器学习现在被成千上万的企业所使用。它的无处不在有助于推动越来越难以预测的创新,并为企业的产品和服务构建智能体验。虽然机器学习随处可见,但它在实际实施时也带来了许多挑战。其中一个挑战是能够快速、可靠地从开发机器学习模型的实验阶段过渡到生产阶段,在生产阶段可以为模型提供服务,从而为业务带来价值。
数据科学人工智能
2022/06/27
2.3K0
原创翻译 | 机器学习模型服务工具对比:KServe,Seldon Core和BentoML
零基础ML建模,自动机器学习平台R2 Learn开放免费试用
在数据的世界中,机器学习已经成为不可或缺的工具。机器学习可以帮助发现隐藏在大量数据中的特定知识。很多时候,这些知识都不是人类能轻易分析得出的,它展示了大量事实之间的内部联系。但是如果我们需要这些隐藏知识辅助做决策,机器学习建模就成为了一个非常有效的手段。
机器之心
2019/04/29
1.1K0
零基础ML建模,自动机器学习平台R2 Learn开放免费试用
在Twitter“玩”数据科学是怎样一种体验
作者:Robert Chang 转自:英明泰思基金会(Intetix) ◆ ◆ ◆ 引子 2015年6月17日是我在Twitter工作两周年的纪念日。回想起来,两年间,数据科学在Twitter的应用方式和范围发生了很大变化: 许多Twitter的非机器学习主导的核心产品中,机器学习的比重正在不断增加(例如“While you were away” 功能——Twitter把你下线时可能错过的头条推文推送到你的个人首页)。 工具的智能化上,Pig已经过时了,现在的数据流水线都是用Scalding(建立在串联
大数据文摘
2018/05/24
5050
独家 | 2020年22个广泛使用的数据科学与机器学习工具(附链接)
本文为大家从两个方面——大数据和数据科学,介绍了本年度的22个被广泛使用的数据科学和机器学习工具。结合了大数据的3V特征,数据科学与其各个领域的关系特征较为完整的阐述了各种工具的使用背景、情况和各自特点。
数据派THU
2020/07/30
4880
机器学习(七):Azure机器学习模型搭建实验
Azure Machine Learning(简称“AML”)是微软在其公有云Azure上推出的基于Web使用的一项机器学习服务,机器学习属人工智能的一个分支,它技术借助算法让电脑对大量流动数据集进行识别。这种方式能够通过历史数据来预测未来事件和行为,其实现方式明显优于传统的商业智能形式。
Lansonli
2023/02/18
7190
机器学习(七):Azure机器学习模型搭建实验
推荐:10种机器学习的工具和框架(附;链接)
AWS re:Invent 2017上宣布的一款重大产品就是正式发布的亚马逊Sagemaker,这种新的框架简化了构建机器学习模型并部署到云端的任务。
机器人网
2018/07/23
9990
推荐:10种机器学习的工具和框架(附;链接)
微软为Power BI推出AI模型构建器、关键驱动分析和Azure机器学习集成
微软的Power BI是一种商业分析服务,用户可以在不具备编程经验或深厚技术专长的情况下创建报告、仪表盘等更多内容。公司今天宣布了一些新的AI功能,包括图像识别和文本分析、关键驱动分析、机器学习模型的创建和Azure机器学习集成,这些功能旨在展示数据科学家的工作,并使更多用户能够利用AI。
AiTechYun
2018/12/13
8380
微软为Power BI推出AI模型构建器、关键驱动分析和Azure机器学习集成
构建机器学习工具一年得到的四个教训
作者 | Humanloop 译者 | Sambodhi 策划 | 蔡芳芳 关于如何构建机器学习工具、未来的需求和为什么领域专家在人工智能的未来中扮演重要的角色,我们想与大家分享一些最令人惊讶的经验。 在过去的一年里, Humanloop 一直在开发 一种用于训练和部署自然语言处理模型的新工具。我们已经帮助律师、客服人员、市场营销人员和软件开发人员团队快速训练出能够理解语言的人工智能模型,并立即使用它们。在使用主动学习时,我们开始将注意力集中在减少注释数据的需求上,但是很快发现需要更多。 我们真正需要的
深度学习与Python
2023/04/01
4600
构建机器学习工具一年得到的四个教训
资源|2018年14个顶级AI和机器学习会议名录
编译 | AI 【AI科技大本营导读】人工智能和机器学习已经跳出科幻小说的范畴,冲进了现实。不管是技术层面还是商业环境方面,这些领域都在迅速发展,紧跟潮流的步伐是非常重要的。 无论你是技术参与者还是战略思考者,这些技术对于各种规模的企业都具有改变“游戏规则”的意义。 对于学习新的人工智能和机器学习技能、建立新的人际关系而言,没有什么比参加一些相关的顶级大会更高效的了。所以,营长编译了此篇2018年AI和机器学习的会议清单。每个清单包括日期、地点、网址、议程重点和定价,该列表按日期排序。 ▌1. 全球人工
AI科技大本营
2018/04/26
1.1K0
资源|2018年14个顶级AI和机器学习会议名录
炸裂!又一机器学习神器火了,代号「YModel」!
近几年,人工智能和大数据开始热起来。无数培训班靠讲 Python、机器学习等课大赚其财,大学里的那些稍沾点边的商科专业都开始设立建模预测的课程。在企业里收到的简历也是越来越多地号称耍过神经网络、深度学习,经历过 N 多建模预测的项目。未来的职场,看起来会有满世界的数据科学家。
GitHubDaily
2022/04/11
7850
炸裂!又一机器学习神器火了,代号「YModel」!
推荐阅读
相关推荐
独家 | 自动机器学习:团队如何在自动学习项目中一起工作?(附链接)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档