Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >为什么90%的机器学习模型从未应用于生产?

为什么90%的机器学习模型从未应用于生产?

作者头像
深度学习与Python
发布于 2020-12-07 03:14:23
发布于 2020-12-07 03:14:23
5870
举报
作者 | Rhea Moutafis

译者 | 平川

策划 | 陈思

时代变幻莫测,仅仅增加客户体验流畅度和沉浸感并不能减轻企业的压力。在这种情况下,投入数十亿美元开发可以改进产品的机器学习模型就可以理解了。但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹发生。据 VentureBeat 报道,大约 90% 的机器学习模型从未投入生产。换句话说,数据科学家的工作只有十分之一能够真正产出对公司有用的东西

本文最初发布于 Towards Data Science,由 InfoQ 中文站翻译并分享。

大多数机器学习模型从未部署。图片由作者提供。

企业正在经历艰难时期。我说的不是病毒流行和股市波动。

时代变幻莫测,仅仅增加客户体验流畅度和沉浸感并不能减轻企业的压力。在这种情况下,投入 数十亿美元 开发可以改进产品的机器学习模型就可以理解了。

但有一个问题。公司不能只是把钱砸在数据科学家和机器学习工程师身上,就希望可以有奇迹发生。

有数据为证。据 VentureBeat 报道,大约 90% 的机器学习模型从未投入生产。换句话说,数据科学家的工作只有十分之一能够真正产出对公司有用的东西。

尽管 十分之九 的科技高管相信,人工智能将成为下一次科技革命的中心,但人工智能的采用和部署尚未获得长足的发展,而这不能怪数据科学家。

企业尚未准备好采用机器学习

领导支持并不意味着投钱多

数据科学家的 就业市场非常好。企业在招聘,而且也已经准备好支付高薪。

当然,管理人员和企业负责人期望这些数据科学家能带来巨大的价值。然而,就目前而言,他们并没有为此提供便利。

GAP 数据分析高级副总裁 Chris Chapo表示:“有时人们会想,我所需要做的只是针对一个问题投入资金或技术,成功就会到来。”

为了帮助数据科学家在工作中发挥出色的作用,领导者不仅需要将资源引向正确的方向,还需要了解机器学习模型是干什么的。一个可能的解决方案是,让领导者们自己接受一些数据科学的入门培训,这样他们就可以在公司里把这些知识付诸实践。

数据访问难度大

公司不擅长收集数据。许多公司都是高度筒仓化的,这意味着每个部门都有自己收集数据的方式、首选格式、存储位置以及安全和隐私偏好。

另一方面,数据科学家经常需要来自多个部门的数据。筒仓化增加了清理和处理这些数据的难度。此外,许多数据科学家 抱怨,他们甚至无法获得他们需要的数据。如果你没有必要的数据,怎么开始训练一个模型呢?

也许在过去,筒仓化的公司结构——以及无法访问的数据——便于管理。但在一个技术飞速变革的时代,企业将需要加快步伐,在整个过程中建立起统一的数据结构

对于数据科学家来说,能够获取所需的数据至关重要。图片由作者提供。

IT、数据科学和工程脱节

如果公司的目标是减少“筒仓”,这就意味着各部门需要更多地相互沟通,调整各自的目标。

在许多公司中,IT 部门和数据科学部门之间存在着 根本性的分歧。IT 倾向于优先考虑让事情正常运转并保持稳定。另一方面,数据科学家喜欢实验和破坏东西。这会导致沟通困难。

此外,对于数据科学家来说,工程并非总是必不可少的。这是一个问题,因为工程师有时候可能无法了解数据科学家所设想的所有细节,或者可能会由于沟通错误而改变实现方式。因此,正如 StackOverflow 指出 的那样,能够部署模型的数据科学家比那些不能部署模型的数据科学家更有竞争优势。

机器学习模型自身面临的挑战

扩展比你想象的要难

模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。

首先,可能没有处理更大数据集的硬件或云存储空间可供使用。此外,在规模很大时,机器学习模型的模块并不总是像规模较小时那么有效。

最后,数据获取可能比较困难,甚至不可能。正如前面所讨论的,这可能是由于公司的筒仓结构,也可能是由于在获取更多数据时遇到的其他挑战。

这也是在组织之间统一数据结构、鼓励不同部门之间进行交流的另一个原因。

重复工作

在部署机器学习模型的漫长道路上,超过四分之一 的企业都存在重复工作。

例如,软件工程师可能会按数据科学家的说法进行实现。后者可能也会继续,自己做一些工作。

这不仅浪费时间和资源,而且,当涉众不知道使用了哪个版本的代码,在遇到任何错误时就不知道应该向谁求助,这会导致额外的混乱。

如果数据科学家能够实现他们的模型,这是他们的优势,但对于谁做什么,他们应该与工程师沟通清楚。这样,就可以节省公司的时间和资源。

有效沟通对于机器学习模型正常运行至关重要。图片由作者提供。

高管们可能会不认可

总体来说,技术高管 非常相信 人工智能的力量,但这并不意味着他们会同意所有的想法。据 Algorithmia 报道,三分之一的企业高管将糟糕的部署统计数据归咎于缺乏高层支持。

似乎人们仍然认为数据科学家有点书呆子气,缺乏商业意识。为此,数据科学家应加强他们的业务技能,并尽可能寻求与高管的对话。

当然,这并不意味着每个数据科学家需要 MBA 学位才能胜任他们的工作。然而,从课程或业务经验中学习一些关键知识可能会对他们有长远的帮助。

不能跨语言且缺少框架支持

由于机器学习模型仍处于起步阶段,不同的语言和框架仍有相当大的差距。

有些管道开始时是 Python 开始,中间是 R,最后是 Julia。有的则相反,或者完全使用其他语言。由于每种语言都有自己独特的库和依赖项,项目很快就变得很难跟踪。

此外,有些管道可能会使用 Docker 和 Kubernetes 进行容器化,其他管道可能不会。有些管道将部署特定的 API,其他管道则不会。这样的例子不胜枚举。

为了弥补这种不足,像 TFX、Mlflow 和 Kubeflow 这样的工具出现了。但这些工具仍处于起步阶段,到目前为止,这方面的专家还很少。

数据科学家们知道,他们需要不断了解自己领域的最新进展。这应该也适用于模型部署。

版本控制和再现仍面临挑战

与上述问题相关的是,到目前为止,机器学习模型版本控制还没有一种可行的方法。显然,数据科学家需要跟踪他们所做的任何更改,但现在这相当麻烦。

此外,数据集可能会随时间漂移。随着公司和项目的发展,这是很自然的,但这使得再现过去的结果变得更加困难。

更重要的是,一旦项目启动,就会建立一个基准,用于现在和将来对模型进行测试。结合版本控制,数据科学家可以再现他们的模型。

如果模型不可再现,就会导致漫长的调查研究。图片由作者提供。

停止尝试,开始部署

如果数据科学家 90% 的努力都没有结果,这可不是一个好现象。这不是数据科学家的错,如上所述,这是由于组织结构上固有的障碍。

变革不是一天能完成的。对于刚刚开始接触机器学习模型的公司,建议他们从一个非常小而简单的项目开始。

一旦管理者勾勒出一个清晰而简单的项目,第二步就是选择合适的团队。这个团队应该是跨职能的,应该包括数据科学家、工程师、DevOps 和任何其他看起来对于获得成功至关重要的角色。

第三,在开始的时候,管理者应该考虑利用第三方来帮助他们加速这个过程。IBM 是提供这种服务的公司之一,但市场上也有其他公司。

最后一点是,切莫不惜一切代价追求先进。如果一个简单的低成本模型能满足 80% 的客户需求,并能在几个月内交付,这已经是一个了不起的成就了。此外,从构建简单模型积累的经验将有助于实现更复杂的模型,并有望使客户百分之百满意。

结论:革命需要时间

下一个十年注定是革命性的,就像上一个十年一样。人工智能的广泛应用只是 众多发展趋势 中的一个,物联网、高级机器人技术和区块链技术也在兴起。

我说的是几十年,而不是几年。例如,考虑到 90% 的公司都 已上云——如此之多,以至于我们很难想象没有云我们怎么生活。而另一方面,云是花了 几十年时间 才被广泛地采用。

我们没有理由认为人工智能革命会有任何不同。它需要一段时间才能推广开,因为目前还有许多需要解决的障碍。

但是,由于机器学习提供了如此多的方法来改善客户体验和企业效率,显然,赢家将是那些快速并尽早部署模型的公司。

原文链接:

https://towardsdatascience.com/why-90-percent-of-all-machine-learning-models-never-make-it-into-production-ce7e250d5a4a

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何区分理解数据科学家与机器学习工程师
数据科学家Vs机器学习工程师 原文: What are machine learning engineers来源: https://tech.co/12-ways-advantage-big-data-2017-05 品觉导读: 真正让“数据科学”发挥出了强大威力的,是在人们意识到,数据不仅止于精算统计、商业智能和数据仓库的时候。将数据人和其他部门(软件开发、营销、管理、人力资源)隔离开来的筒仓被打破后,数据科学才真正彰显出了自己的独特之处。这门学科的中心思想,便是数据适用于万事万物。 在任何应用中
小莹莹
2018/04/24
5960
如何区分理解数据科学家与机器学习工程师
详解机器学习的八种方法,专业挖掘大数据
导读:机器学习可以帮助企业做出更好的抉择,但小狗周期往往短暂。本文分析了使用机器学习的八种方法,有助于企业最大限度地提高成功几率。
挖掘大数据
2018/01/09
9210
什么是MLOps——机器学习运维,为什么要用MLOps
👆点击“博文视点Broadview”,获取更多书讯 在过去的几年里,机器学习(ML)正在逐渐发展成为当今商业和软件工程领域的热门名词,由ML驱动的应用呈爆发式增长,如推荐系统、精准营销、广告系统等。 市面上ML方面的图书和文章也越来越多,细心的读者会发现ML相关图书多集中在不同机器学习算法的原理、算法是如何工作的及如何通过数据进行模型训练等方面的理论和实践上,而对于如何构建由ML驱动实际应用的项目工程方面,如数据收集、存储,模型部署、管理及监控运维等方面的书却很少见,这些方面没有得到足够的重视。 在企业应
博文视点Broadview
2022/05/07
5920
什么是MLOps——机器学习运维,为什么要用MLOps
2021年机器学习、数据科学的门槛降低了吗?这是Kaggle的开发者调查
机器之心报道 机器之心编辑部 Kaggle 正式发布了 2021 年度报告,超过 2.5 万名开发者参与调查,但来自中国的 Kaggle 数据科学家应该并不多。 这是 Kaggle 进行用户深度调查和公开分享结果的第五个年头。在调查过程中,超过 25000 名数据科学家和机器学习工程师提交了关于自身背景和日常经验的答案——从教育细节到薪水,再到偏爱的技术等。 调查在 2021 年 9 月 1 日至 2021 年 10 月 4 日进行,梳理数据后,得到共计 25973 个有效回复。 与往年一样,参与调查并获
机器之心
2023/03/29
2720
2021年机器学习、数据科学的门槛降低了吗?这是Kaggle的开发者调查
【AI碾压金融成薪资最高行业】35位数据科学家透露秘诀:做好PPT!
职业招聘信息网站Indeed.com近日发布报告称,自2015年6月到2018年6月,与人工智能或机器学习有关的工作岗位数量增长了99.8%。
新智元
2018/09/25
6590
【AI碾压金融成薪资最高行业】35位数据科学家透露秘诀:做好PPT!
2023爱分析 · 数据科学与机器学习平台厂商全景报告 | 爱分析报告
经济新常态下,如何对海量数据进行分析挖掘以支撑敏捷决策、适应市场的快速变化,正成为企业数字化转型的关键。机器学习算法能识别数据模型,基于规律完成学习、推理和决策,正广泛的应用在金融、消费品与零售、制造业、能源业、政府与公共服务等行业的各种业务场景中,如精准营销、智能风控、产品研发、设备监管、智能排产、流程优化等。企业传统的机器学习虽然能有效支撑业务决策,但由于严重依赖数据科学家,其技术门槛高、建模周期长的特点正成为企业实现数据驱动的阻碍。
爱分析ifenxi
2023/02/14
6650
企业级机器学习,会成为下一个万亿级的新市场吗?
在哈利·波特的魔法世界中,分院帽是一顶磨得很旧,打着补丁,而且脏得要命的尖顶巫师。
科技云报道
2022/04/16
2950
企业级机器学习,会成为下一个万亿级的新市场吗?
不存在所谓的机器学习平台!
在过去这几年,你可能注意到了供应商们以越来越快的步伐推出服务于AI生态系统的“平台”,即满足数据科学和机器学习的需求。“数据科学平台”和“机器学习平台”在竞相吸引数据科学家、机器学习项目经理以及管理AI项目/计划的其他人士的目光和钱袋。如果你是主要的技术供应商,但在AI领域却没有大有作为,可能会迅速沦为边缘化。但是这些平台究竟是什么?为什么上演争抢市场份额这一幕?
物流IT圈
2020/02/10
1.2K0
解读 | 数据工程、数据科学和机器学习都有什么区别?
因为它是如此的多样化,我们很难具体定义数据科学家要做些什么。但最重要的是,我们要认识到,数据科学是一个过程,而不仅仅是一个职位名称。
CDA数据分析师
2021/12/09
1.3K0
解读 | 数据工程、数据科学和机器学习都有什么区别?
机器学习工程师第一年的12点体会
机器学习和数据科学都是广义上的术语,它们涉及超级多的领域以及知识,一位数据科学家所做的事情可能与另一位有很大的不同,机器学习工程师也是如此。通常使用过去(数据)来理解或预测(构建模型)未来。
石晓文
2019/10/24
6350
机器学习工程师第一年的12点体会
80%的 AI 项目将因数据工程师太少而失败!
近期,一份来自RAND研究机构的报告引发了业界广泛关注:高达80%的AI项目以失败告终,这个比例整整是普通IT项目失败率的两倍。
ToB行业头条
2025/01/20
1900
80%的 AI 项目将因数据工程师太少而失败!
​数据相关的4种主要角色概述
“我们每天产生的数据量真是令人难以置信。以我们目前的速度,每天会产生2.5万亿字节的数据,但这个速度只会随着物联网(IoT)的发展而加快。——我们每天会创建多少数据?每个人都应该知道的令人振奋的数据,
deephub
2021/01/25
4120
机器学习算法和架构在MLOps框架下的工程实践
👆点击“博文视点Broadview”,获取更多书讯 本文主要介绍机器学习(以下简写为ML)算法和架构在MLOps框架下的工程实践。 当从业者具备了足够丰富的知识储备时,就可以开始尝试ML了。 通常情况下,ML实践会涉及研究和生产两个主要环境。 研究环境可以在本地计算机或工作站上,这通常是为了进行小规模的模型分析和探索。 生产环境是模型投产的环境,ML在生产环境中通常需要相对长期的持续运行,生产环境中的任务一般需要自动化和持续迭代。 下面举个仅需要在研究环境中进行数据分析或建模即可满足需求的例子,即在文章
博文视点Broadview
2022/04/21
4340
机器学习算法和架构在MLOps框架下的工程实践
机器学习模型在工业界真的创造价值了么?
【导读】看到标题你可能会有疑惑,因为我们可能经常听到的是“你在实际应用中如何使用机器学习模型的”。本文正是数据科学家Venkat Raman关于“机器学习在工业界应用”中的一些思考,其内容并不是给机器
WZEARW
2018/04/13
1.3K0
机器学习模型在工业界真的创造价值了么?
模型运营是做什么的(概念模型数据库)
我们过去几年的调查表明,很多不同行业的机构对机器学习(ML)越来越感兴趣。有几个因素促成人们在产品和服务中运用机器学习。首先,机器学习社区已经在企业感兴趣的许多领域实现了研究的突破,并且大部分研究都通过预发表和专业会议演示进行了公布。我们也开始看到研究人员共享出在流行的开源框架中编写的示例代码,有些甚至共享出了预先训练好的模型。企业和机构现在还可以从更多的应用案例从中吸取灵感。非常有可能在你感兴趣的行业或领域里,你可以找到许多有趣的机器学习的应用并借鉴参考。最后,建模工具正在被改进和优化,同时自动化工具已经可以让新用户去解决那些曾经是需要专家才能解决的问题。
全栈程序员站长
2022/08/01
8230
模型运营是做什么的(概念模型数据库)
机器学习的必备条件不是数学而是...
编者按:2012年10月《哈佛商业周刊》上面发表了一篇专栏,文章称“数据科学家”是21世纪最最性感的工作。在美国,数据科学家的年收入已超过律师和医生,无怪乎有人惊呼“告诉你的孩子不要成为医生而要成为数
小莹莹
2018/04/18
9230
机器学习的必备条件不是数学而是...
观点 | 重新思考机器学习:大数据消耗已无必要
翻译 | AI科技大本营(rgznai100) 参与 | Shawn,焦燕 导读 机器学习炒了这么这么多年,为什么我们还没看到企业有开发出任何这方面应用?本文会告诉你它难在哪里,并带你了解机器学习工程师这个神秘的职业。 你以为你有了大数据,就能在机器学习界高枕无忧?简直NAIVE 近几年,机器学习在人工智能界迅速走红,几乎随处可见它的身影,人们甚至开始神化这一技术:基于大数据的机器学习无所不能。 但是,机器学习炒了这么多年,为什么我们仍未看到企业开发出任何这方面应用? 本文告诉我们应该重新思考机器学习:
AI科技大本营
2018/04/26
6710
观点 | 重新思考机器学习:大数据消耗已无必要
【平台】Seldon.io发布新开源平台,用于Kubernetes上的机器学习
机器学习部署有很多挑战,但是新的Seldon Core打算帮助它的新的开源平台,用于在Kubernetes上部署机器学习模型。 Kubernetes(通常称为K8s) 是用于自动部署、扩展和管理容器化
AiTechYun
2018/03/02
1.9K0
【平台】Seldon.io发布新开源平台,用于Kubernetes上的机器学习
为什么机器学习模型在生产中会退化?
由于意外的机器学习模型退化导致了几个机器学习项目的失败,我想分享一下我在机器学习模型退化方面的经验。实际上,有很多关于模型创建和开发阶段的宣传,而不是模型维护。
石晓文
2019/11/12
2.1K0
O‘reilly Strata:数据科学部门如何建立
很多牛逼的公司都宣称在建立数据科学部门,这个部门该如何组建,大家都在摸石头过河。O‘reilly Strata今年 六月份发布了报告 《Analyzing the Analyzers 》,比较清晰的阐述了数据科学部门所需要的不同角色及其技能。重点内容翻译如下: 数据科学家的分类研究方法 自我认识 请被调查者用常用的5级标准(从完全同意到完全不同意)来回答 “我觉得自己是一个XX” 这样的问题,能够获得数据科学家的自我认识结果。调查结果将数据科学家分为以下四类:Data Businesspeople、Data
CDA数据分析师
2018/02/05
7320
O‘reilly Strata:数据科学部门如何建立
推荐阅读
相关推荐
如何区分理解数据科学家与机器学习工程师
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档