之前的很多研究其实跟工程化是比较脱节的,模型在小环境中工作得很好,并不意味着它在任何地方都可以工作得很好。 各类开源项目其实很大程度上满足了我这样的调包工程师的需求,那么工程化就非常有必要了。 之前《DataOps、MLOps 和 AIOps,你要的是哪个Ops?》文章提到:DataOps、MLOps 和 AIOps的一些异同:
DevOps 更快地交付软件 一系列旨在消除开发和运维团队之间障碍的实践,以便更快地构建和部署软件。它通常会被工程团队所采用,包括 DevOps 工程师、基础设施工程师、软件工程师、站点可靠性工程师和数据工程师。
DataOps 更快地交付数据 一系列旨在提高数据分析质量并缩短分析周期的实践。DataOps 的主要任务包括数据标记、数据测试、数据管道编排、数据版本控制和数据监控。分析和大数据团队是 DataOps 的主要操作者,但是任何生成和使用数据的人都应该采用良好的 DataOps 实践。这包括数据分析师、BI 分析师、数据科学家、数据工程师,有时还包括软件工程师。
MLOps 更快地交付机器学习模型 一系列设计、构建和管理可重现、可测试和可持续的基于 ML 的软件实践。对于大数据 / 机器学习团队,MLOps 包含了大多数 DataOps 的任务以及其他特定于 ML 的任务,例如模型版本控制、测试、验证和监控。
AIOps 平台利用大数据、现代机器学习以及其他先进的分析技术,直接或间接地增强 IT 运维(监控、自动化和服务台),具有前瞻性、个性化以及动态的洞察力。
所有的 Ops 都具有相同的 7 个首要原则,但是每个原则又都有其细微的差别:
MLOps 与 AIOps:
有时人们错误地将 MLOps 称为 AIOps,但它们是完全不同的。以下说明来自 Gartner(高德纳,美国咨询公司):
AIOps 平台利用大数据、现代机器学习以及其他先进的分析技术,直接或间接地增强 IT 运维(监控、自动化和服务台),具有前瞻性、个性化以及动态的洞察力。
因此,AIOps 通常是利用 AI 技术来增强服务产品的 DevOps 工具。
Matei Zaharia 宣布推出开源机器学习平台 MLflow,这是一个能够覆盖机器学习全流程(从数据准备到模型训练到最终部署)的新平台。 MLFlow是一款管理机器学习工作流程的工具,核心由以下4个模块组成:
观点来自:如何评价 Databricks 的开源项目 MLflow?
作者:谷瑞-Roliy: 之前我研究过用airflow来做类似的事情,想利用它的工作流和dag来定义机器学习流程,包括各种复杂的配置的管理功能也有实现。不过airflow的一点点问题是,它还是更适合定时调度的任务。而像机器学习实验这种场景,run的频率可是很随意的。不过,现在有一个想法,离线的实验用mlflow,上线以后用airflow。因为在线基本上就是很稳定的运行流程+固定或很少频率的更新,airflow在时间纬度上的回退功能还是很有用的。也可以认为是现在mlflow缺的一点功能,daily run,或者叫自学习。
2020年一名Quant的自我修炼文章中提到:
基于中台,我们能提供的功能包括:
这里要种草Mlflow,确实是极大提升了模型管理与交付的效率。只要研究人员将模型留痕到mlflow tracking server,开发人员几乎可以无缝地将工作转化到生产之上。
在现阶段版本里,MLFlow 做算法训练是基于单机运行的,不过利用Pyspark可以很方便的实现多机同时运行。 在预测方面,对于一些标准的库比如SKLearn,因为一般而言都有predict方法,所以无需开发即可通过MLFlow进行部署,如果是自定义的一些算法,则需要提供一个模块,实现里面定义方法签名(比如predict),然后可以动态import到API Server里或者转化一个Spark UDF函数部署到PySpark里。
MLSQL核心在于:
1,2 解决了算法脚本难于重复运行的问题,以及模型部署的问题,同时还解决了数据预处理复用的问题。
允许算法嵌入任何算法框架完成训练和预测,给了算法工程师足够的灵活性。
当然,MLFlow目前的模式没有强行绑定到Spark上,而是作为ML的一个辅助工具和标准,最大程度的减少算法同学的学习和使用成本,减少对现有流程干扰,可以使得MLFlow更容易被算法同学接受,从而享受到它的好处,这是MLSQL无法比拟的。所以我前面说了,MLFlow更像一个Pipeline工具和标准,MLSQL则更像一个AI平台。
来自:跑得比TensorBoard快多了,极简可视化工具Aim发布 | Reddit高热 深度学习工作流工具:TensorBoard,不过多介绍了。 来看看加州伯克利的团队开源了Aim
Aim可以在几分钟内记录、搜索和比较100项实验,和TensorBoard/MLFlow相比,Aim的优点主要是支持:
可参考:
这里大厂应该都有,只是简单罗列:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有