首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >无法将经过训练的模型部署到现有AKS计算目标

无法将经过训练的模型部署到现有AKS计算目标
EN

Stack Overflow用户
提问于 2019-02-20 23:15:26
回答 3查看 885关注 0票数 2

我有一个模型是在Azure机器学习服务上的机器学习计算上训练的。已注册的模型已经存在于我的工作区中,我想将其部署到我之前在工作区中提供的一个预先存在的AKS实例中。我能够成功配置和注册容器镜像:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# retrieve cloud representations of the models
rf = Model(workspace=ws, name='pumps_rf')
le = Model(workspace=ws, name='pumps_le')
ohc = Model(workspace=ws, name='pumps_ohc')
print(rf); print(le); print(ohc)

<azureml.core.model.Model object at 0x7f66ab3b1f98>
<azureml.core.model.Model object at 0x7f66ab7e49b0>
<azureml.core.model.Model object at 0x7f66ab85e710>

package_list = [
  'category-encoders==1.3.0',
  'numpy==1.15.0',
  'pandas==0.24.1',
  'scikit-learn==0.20.2']

# Conda environment configuration
myenv = CondaDependencies.create(pip_packages=package_list)
conda_yml = 'file:'+os.getcwd()+'/myenv.yml'

with open(conda_yml,"w") as f:
    f.write(myenv.serialize_to_string())

配置和注册镜像工作:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Image configuration
image_config = ContainerImage.image_configuration(execution_script='score.py', 
                                                  runtime='python', 
                                                  conda_file='myenv.yml',
                                                  description='Pumps Random Forest model')


# Register the image from the image configuration
# to Azure Container Registry
image = ContainerImage.create(name = Config.IMAGE_NAME, 
                              models = [rf, le, ohc],
                              image_config = image_config,
                              workspace = ws)

Creating image
Running....................
SucceededImage creation operation finished for image pumpsrfimage:2, operation "Succeeded"

附加到现有群集也可以:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Attach the cluster to your workgroup
attach_config = AksCompute.attach_configuration(resource_group = Config.RESOURCE_GROUP,
                                                cluster_name = Config.DEPLOY_COMPUTE)
aks_target = ComputeTarget.attach(workspace=ws, 
                                  name=Config.DEPLOY_COMPUTE, 
                                  attach_configuration=attach_config)

# Wait for the operation to complete
aks_target.wait_for_completion(True)
SucceededProvisioning operation finished, operation "Succeeded"

但是,当我尝试将映像部署到现有集群时,它会失败,并显示WebserviceException

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Set configuration and service name
aks_config = AksWebservice.deploy_configuration()

# Deploy from image
service = Webservice.deploy_from_image(workspace = ws,
                                       name = 'pumps-aks-service-1' ,
                                       image = image,
                                       deployment_config = aks_config,
                                       deployment_target = aks_target)
# Wait for the deployment to complete
service.wait_for_deployment(show_output = True)
print(service.state)

WebserviceException: Unable to create service with image pumpsrfimage:1 in non "Succeeded" creation state.
---------------------------------------------------------------------------
WebserviceException                       Traceback (most recent call last)
<command-201219424688503> in <module>()
      7                                        image = image,
      8                                        deployment_config = aks_config,
----> 9                                        deployment_target = aks_target)
     10 # Wait for the deployment to complete
     11 service.wait_for_deployment(show_output = True)

/databricks/python/lib/python3.5/site-packages/azureml/core/webservice/webservice.py in deploy_from_image(workspace, name, image, deployment_config, deployment_target)
    284                         return child._deploy(workspace, name, image, deployment_config, deployment_target)
    285 
--> 286         return deployment_config._webservice_type._deploy(workspace, name, image, deployment_config, deployment_target)
    287 
    288     @staticmethod

/databricks/python/lib/python3.5/site-packages/azureml/core/webservice/aks.py in _deploy(workspace, name, image, deployment_config, deployment_target)

对如何解决这个问题有什么想法吗?我在Databricks笔记本上写代码。此外,我可以使用Azure Portal创建和部署集群,没有问题,所以这似乎是我的代码/Python SDK或Databricks与AMLS的工作方式的问题。

更新:我能够使用Azure Portal将我的镜像部署到AKS,was服务工作正常。这意味着问题存在于Databricks、Azureml Python SDK和Machine Learning Service之间。

更新2:我正在与微软合作来解决这个问题。一旦我们有了解决方案就会报告。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2019-03-07 20:22:05

在我的初始代码中,当创建图像时,我没有使用:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
image.wait_for_creation(show_output=True)

因此,我在创建映像之前调用了CreateImageDeployImage,但出现了错误。不敢相信有这么简单..。

更新的镜像创建片段:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# Register the image from the image configuration
# to Azure Container Registry
image = ContainerImage.create(name = Config.IMAGE_NAME, 
                              models = [rf, le, ohc],
                              image_config = image_config,
                              workspace = ws)

image.wait_for_creation(show_output=True)
票数 2
EN

Stack Overflow用户

发布于 2019-02-21 15:56:25

根据个人经验,我会说你看到的错误消息可能表明图像中的脚本有一些错误。这样的错误不一定会阻止镜像的成功创建,但它可能会阻止镜像在服务中使用。但是,如果您已经能够成功地在其他服务中部署映像,那么您应该能够排除此选项。

您可以关注this guide,了解有关如何在本地调试Docker镜像的更多信息,以及查找日志和其他有用信息。

票数 1
EN

Stack Overflow用户

发布于 2019-03-04 13:54:29

同意Arvid的回答。你能成功地运行它吗?您也可以尝试将其部署到ACI,但如果问题出在score.py中,您也会遇到相同的问题,但它很快就会尝试。此外,如果您想调试部署,也会有点痛苦,但您可以公开本地docker部署上的TCP5678端口,并使用VSCode和PTVSD连接到该端口并逐步进行调试。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/54796762

复制
相关文章
eShopOnContainers 知多少[10]:部署到 K8S | AKS
断断续续,感觉这个系列又要半途而废了。趁着假期,赶紧再更一篇,介绍下如何将eShopOnContainers部署到K8S上,进而实现大家常说的微服务上云。
圣杰
2019/05/29
9790
eShopOnContainers 知多少[10]:部署到 K8S | AKS
将训练好的Tensorflow模型部署到Web站点
通过Google发布的tensorflowjs,我们可以将训练好的模型部署到任何一个支持静态页的web服务器上,不需要任何后台服务即可运行tensorflow,部署过程非常简单。
兜兜转转
2023/03/08
1.2K0
如何将本地transformer模型部署到Elasticsearch
在本月早些时候,Elastic发布了Elasticsearch Relevance Engine(Elasticsearch相关性引擎),该引擎通过多种方式,为用户提供提高相关性的能力,其中特别重要的一点,就是允许开发人员在 Elastic 中管理和使用自己的transformer模型。
点火三周
2023/06/15
3.6K0
如何将本地transformer模型部署到Elasticsearch
如何将PyTorch Lightning模型部署到生产中
纵观机器学习领域,主要趋势之一是专注于将软件工程原理应用于机器学习的项目激增。 例如,Cortex再现了部署无服务器功能但具有推理管道的体验。类似地,DVC实现了现代版本控制和CI / CD管道,但仅用于ML。
计算机与AI
2020/11/19
2.1K0
如何将PyTorch Lightning模型部署到生产中
如何将机器学习的模型部署到NET环境中?
【IT168 资讯】对于以数据为中心的工程师来说,Python和R是数据中心最流行的编程语言之一。但是,它们并不总是构建应用程序的其余部分的语言。这就是为什么你有时需要找到一种方法,将用Python或R编写的机器学习模型部署到基于.NET等语言的环境中。 在本文中,将为大家展示如何使用Web API将机器学习模型集成到.NET编写的应用程序中。 输入:Flask 我们可以使用Flask作为共享和主持机器学习预测的一种方式。让我们使用来自著名的Kaggle比赛的Titanic 数据集。首先,创建一个新文件,并
企鹅号小编
2018/02/08
1.9K0
如何将机器学习的模型部署到NET环境中?
将现有的Apk打包到AOSP的编译结果中
在pakcages/apps下创建子目录 将apk放置在此子目录,创建Android.mk 将如下内容写入Android.mk LOCAL_PATH := $(call my-dir) include $(CLEAR_VARS) LOCAL_MODULE := 'youAppName' LOCAL_SRC_FILES := $(LOCAL_MODULE).apk LOCAL_MODULE_CLASS := APPS LOCAL_MODULE_SUFFIX := $(COMMON_ANDROID_PACKAG
用户2930595
2018/08/23
1.4K0
将Hexo部署到GitHub
点击右上角的“+”,选择“New repository”新建仓库; 输入仓库名(仓库名需要与github用户名一致),勾选“Add a README file”,然后点击底部的“Create repository”创建仓库
十玖八柒
2022/08/01
1.4K0
将Hexo部署到GitHub
Flutter - 将 Flutter 集成到现有项目(iOS - Framework篇)
用 Flutter 来开发,从来都不可能是新开的一个纯 Flutter 项目,很大一部分都是 老项目接入 Flutter 来混编。
Flutter笔记
2020/06/17
4.5K0
Flutter - 将 Flutter 集成到现有项目(iOS - Framework篇)
将 HEXO 部署到VPS
hexo 可以部署在github,conding。当有了一个 vps 之后可以把 hexo 部署到 vps ,步骤如下:
tanmx
2020/04/02
1.7K0
如何将PyTorch Lighting模型部署到生产服务中
纵观机器学习领域,一个主要趋势是专注于将软件工程原理应用于机器学习的项目。例如,Cortex重新创造了部署serverless功能的体验,但使用了推理管道。类似地,DVC实现了现代版本控制和CI/CD管道,但是是针对ML的。
磐创AI
2021/02/23
2.6K0
如何将PyTorch Lighting模型部署到生产服务中
目标检测模型从训练到部署!
目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的类别和位置,是计算机视觉领域的核心问题之一。目标检测已应用到诸多领域,比如如安防、无人销售、自动驾驶和军事等。在许多情况下,运行目标检测程序的设备并不是常用的电脑,而是仅包含必要外设的嵌入式设备。别看嵌入式设备简陋,但在上面照样能够跑程序,实现我们的想法。设计一个嵌入式AI产品产品,一般会首先考虑成本,在有限的成本内充分利用硬件的性能。因此,不同高低性能的硬件使用场景各不同。
Datawhale
2022/02/17
1.5K0
目标检测模型从训练到部署!
现有React架构无法解决的问题
但是,确实存在某些框架(比如Vue、Qwik)可以,但React无法解决的问题。这就是「极致性能优化」问题。
公众号@魔术师卡颂
2023/08/30
1920
现有React架构无法解决的问题
将pandas数据显示到现有的flask html表中
2 pandas读写数据库 在python连接好数据库后,pandas可以利用read_sql()方法将数据读入DataFrame。这里可以看一下代码。
赵云龙龙
2020/12/15
4.3K0
将pandas数据显示到现有的flask html表中
将现有的Web前端项目生成导入到Django的Template
实际项目中,会遇到这样的问题:没有使用任何服务器端框架的前端代码,即包含html网页文件,也包含js和css的代码,如何将这些现有的项目做最少的修改而引入到Django框架中呢?Django官网上给出了解决方法,使用static目录来存放css和js代码(虽然js是动态代码,但Django将其与css等同为静态代码,因为在后端看来,前端代码是静态的),然后在html文件里面,将原先的href引用改为通过static目录来引用。可以看这里,但里面讲的不是很清楚,我在查了一些资料后才搞定这个问题,所以这里写个总结来总结总结。
王云峰
2019/12/25
1.8K0
怎么将golang部署到docker
我们都知道go能够这么火是因为他是docker官方标准语言,当然了docker也将go的性能发挥到了极致,可谓是相辅相成,交相辉映。而最近学洗go的过程中很多项目都会提供Dockerfile,这是什么鬼呢?后续查阅知道这个是将项目部署到docker的自动化配置引导文件。于是今天上班没事干花了一天时间吧周末的小项目给添加了个dockerfile……下面给大家分享一下艰辛的历程吧。
大话swift
2019/08/01
1.6K0
如何使用 TensorFlow mobile 将 PyTorch 和 Keras 模型部署到移动设备
截止到今年,已经有超过 20 亿活跃的安卓设备。安卓手机的迅速普及很大程度上是因为各式各样的智能 app,从地图到图片编辑器应有尽有。随着深度学习的出现,我们的手机 app 将变得更加智能。下一代由深度学习驱动的手机 app 将可以学习并为你定制功能。一个很显著的例子是「Microsoft Swiftkey」,这是一个键盘 app, 能通过学习你常用的单词和词组来帮助你快速打字。
AI研习社
2018/07/26
3.6K0
如何使用 TensorFlow mobile 将 PyTorch 和 Keras 模型部署到移动设备
如何将pytorch检测模型通过docker部署到服务器
。镜像文件也上传到docker hub了,可以一步步运行起来,不过需要先安装好docker。docker的安装可参考官方文档。https://docs.docker.com/docker-for-windows/install/
机器学习AI算法工程
2021/01/27
3.5K0
如何将pytorch检测模型通过docker部署到服务器
将验证码识别功能集成到现有的爬虫框架
过年期间我曾经写过一篇文章《一次简单的验证码识别以及思考》, 目前已经对该功能做了一些优化,可以支持几种类型的验证码识别。其核心思想仍然是上一篇文章所提到的,使用tensorflow来训练标注过的验证码。目前,多种类型的验证码训练完之后可以放到一个模型中。未来,有新增的验证码类型通过训练之后也可以整合到这个模型中。
fengzhizi715
2018/08/24
7030
将验证码识别功能集成到现有的爬虫框架
旋转目标检测模型-TensorRT 部署(C++)
这次工程部署主要选择了比较熟悉的旋转选择框架-GGHL。如果没有特殊算子的检测框架,依然可以使用下面的这个Pipeline, 旋转目标检测主要分成五参数和八参数的表征方法,分别对应的 x,y,w,h.以及对应的八参数的转化求法 x_1,y_1,x_2,y_2,x_3,y_3,x_4,y_4 。这两种方式在后处理的时候可以互相转换,我们这里选择后者。
墨明棋妙27
2022/09/27
1.6K0
旋转目标检测模型-TensorRT 部署(C++)
点击加载更多

相似问题

如何使用计算目标获取现有的AKS

110

将容器从ACR部署到AKS

11

如何在将Azure模型部署到AKS集群时指定nodeSelector?

13

将经过训练的机器学习模型部署到生产中的步骤

14

无法将EfficientNet模型运行到经过训练的4个类

122
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文