首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用集成GPU解决深度学习的算力难题

使用集成GPU解决深度学习的算力难题

作者头像
AiTechYun
发布于 2019-09-08 14:05:12
发布于 2019-09-08 14:05:12
1.6K0
举报
文章被收录于专栏:ATYUN订阅号ATYUN订阅号

一直以来,如何用最低的成本来使人工智能(AI)、机器学习(ML)和深度学习(DL)应用程序以最高的性能运行都是一个难题。有很多基于云端的方法看起来是可行的,但是对于配置有内部基础设施或混合结构体系的负载任务它们又无能为力,就算是大型企业的许多数据科学家和专业的IT人员在开始他们的AI、ML、DL计划时,这个难题也让他们感到困惑不已。

这难题已经存在很长一段时间了,而且一直无法解决。但是现在我们可以通过使用集成图形处理单元(GPU)运行ML、DL工作负载来解决这个难题。在过去的几年当中,这项技术一步一步走向成熟,直到今天终于展示在公众面前。

但是想要在一个企业环境中运行大规模的ML和DL应用程序仍然不是一件简单的事情,所以科学家们选择把图形进行集成。

每一个数据科学家都知道,ML和DL预测模型的训练和推理是密集型的计算。使用硬件加速器(如GPU)是提供所需计算能力的关键,以便这些模型能够在合理的时间内做出预测。但是,在企业环境中使用GPU依然具有许多挑战性,例如:

1.它们需要一个复杂的软件,用来跨越可能难以安装和维护的操作系统、中间代码和应用程序库。

2.GPU不易共享。当它们被共享时,它们的利用效率会非常低,这很难准确地预测GPU和其他基础设施的计算能力。

3.在运行单个负载任务时,ML、DL应用程序对GPU的利用率会发生显著变化。这意味着即使GPU通过集成进行共享,它们也不会被充分利用,除非在应用程序运行时可以自由切换GPU!

为了解决这些挑战,我们需要大规模的集成,比如Kubernetes,它支持某种形式的GPU资源共享。然而,这种资源共享并不能完全解决上述问题。

现在有了一种新的解决方案,就是利用bluedata平台进行集成。但是需要新的功能,那就是根据需要,弹性地提供GPU资源,使集成化的ML、DL应用程序可以通过访问一个或多个GPU快速、轻松地运行。新的集成化环境可以按需配置,在不需要时取消配置(释放GPU)。这允许IT管理员监控使用情况,并在执行GPU特定代码时重新分配GPU。

现在,企业能够根据自己的特定需求配置和调整平台,以GPU为基础运行分布式ML、DL应用程序,同时将成本降至最低并确保性能达到最高。他们可以使用来自公共云提供商或本地数据中心的基础设施资源来设置这些环境,也可以在容器化计算节点之间动态地调配GPU资源,从而使运行的成本和时间达到最小化。

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【大数据分析 | 深度学习】在Hadoop上实现分布式深度学习
大数据和深度学习结合之路——在Hadoop上实现分布式深度学习(本质理解:搭好环境后可运行深度学习程序)
Francek Chen
2025/01/22
2090
【大数据分析 | 深度学习】在Hadoop上实现分布式深度学习
0499-如何使用潜水艇在Hadoop之上愉快的玩耍深度学习
Hadoop是时下最流行的企业级开源大数据平台技术,你可以将它部署在本地,也可以部署在云端。而深度学习,对于企业用户来说举几个简单的例子,常见的场景包括语音识别,图像分类,AI聊天机器人或者机器翻译。为了训练深度学习/机器学习模型,我们可以利用TensorFlow/MXNet/Pytorch/Caffe/XGBoost等框架。有时这些框架也会被一起使用用于解决不同的问题。
Fayson
2019/11/27
9900
{Submarine} 在 Apache Hadoop 中运行深度学习框架
作者:Wangda Tan、Sunil Govindan、Zhankun Tang
大数据文摘
2019/01/23
1.9K0
{Submarine}  在 Apache Hadoop 中运行深度学习框架
为什么数据科学家不需要了解 Kubernetes
最近,关于数据科学家的工作应该包含哪些,有许多激烈的讨论。许多公司都希望数据科学家是全栈的,其中包括了解比较底层的基础设施工具,如 Kubernetes(K8s)和资源管理。本文旨在说明,虽然数据科学家具备全栈知识有好处,但如果他们有一个良好的基础设施抽象工具可以使用,那么即使他们不了解 K8s,依然可以专注于实际的数据科学工作,而不是编写有效的 YAML 文件。
深度学习与Python
2021/11/10
1.7K0
为什么数据科学家不需要了解 Kubernetes
超大规模云计算供应商重点投资人工智能云服务
亚马逊网络服务(AWS)、微软、谷歌、IBM等公司在过去一年中增加了数十种云计算人工智能工具,并且具有不同程度的复杂性。这些平台是否选用这些工作负载取决于人工智能和机器学习如何适应企业的业务战略。尽管
静一
2018/03/19
1.2K0
超大规模云计算供应商重点投资人工智能云服务
云智慧助力 MLOps 加速落地
随着数字化和计算能力的发展,机器学习(Machine Learning)技术在提高企业生产力方面所涌现的潜力越来越被大家所重视,然而很多机器学习的模型及应用在实际的生产环境并未达到预期,大量的 ML 项目被证明是失败的。从机器学习的发展历程来看,早期 ML 社区广泛关注的是 ML 模型的构建,确保模型能在预定义的测试数据集上取得较好的表现,但对于如何让模型从实验室走向用户的桌面,并未大家所关注。
IT趣圈分享
2023/04/26
1.4K0
Databricks推出机器学习的开源多云框架,简化分布式深度学习和数据工程
Databricks研究调查的初步结果显示,96%的组织认为数据相关的挑战是将AI项目移至生产时最常见的障碍。数据是人工智能的关键,但数据和人工智能则处在孤岛中。Databricks是统一分析领域的领导者,由Apache Spark的原创者创建,利用统一分析平台解决了这一AI难题。今天在旧金山召开的Spark + AI峰会上,由4,000位数据科学家,工程师和分析领导者组成的年度盛会,为企业降低AI创新障碍创造了新的能力。这些新功能统一了数据和AI团队和技术:用于开发端到端机器学习工作流的MLflow,用于ML的Databricks Runtime以简化分布式机器学习,用Databricks Delta以提高数据的可靠性和性能。
AiTechYun
2018/07/27
1.2K0
Databricks推出机器学习的开源多云框架,简化分布式深度学习和数据工程
【谷歌重拳开放Cloud TPU】GPU最强对手上线,Jeff Dean十条推文全解读
编辑:闻菲、佩琦、张乾 【新智元导读】谷歌又放大招:刚刚,Jeff Dean连发十条Twitter,介绍最新发布的测试版Cloud TPU,目前在美国地区开放,每小时6.5美元。谷歌表示,一个Clou
新智元
2018/03/20
1.1K0
【谷歌重拳开放Cloud TPU】GPU最强对手上线,Jeff Dean十条推文全解读
数据科学家在摩根大通的一天
今天,我们要讲的是人工智能和机器学习,以及亚马逊 SageMaker 等产品如何改变数据科学家的工作方式。
机器之心
2021/03/15
8830
数据科学家在摩根大通的一天
可以让寻求转型的CIO获得启发的4个云计算成功应用案例
对于寻求组织变革、开发新收入流,并为未来的创新做好准备的首席信息官来说,公有云已经成为他们的关键差异化因素。
静一
2022/12/08
4750
机器学习算法和架构在MLOps框架下的工程实践
👆点击“博文视点Broadview”,获取更多书讯 本文主要介绍机器学习(以下简写为ML)算法和架构在MLOps框架下的工程实践。 当从业者具备了足够丰富的知识储备时,就可以开始尝试ML了。 通常情况下,ML实践会涉及研究和生产两个主要环境。 研究环境可以在本地计算机或工作站上,这通常是为了进行小规模的模型分析和探索。 生产环境是模型投产的环境,ML在生产环境中通常需要相对长期的持续运行,生产环境中的任务一般需要自动化和持续迭代。 下面举个仅需要在研究环境中进行数据分析或建模即可满足需求的例子,即在文章
博文视点Broadview
2022/04/21
4430
机器学习算法和架构在MLOps框架下的工程实践
【业界】当前的深度学习框架不会改变机器学习的能力增长
框架只是在应用程序中广泛采用机器学习的中间步骤。我们需要的是更多的视觉产品,而这些可能还需要几年的时间。 当前的机器学习(ML)框架是ML的产品化过程中需要的一个中间步骤,它包含在应用程序环境中。为了
AiTechYun
2018/03/02
7230
【业界】当前的深度学习框架不会改变机器学习的能力增长
原创译文 | 数据科学家告诉你:深度学习和机器学习不同
导读:上一期介绍了无人驾驶的发展现状,今天我们来了解一下深度学习和机器学习的不同实践和运用(文末更多往期译文推荐) GoodData数据科学和机器学习高级总监Arvin Hsu 认为,尽管深度学习和机
灯塔大数据
2018/04/04
6740
原创译文 | 数据科学家告诉你:深度学习和机器学习不同
让python快到飞起 | 什么是 DASK ?
Dask 是一个开源库,旨在为现有 Python 堆栈提供并行性。Dask 与 Python 库(如 NumPy 数组、Pandas DataFrame 和 scikit-learn)集成,无需学习新的库或语言,即可跨多个核心、处理器和计算机实现并行执行。
自学气象人
2022/11/02
4.6K0
让python快到飞起 | 什么是 DASK ?
Kubernetes与AI是天作之合?
在 KubeCon 欧洲,我们听说了很多关于 AI 和 Kubernetes 的当前和未来关系,Kubernetes 最初是构建为无状态的编排器。
云云众生s
2024/03/31
1690
声明性数据基础设施为数据驱动企业提供动力
大数据、人工智能/ML和现代分析技术已经渗透到商业世界,成为企业战略的关键元素,以更好地服务客户、更快地创新和保持领先的竞争。数据是所有这些的核心。在本博客中,我们将重点讨论Kubernetes和相关的容器原生存储技术,如何使数据工程师(即DataOps团队)能够构建可伸缩的、敏捷的数据基础设施,从而实现这些目标。
CNCF
2019/12/04
6630
什么是MLOps?为什么要使用MLOps进行机器学习实践
随着数字化和计算能力的发展,机器学习(Machine Learning)技术在提高企业生产力方面所涌现的潜力越来越被大家所重视,然而很多机器学习的模型及应用在实际的生产环境并未达到预期,大量的ML项目被证明是失败的。从机器学习的发展历程来看,早期ML社区广泛关注的是ML模型的构建,确保模型能在预定义的测试数据集上取得较好的表现,但对于如何让模型从实验室走向用户的桌面,并未大家所关注。
人工智能日报
2023/06/22
1.8K0
机器学习下的持续交付
机器学习在行业中的应用变得越来越流行,然而相对于传统软件开发,例如Web服务或者Mobile应用来说,这类程序的开发、部署和持续改进也变得更加的复杂。它们的功能改变通常由以下三个维度驱动:
ThoughtWorks
2020/03/13
5950
为什么机器学习部署起来这么难?
作者:Alexandre Gonfalonieri 编译:ronghuaiyang 来源:AI公园
AI算法与图像处理
2019/10/21
1K0
为什么机器学习部署起来这么难?
资源 | 企业应该怎样选择数据科学机器学习平台?
选自kdnuggets 机器之心编译 参与:吴攀、黄小天、Nurhachu Null 一个弹性的数据科学平台(Data Science Platform)对于大型企业内的每个集中化数据科学团队都是不可或缺的。它能帮助团队在 PB 级尺度上对模型进行集中化、再利用和产品化。本文作者为 Algorithmia 的 Ahmad AlNaimi。 你开发了一个 R/Python/Java 模型。它运行得很好。然后呢? 首先你的 CEO 要听闻机器学习,并且知道数据是新的石油。数据仓库团队中有个人刚提交了他 1P
机器之心
2018/05/08
1.1K0
资源 | 企业应该怎样选择数据科学机器学习平台?
推荐阅读
相关推荐
【大数据分析 | 深度学习】在Hadoop上实现分布式深度学习
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档