腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
导致XGBoost在SageMaker
分布式
和单实例上训练时间较慢的因素
、
、
、
我想创建一个关于
分布式
培训
的模块来满足客户的要求。我通过添加几行代码(如下所示)来编辑,以便使用FullyReplicated和SharedByS3Key运行
培训
,其中包含两个用于
培训
的实例,以展示客户如何使用XGBoost进行
分布式
培训
。我成功地运行了这三种
培训
类型--单一的、
分布式
的:sharedbys3键和
分布式
:完全复制。但单发训练时间为3分钟,而分散训练时间较长(分别为6和7分钟)。 为什么这种情况下的
分布式</em
浏览 4
提问于2022-11-01
得票数 -1
2
回答
SageMaker内置LightGBM算法支持
分布式
训练吗?
、
、
、
、
SageMaker内置的LightGBM算法是否支持
分布式
训练?非常感谢您对此的任何建议或澄清。
浏览 20
提问于2022-09-11
得票数 0
回答已采纳
1
回答
tensorflow对象检测支持
分布式
策略吗?
、
源或二进制)安装的TensorFlow : 我想要进行一次关于对象检测的
分布式
培训
。这是运行
分布式
培训
的正确方式吗?但这种方式似乎是一种异步训练。为了运行同步
培训</e
浏览 2
提问于2018-12-05
得票数 1
1
回答
SageMaker
分布式
训练能用于非深度学习模式的训练吗?
、
、
、
、
我正在跟踪这个页面,以了解SageMaker的
分布式
培训
功能。上面写着:- SageMaker
分布式
培训
库只能通过TensorFlow、PyTorch和HuggingFace框架的AWS深度学习容器在SageMaker
培训
平台中使用。这是否意味着我们不能使用SageMaker
分布式
训练来使用传统的机器学习算法(如线性回归、随机森林或XGBoost )来训练机器学习模型?我有一个用例,其中数据集非常大,和
分布式
培训
可以帮助模型并行和数据并行。为了避免在
浏览 12
提问于2022-09-17
得票数 -1
1
回答
使用PyTorch定制容器(BYOC)在SageMaker中进行
分布式
培训
的最佳实践
、
、
、
、
使用PyTorch定制容器(BYOC)在Amazon中进行
分布式
培训
的最佳实践是什么?我理解PyTorch框架支持本地
分布式
培训
或使用Horovod库进行PyTorch。
浏览 11
提问于2022-09-11
得票数 0
1
回答
为什么在以下情况下,
分布式
深度学习能够提供比非
分布式
深度学习更高的精度(更低的误差)?
、
、
问题编辑:每个员工和非
分布式
DL使用1000个样本作为
培训
集,相同的小批量大小为200。每个员工使用500个样本作为
培训
集(前500个样本用于工人1,其余500个样本用于工作人员2),非
分布式
DL使用1000个样本用于
培训</em
浏览 0
提问于2018-11-05
得票数 0
回答已采纳
1
回答
使用GPU Spot实例进行SageMaker
分布式
训练?
、
、
、
、
我有一个要求,使用N1xGPU Spot实例,而不是1xN-GPU实例的
分布式
培训
。 SageMaker
分布式
培训
是否支持GPU Spot实例的使用?如果是,如何启用?
浏览 10
提问于2022-09-11
得票数 0
1
回答
如何与SageMaker XGBoost内置算法一起使用多个实例?
、
、
、
例如,如果我们使用2个实例来使用内置的XGBoost容器进行
培训
,并且使用了相同的客户流失示例,该怎么办?一个例子会被忽略吗?
浏览 13
提问于2022-09-10
得票数 0
回答已采纳
1
回答
对默认SageMaker分发策略的澄清
、
、
Context:在使用SageMaker
分布式
培训
时:假设在训练网络时,我不提供任何分布参数(将其保持为默认值),而是在估计器中为instance_count值提供2个实例(可以是任何基于深度学习的估计器在这种情况下,是否会进行任何
分布式
培训
?如果是的话,默认使用什么策略? 注意到:我可以看到这两个实例的GPU都在积极使用,但是我想知道默认情况下会发生什么样的
分布式
培训
?
浏览 6
提问于2022-11-28
得票数 0
1
回答
keras模型是否支持SageMaker
分布式
数据并行(SMDDP)?
、
、
、
、
keras模型是否支持SageMaker
分布式
数据并行(SMDDP)?在文档中,它说"SageMaker
分布式
数据并行适用于除tf.keras模块以外由tf核心模块组成的TensorFlow
培训
脚本,SageMaker
分布式
数据并行不支持带有Keras实现的TensorFlow“ 但是在
培训
脚本内部以及如何修改它,我可以看到使用了tf.keras和tf.keras.model。
浏览 12
提问于2022-09-09
得票数 0
1
回答
实例化和关闭Kubeflow豆荚
、
、
、
、
我正在学习Kubernetes和Kubeflow,有些事情我想做,我在互联网上找不到任何明确的答案,如果可能的话,或者我应该选择的路线。不好意思,我还在学习这个平台。
浏览 7
提问于2021-02-02
得票数 2
回答已采纳
1
回答
如何在tf.contrib.learn.Experiment中使用device_filters?
、
默认情况下,TensorFlow
分布式
培训
在工作器和参数服务器之间建立所有到所有的连接,即使在异步
分布式
培训
中,唯一必要的通信是每个单独的工作器和参数服务器之间的通信。
浏览 4
提问于2017-10-24
得票数 2
2
回答
自定义tf.estimator的云ML引擎
分布式
训练默认类型
、
、
、
此建议有三种可供选择的
分布式
培训
模式并行训练。然后,本教程建议下面的代码在Cloud引擎上使用异步更新执行数据并行
培训
,该引擎的行为是“如果在10个工作节点中分发10,000个批,每个节点大约在1,000批上工作”。但是,尚不清楚代码的哪一部分实际上指定这是使用异步更新的数据并行
培训
。如果您使用自定义tf.estimator在
分布式
培训
模式下运行ML引擎,这仅仅是它的默认吗?
浏览 2
提问于2017-08-31
得票数 0
回答已采纳
1
回答
不按预期工作的Sagemaker
分布式
数据并行( smdistributed.dataparallel.torch.distributed )
、
、
、
smdistributed.dataparallel.torch.parallel.distributed导入DistributedDataParallel作为DDP导入smdistributed.dataparallel.torch.distributed作为dist的
分布式
培训
(使用两个库),尽管数据被划分为所有GPUs("ml.p3.16xlarge“,8个Gpus),但是,无论是单实例还是双实例,
培训
时间都没有减少。之前,我们尝试使用Sagemaker内置的algo Resnet101来获取相同的数据,100个时代的训练时
浏览 0
提问于2021-11-11
得票数 0
2
回答
在
分布式
tensorflow中设置障碍的正确方法是什么?
、
在
分布式
培训
期间,我希望在每个时代之后同步,对主要员工进行一些计算,并根据这些计算继续或停止
培训
。我需要一个障碍来做到这一点。我在文档中没有看到类似的东西,所以我实现了基于队列的解决方案(类似于在
分布式
培训
中如何
存储
和应用渐变): def build_barrier(tasks, task_index, barrier_name
浏览 5
提问于2016-09-22
得票数 2
回答已采纳
1
回答
使用ApacheBeam与Tensorflow (X)或pythorch
、
、
、
在看了几次关于ApacheBeam及其API/SDK的讲座和一些博客之后,我仍然无法理解它是否也能够与
分布式
机器学习
培训
范例(例如数据并行)集成。我在网上找到的内容通常只涉及如何帮助构建一个端到端的ML管道(从预处理到服务),但忽略了是否也可以并行进行
培训
。所以我的问题是:我们真的能把它与诸如tf.distribute.MultiWorkerMirroredStrategy这样的Tensorflow的
分布式
培训
库集成起来吗?
浏览 8
提问于2022-09-18
得票数 0
回答已采纳
1
回答
SageMaker对象检测支持
分布式
训练吗?
我想通过使用
分布式
训练来缩短使用SageMaker内置对象检测算法(实例计数> 1)的训练作业的时间。我试图通过将
培训
数据分割成多个RecordIO文件而不是仅仅一个文件来做到这一点。“在火车通道中找到多个RecordIO文件”此错误导致
培训
作业失败。目前只支持单个RecordIO文件。 这使我相信,该算法不支持通过
分布式
训练来加快训练时间。我说的对吗?还是有其他方法可以利用多个
培训
实例来加快
培训
工作的持续时间?
浏览 2
提问于2022-09-12
得票数 0
1
回答
如何在
分布式
训练场景中正确使用ShardedByS3Key?
、
、
继之后,为
分布式
培训
优化数据摄入的一种方法是使用相应的ShardedByS3Key。 是否有在
分布式
培训
上下文中使用更高级ShardedByS3Key的代码示例?
浏览 12
提问于2022-10-31
得票数 0
3
回答
亚马逊网络服务SageMaker超大数据集
、
我有一个500 TB的csv文件和一个1.5 TB的mysql数据库,我想在上面运行aws sagemaker分类和回归算法以及随机森林。
浏览 1
提问于2018-03-20
得票数 5
1
回答
学习证明是如何实现的?
、
、
看了一篇关于学习证明的论文,想知道共识是如何运作的,以及如何在以太中实现它?
浏览 0
提问于2019-10-15
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是分布式存储?分布式存储有什么优势?
分布式存储大爆发:IPDS分布式存储项目正在振兴
Ceph 分布式存储简介
分布式存储的特点
分布式磁盘 KV 存储 - Kvrocks
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券