腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
GPU
在
参数
服务器
上进行数据并行训练是否有效?
、
、
、
在上,我猜
GPU
实例不一定对
参数
服务器
有效,因为
参数
服务器
只保留值,不运行矩阵乘法等任何计算。因此,我认为的示例配置(
参数
服务器
使用CPU,其他
服务器
使用
GPU
)具有良好的成本性能: scaleTier: CUSTOM parameterServerType:
浏览 3
提问于2017-04-14
得票数 0
回答已采纳
1
回答
seq2seq嵌入大小太大,无法进行分布式训练。
我有3个
服务器
,每个
服务器
有32个cpu和8个泰坦X
gpu
。 当我用单
服务器
和单
gpu
训练该模型时,它连续使用
gpu
50~60%。步长时间也比较合理(0.2~0.3秒).然而,当我用集群(1
参数
服务器
,2名异步工作人员)训练相同的模型时,他们不能利用
gpu
,步骤时间增加(3秒,比单个版本慢10倍)。我发现
参数
服务器
的
参数
大小为220 of,网络使用率为2Gbit/秒。
浏览 6
提问于2017-03-31
得票数 1
回答已采纳
1
回答
colocate_gradients_with_ops论点在TensorFlow?
、
我试图理解这个论点的作用,AdamOptimizer的的compute_gradients方法这样说-但我不太清楚。在这种情况下,共分梯度意味着什么?所述op是什么?
浏览 3
提问于2018-02-12
得票数 3
回答已采纳
1
回答
尝试运行分布式GCMLE作业时遇到抢占操作系统错误
、
、
如果我将我的模型配置为使用单个standard_p100
GPU
运行,我可以以大约15步/秒的速度进行训练。但是,如果我将配置更新为具有4个工作人员和3个
参数
服务器
的分布式设置(请参见下面的配置),则会弹出抢占错误,10个步骤将花费大约600秒.trainingInput我在网上找到的唯一建议是建议
参数
服务器
的数量至少是员工数量的一半(这就是为什么我增加到了3个
参数
服务器
),但我仍然没有运气。更新 我将<em
浏览 0
提问于2018-10-13
得票数 8
1
回答
Google是否只支持分布式Tensorflow,用于多个
GPU
培训工作?
、
、
我想在Cloud上使用多个
GPU
运行一个Tensorflow应用程序。是否有指南帮助我将基于塔的multiGPU培训应用程序所需的更改调整到分布式tensorflow应用程序?
浏览 4
提问于2017-10-06
得票数 0
回答已采纳
2
回答
在TensorFlow中进行多
GPU
培训的好处是什么?
、
、
、
在中,您可以使用N个
GPU
数将N个小批(每个包含M个训练样本)分发到每个
GPU
,并同时计算梯度。所以,在我看来,唯一的优势是你可以在相同的时间内使用一个更大的小型批次。(上面的教程是同步培训。如果是异步训练,那么
浏览 5
提问于2016-06-10
得票数 4
回答已采纳
2
回答
异常:设备内核映像无效
、
Version: 10.0 ||
GPU
ECC ||==============我们相信这是因为我有两个不同类型的
GPU
在我的机器上。我需要在启动omnisql
服务器
时指定一种类型的<e
浏览 5
提问于2019-04-02
得票数 0
回答已采纳
1
回答
为什么多个
GPU
被使用,即使我从终端选择一个?
、
、
我有一个
服务器
访问,它有多个
GPU
,可以同时被许多用户访问。我只从终端中选择了一个
gpu
_id,并且有这样的代码。device = "cuda:"+str(FLAGS.
gpu
_id) if torch.cuda.is_available() else "cpu" 其中FLAGS是一个解析器,解析终端中的
参数
。尽管我只选择了一个id,但我看到我使用的是两个不同的
GPU
。这会导致问题,当其他
GPU
内存几乎满时,而我的进程通过抛出&qu
浏览 5
提问于2022-09-08
得票数 0
2
回答
如何重新启动失败的amdgpu内核模块
、
、
、
、
我的视频卡不时崩溃。这是相当恼人的,但我忍受它-通常我只是重新启动图形与sudo systemctl restart lightdm.service,或如果需要,重新启动整个系统。该崩溃在dmesg中登录为[944520.212256] [<ffffffff818384d5>] schedule+0x35/0x80 [944520.212257] [<ffffffff8183b625>] schedul
浏览 0
提问于2017-03-17
得票数 12
回答已采纳
3
回答
和其他args一起使用add_done_callback吗?
、
、
这并没有为我提供我需要的东西,因为回调fn需要将未来作为唯一的
参数
。)
gpu
_queue.put(cu_device_id) future解决这一问题的一种方法是将
gpu
_queue传递给客户端: cu_device_id =
gpu
_queue.get() print("Hello
浏览 0
提问于2019-03-08
得票数 4
2
回答
tensorflow:多
GPU
与分布式tensorflow的区别
、
在代码中没有使用集群和
服务器
的情况下,我看到了一些关于多
GPU
的例子。非常感谢!
浏览 4
提问于2016-06-09
得票数 10
回答已采纳
3
回答
我怎样才能在gitlab-ci对接执行器内使用cuda?
、
、
最近,其中一个项目增加了CUDA的要求,以使
GPU
加速。我不想改变我们的管道(对接和gitlab-ci正在为我们工作),所以我想给予对接者与nvidia
GPU
交谈的能力。其他详情: 我们没有使用ubuntu或centOS,所以不能直接使用。您不能向gitlab提供--runtime
参数
,因此不能使用nvidia建议的停靠调用。编辑:实际上,你现在可以了。见 ]
浏览 2
提问于2018-12-06
得票数 6
1
回答
将主机中的
参数
平均后再发送到
参数
服务器
我正在编写代码,以便在一个集群中运行分布式同步培训,其中32台主机各有16个
GPU
。我读过本教程:和这个示例代码:在将平均梯度发送到
参数
服务器
之前,可以在每个主机中平均16个
GPU
的梯度吗?
浏览 2
提问于2016-10-25
得票数 1
回答已采纳
1
回答
在分布式tensorflow中,
参数
服务器
和主
服务器
的比例是多少?
、
假设我有10台机器,每台机器都有2个
GPU
,我想运行一个分布式TensorFlow集群。VS master应该分配多少个
参数
服务器
?
浏览 1
提问于2017-09-06
得票数 6
1
回答
腾讯云
GPU
服务器
不能联外网吗?
浏览 1228
提问于2019-05-24
1
回答
使用自定义估计器api的tensorflow代码在google cloud-ml引擎中还是在本地机器中有效地使用
gpu
?
、
、
、
、
网络是如此巨大,它应该使用大量的
gpu
,但在ml-engine的作业详细信息页面中显示,它没有使用主cpu以及
gpu
。尽管主cpu和
gpu
中的一些内存正在被使用。我使用"complex_model_s“作为主cpu,使用"standard-
gpu
”作为辅助处理器,并使用类型为"standard“的
参数
服务器
。自开始训练以来,它也不会输出任何较新的日志或检查点。为什么ml-engine不使用
gpu
,也不输出任何新的日志和检查点文件?如果我使用
浏览 3
提问于2018-07-05
得票数 0
2
回答
分布式Tensorflow,大师级培训卡住,员工不开始培训,使用SyncReplicasOptimizer和MonitoredTrainingSession?
、
、
我正在尝试使用SyncReplicaOptimizer和MonitoredTraining会话在分布式tensorflow中编写同步训练代码。这是我写的代码。从张量流记录中读取数据。我遵循了tensorflow网站中描述的确切方法。 self.modelObj = Model(self.imagesize, self.targetSize) self.global_step = tf.con
浏览 5
提问于2017-10-05
得票数 0
1
回答
工人和
参数
服务器
在分布式TensorFlow中的位置?
、
在这个中,有人提到: 低级库是否决定将变量或操作放置在何处?
浏览 3
提问于2017-05-17
得票数 4
1
回答
如何在OpenCV中使用
gpu
::Stream?
、
、
OpenCV具有封装异步调用队列的
gpu
::Stream类。某些函数使用附加的
gpu
::Stream
参数
进行重载。除了之外,OpenCV文档中几乎没有关于如何以及何时使用
gpu
::Stream的信息。例如,(我)不太清楚
gpu
::Stream::enqueueConvert或
gpu
::Stream::enqueueCopy到底做了什么,或者如何使用
gpu
::Stream作为额外的重载
参数
。我在找一些像教程一样的
gpu
::Stream概
浏览 0
提问于2013-07-25
得票数 4
回答已采纳
1
回答
tensorflow超薄多
GPU
无法工作
、
、
但是,我想使用多
GPU
,所以我设置了--num_clones=2或4,它们都不工作。结果是它们都停留在global_step/sec: 0。他们不能继续下去了。
浏览 1
提问于2017-06-24
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
被攻击怎么解决?DDoS高防IP防护策略
产品安全:短信验证码的防攻击策略
DDOS攻击选高防服务器还是高防cdn
高防服务器能防御哪些攻击
高防服务器如何防御网络攻击?
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
腾讯会议
活动推荐
运营活动
广告
关闭
领券