腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
GPU
在
令人
尴尬
的
并行
中
的
劣势
、
使用
GPU
处理
令人
尴尬
的
并行
程序
的
缺点是什么?
浏览 13
提问于2017-06-19
得票数 1
回答已采纳
1
回答
用于更快循环计算
的
Javascript库
、
、
例如:我在这个脚本
中
只使用了一个循环,对于较大
的
输入值,这个循环需要很长时间。Math.pow(10,-5)) { var delta = current - wanted; 在这个脚本
中
,第一个执行粗略
的
计算,第二个执行更精细
的
计算。var delta = current - wanted; document.getElementById('d').in
浏览 6
提问于2014-07-12
得票数 0
3
回答
应该使用
GPU
吗?
、
如果我使用
GPU
,我如何知道我
的
串行代码是否会运行得更快?我知道这取决于很多事情...也就是说,如果代码可以
在
SMID fation
中
并行
,以及所有这些东西...但是,我应该考虑什么因素才能“确定”我将获得速度?算法应该是
令人
尴尬
的
并行
吗?因此,如果算法
的
某些部分不能
并行
化,我不会费心去尝试
GPU
?我应该考虑样本输入需要多少内存吗? 串行代码
的
“规格”是什么使它在
浏览 0
提问于2011-04-14
得票数 1
回答已采纳
1
回答
使用多(CPU)线程
的
多
GPU
编程
、
我有一个
令人
尴尬
的
并行
应用程序。是否可以启动多个CPU线程,使一个线程管理一个
GPU
?如果可能,我应该在CPU端使用什么线程库?OpenMP?Pthread?
浏览 1
提问于2012-08-06
得票数 1
回答已采纳
1
回答
用
GPU
PyOpenCL优化python代码
的
不同方法:内核
GPU
/PyOpenCL内部
的
extern函数
、
、
、
、
是否有实现
GPU
/OpenCL层
的
方法,特别是对于CubicSpline或整个Pobs_C函数。2)以前
的
反馈:我知道,我们不能天真地认为调用内核内部
的
外部函数会带来更高
的
速度,因为
GPU
可以实现很多调用,这样就不能进行优化。相反,我应该将不同函数
的
所有内容都放在优化
中
:您同意这一点并确认吗?那么,我是否可以在内核代码
中
声明一个对外部函数
的
调用(我指的是一个非内核内部
的
函数,即经典
浏览 4
提问于2019-11-25
得票数 2
回答已采纳
1
回答
在
python
中
,有没有办法
在
多
gpu
环境下
令人
尴尬
地
并行
运行程序?
、
我有一个连接了4个
GPU
的
节点。我有一段python代码,它由一个循环组成,这个循环可以进行
令人
尴尬
的
并行
化。目前我
的
程序只使用1个
GPU
(我使用了一个
在
GPU
上运行模拟
的
库,不支持多个
GPU
)。
在
python中有没有办法
在
多个
GPU
上运行我
的
代码?我想要一些类似于下面的东西,但用于
GPU
浏览 29
提问于2020-10-07
得票数 1
1
回答
如何在多个
GPU
上使用TensorRT运行推理?
当我运行推断时,它只使用我
的
一个
GPU
。我有两个RTX3090图形处理器。如何在多个
GPU
上运行推理?
浏览 9
提问于2022-01-31
得票数 0
1
回答
python
中
令人
尴尬
的
并行
问题
、
、
、
我想用STL分解每列五次不同
的
频率。所以我想做
的
是: for column in columns: resdecomposed = np.vstack((res.trend, res.seasonal, res.resid)).T最后,分解
的
形状应为因为
在
串行实现
中
运行需要超过2个月。
浏览 8
提问于2021-12-08
得票数 1
回答已采纳
6
回答
.NET
中
令人
尴尬
的
可
并行
任务
、
、
我正在处理一个问题,在这个问题上我需要执行许多
令人
尴尬
的
并行
任务。任务是通过从数据库读取数据来创建
的
,但是--所有任务
的
集合--将超过机器上
的
内存数量,因此必须创建、处理和处理任务。我想知道解决这个问题
的
好办法是什么?我认为有以下两种方法: 实现同步任务队列。实现从数据库读取数据并将任务放入队列
的
生产者(任务创建者)(将当前队列
中
的
任务数量限制
在
一个恒定值,以确保不超过内存量)
浏览 13
提问于2009-05-07
得票数 3
回答已采纳
1
回答
NBody模拟--合适
的
设计方法
、
、
、
、
我有一个问题,我将有一堆nbodies每个nbodies
的
运动都是由现有数据预先描述
的
,但是当一个物体
在
另一个物体
的
范围内时,关于它
的
某些属性会发生变化。对于这个问题,我们假设你每个身体都有一个计数器,它计算你在其他身体周围
的
时间。所以基本上你从t= 0开始,你花了5秒
在
body 2上,所以你
的
t现在是5。我想知道我应该用什么方法去做,我还没有数据,但我只是想知道我是不是应该探索像CUDA/OpenCL这样
的
东西,或者我应该
浏览 0
提问于2012-12-05
得票数 2
回答已采纳
1
回答
Boost - Odeint:什么是使用VexCL
的
并发以及如何改进它?
、
、
、
、
我
的
问题与有关,它解释了如何用VexCL实现boost::odeint,以实现并发(完整
的
代码可以找到)。下图显示了我如何看待ODEINT
的
迭代: 现在我扪心自问,到底是什么/或者它
的
哪一部分是VexCL
中
的
并行
化
的
?我
的
印象是,ODE部分是一个单一
的
任务,因为在给定
的
示例
中
,所有ODE方程都在一个块内。也许集成部分运行在三个
并行
任务
中</
浏览 2
提问于2020-02-11
得票数 0
回答已采纳
3
回答
向量化和
令人
尴尬
的
并行
之间有什么关系?
在我看来,向量化与
令人
尴尬
的
并行
问题密切相关。换句话说,所有可向量化
的
程序都必须是
令人
尴尬
的
并行
程序。这是正确
的
吗?
浏览 0
提问于2013-01-10
得票数 4
1
回答
Vulkan
并行
呈现依赖于多个队列吗?
我是Vulkan
的
新手,不太清楚
并行
渲染是如何工作
的
,这里有一些问题(下面提到
的
“队列”指的是图形队列): 是否依赖于支持多个队列
的
设备?如果问题1是“是”,那么如果物理设备只有一个队列,但是Vulkan抽象为4个队列(这是我
的
macbook
的
gpu
的
真实情况),呈现会真的
并行
吗?如果问题1为“是”,那么如果Vulkan
的
抽象
中
只有一个队列,那么设备是否可以
并行
地
浏览 0
提问于2021-08-29
得票数 0
1
回答
CPU和
GPU
操作
并行
化
、
、
、
我有一个具有三个主要功能
的
应用程序,目前正在按顺序运行:2)与theano一起使用
GPU
对数据执行一些计算。3)监视
GPU
上
的
计算状态,并将它们打印到屏幕上。 通过使用多线程,这三个功能是
令人
尴尬
的
并行
性。但是
在
python
中
,我依次执行这三个功能。我所要做
的
就是加载数据并在
GPU
上执行计算时对它们进行预处理,同时监视计算
的</em
浏览 3
提问于2013-05-27
得票数 5
回答已采纳
1
回答
R,改进循环,
令人
尴尬
的
并行
?
、
我对R比较陌生,而且我写
的
代码非常非常慢。我已经开始研究向量化和
令人
尴尬
的
并行
等想法,但我需要帮助来应用它们。以下是我正在编写
的
代码,以及我对我面临
的
问题
的
理解: p[i]<- sum(output)中选取一个值,然后遍历输出
中
的
每一行,以查找值大于该值
的
列数。下面是我对这个问
浏览 3
提问于2015-12-29
得票数 0
1
回答
如何使像素一个像素
的
PImage操作更快?
、
、
、
、
我正在制作一个android应用程序,其中有一个简单
的
摄像头UI和一个过滤器列表来操作相机点击
的
图片。我使用
的
是Java
中
的
处理库(),以及Processing
中
的
Ketai库()。下面是我
的
程序主要运行
的
方式:让我们将摄像机返回
的
图像称为cameraImage,将空图像称为dummyImage。-<em
浏览 5
提问于2020-10-20
得票数 0
回答已采纳
1
回答
运行
GPU
- Iphone和Android
中
的
C++代码
、
、
、
、
我有一个C++代码,我
在
IPAD设备( IPAD)
中
执行C++代码,它需要大约1秒
的
执行时间。我需要通过
在
GPU
中
运行代码来提高代码
的
性能。 是否有可能在
GPU
中
运行我
的
特定C++代码?如果可能的话,有人可以列出在
GPU
中
运行C++代码
的
步骤吗?我
的
主要目标是将当前C++代码
的
性能从1秒提高到毫秒。
浏览 0
提问于2013-08-16
得票数 0
1
回答
令人
尴尬
的
并行
代码
的
低性能
、
、
、
、
我有一个非常简单
的
并行
代码,我正在用它来学习openmp,这是
令人
尴尬
的
并行
。然而,我没有得到预期
的
超线性或至少线性
的
性能提升。column, column, 1.0, MatrixA1[id], column, MatrixB[id], column, 0.0, Matrixmultiply[id], column);
在
Visualstudio上,使用英特尔c++编译器Xe15.0并计算288乘以288矩阵
的</e
浏览 11
提问于2015-03-17
得票数 0
4
回答
JVM (
令人
尴尬
的
)
并行
处理库/工具
、
、
、
、
我正在寻找一些东西,它将使
在
集群上运行(正确编码)
令人
尴尬
的
并行
JVM代码变得容易(这样我就可以使用Clojure + Incanter)。 我以前就用过
并行
Python来做这件事。我们有一个新
的
PBS集群,我们
的
管理员将很快设置使用PBS作为后端
的
IPython节点。这两个系统都使得
在
集群
中
运行某些类型
的
代码变得几乎不费吹灰之力。我犯了过去使用Hadoop
的
错误
浏览 46
提问于2010-03-24
得票数 9
回答已采纳
2
回答
为什么不在
GPU
上进行更多
的
筛选?
、
、
、
我得到
的
印象是,3D游戏中
的
瓶颈往往来自CPU必须对
GPU
进行抽签调用。裁剪似乎一般是
在
CPU上执行,然后,对于每一个帧,CPU必须将裁剪后
的
场景图转移到
GPU
内存中进行渲染和显示。但是,为什么不能在
GPU
上进行剔除呢?这似乎是一个非常重复和可预测
的
任务,必须对每个框架进行,并将受益于
并行
化。为什么不将整个活动场景图存储
在
GPU
中
;让CPU只更新每个帧需要更新
的
内
浏览 0
提问于2020-03-10
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
浅谈CPU 并行编程和 GPU 并行编程的区别
GPU在联邦机器学习中的探索
多GPU环境下的卷积神经网络并行算法
WhatsApp 不再出现令人尴尬的拼写错误
Shell中的并行计算
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券