GPU在令人尴尬的并行中的劣势

、

使用GPU处理令人尴尬的并行程序的缺点是什么？

浏览 13提问于2017-06-19得票数 1

回答已采纳

1回答

用于更快循环计算的Javascript库

、、

例如：我在这个脚本中只使用了一个循环，对于较大的输入值，这个循环需要很长时间。Math.pow(10,-5)) { var delta = current - wanted; 在这个脚本中，第一个执行粗略的计算，第二个执行更精细的计算。var delta = current - wanted; document.getElementById('d').in

浏览 6提问于2014-07-12得票数 0

3回答

应该使用GPU吗？

、

如果我使用GPU，我如何知道我的串行代码是否会运行得更快？我知道这取决于很多事情...也就是说，如果代码可以在SMID fation中并行，以及所有这些东西...但是，我应该考虑什么因素才能“确定”我将获得速度？算法应该是令人尴尬的并行吗？因此，如果算法的某些部分不能并行化，我不会费心去尝试GPU？我应该考虑样本输入需要多少内存吗？串行代码的“规格”是什么使它在

浏览 0提问于2011-04-14得票数 1

回答已采纳

1回答

使用多(CPU)线程的多GPU编程

、

我有一个令人尴尬的并行应用程序。是否可以启动多个CPU线程，使一个线程管理一个GPU?如果可能，我应该在CPU端使用什么线程库？OpenMP?Pthread？

浏览 1提问于2012-08-06得票数 1

回答已采纳

1回答

用GPU PyOpenCL优化python代码的不同方法:内核GPU/PyOpenCL内部的extern函数

、、、、

是否有实现GPU/OpenCL层的方法，特别是对于CubicSpline或整个Pobs_C函数。2)以前的反馈:我知道，我们不能天真地认为调用内核内部的外部函数会带来更高的速度，因为GPU可以实现很多调用，这样就不能进行优化。相反，我应该将不同函数的所有内容都放在优化中:您同意这一点并确认吗？那么，我是否可以在内核代码中声明一个对外部函数的调用(我指的是一个非内核内部的函数，即经典

浏览 4提问于2019-11-25得票数 2

回答已采纳

1回答

在python中，有没有办法在多gpu环境下令人尴尬地并行运行程序？

、

我有一个连接了4个GPU的节点。我有一段python代码，它由一个循环组成，这个循环可以进行令人尴尬的并行化。目前我的程序只使用1个GPU (我使用了一个在GPU上运行模拟的库，不支持多个GPU)。在python中有没有办法在多个GPU上运行我的代码？我想要一些类似于下面的东西，但用于GPU

浏览 29提问于2020-10-07得票数 1

1回答

如何在多个GPU上使用TensorRT运行推理？

当我运行推断时，它只使用我的一个GPU。我有两个RTX3090图形处理器。如何在多个GPU上运行推理？

浏览 9提问于2022-01-31得票数 0

1回答

python中令人尴尬的并行问题

、、、

我想用STL分解每列五次不同的频率。所以我想做的是： for column in columns: resdecomposed = np.vstack((res.trend, res.seasonal, res.resid)).T最后，分解的形状应为因为在串行实现中运行需要超过2个月。

浏览 8提问于2021-12-08得票数 1

回答已采纳

6回答

.NET中令人尴尬的可并行任务

、、

我正在处理一个问题，在这个问题上我需要执行许多令人尴尬的并行任务。任务是通过从数据库读取数据来创建的，但是--所有任务的集合--将超过机器上的内存数量，因此必须创建、处理和处理任务。我想知道解决这个问题的好办法是什么？我认为有以下两种方法：实现同步任务队列。实现从数据库读取数据并将任务放入队列的生产者(任务创建者)(将当前队列中的任务数量限制在一个恒定值，以确保不超过内存量)

浏览 13提问于2009-05-07得票数 3

回答已采纳

1回答

我有一个问题，我将有一堆nbodies每个nbodies的运动都是由现有数据预先描述的，但是当一个物体在另一个物体的范围内时，关于它的某些属性会发生变化。对于这个问题，我们假设你每个身体都有一个计数器，它计算你在其他身体周围的时间。所以基本上你从t= 0开始，你花了5秒在body 2上，所以你的t现在是5。我想知道我应该用什么方法去做，我还没有数据，但我只是想知道我是不是应该探索像CUDA/OpenCL这样的东西，或者我应该

浏览 0提问于2012-12-05得票数 2

回答已采纳

1回答

Boost - Odeint:什么是使用VexCL的并发以及如何改进它？

、、、、

我的问题与有关，它解释了如何用VexCL实现boost::odeint，以实现并发(完整的代码可以找到)。下图显示了我如何看待ODEINT的迭代：现在我扪心自问，到底是什么/或者它的哪一部分是VexCL中的并行化的？我的印象是，ODE部分是一个单一的任务，因为在给定的示例中，所有ODE方程都在一个块内。也许集成部分运行在三个并行任务中</

浏览 2提问于2020-02-11得票数 0

回答已采纳

3回答

向量化和令人尴尬的并行之间有什么关系？

在我看来，向量化与令人尴尬的并行问题密切相关。换句话说，所有可向量化的程序都必须是令人尴尬的并行程序。这是正确的吗？

浏览 0提问于2013-01-10得票数 4

1回答

Vulkan并行呈现依赖于多个队列吗？

我是Vulkan的新手，不太清楚并行渲染是如何工作的，这里有一些问题(下面提到的“队列”指的是图形队列)：是否依赖于支持多个队列的设备?如果问题1是“是”，那么如果物理设备只有一个队列，但是Vulkan抽象为4个队列(这是我的macbook的gpu的真实情况)，呈现会真的并行吗?如果问题1为“是”，那么如果Vulkan的抽象中只有一个队列，那么设备是否可以并行地

浏览 0提问于2021-08-29得票数 0

1回答

CPU和GPU操作并行化

、、、

我有一个具有三个主要功能的应用程序，目前正在按顺序运行：2)与theano一起使用GPU对数据执行一些计算。3)监视GPU上的计算状态，并将它们打印到屏幕上。通过使用多线程，这三个功能是令人尴尬的并行性。但是在python中，我依次执行这三个功能。我所要做的就是加载数据并在GPU上执行计算时对它们进行预处理，同时监视计算的</em

浏览 3提问于2013-05-27得票数 5

回答已采纳

1回答

R，改进循环，令人尴尬的并行？

、

我对R比较陌生，而且我写的代码非常非常慢。我已经开始研究向量化和令人尴尬的并行等想法，但我需要帮助来应用它们。以下是我正在编写的代码，以及我对我面临的问题的理解： p[i]<- sum(output)中选取一个值，然后遍历输出中的每一行，以查找值大于该值的列数。下面是我对这个问

浏览 3提问于2015-12-29得票数 0

1回答

如何使像素一个像素的PImage操作更快？

、、、、

我正在制作一个android应用程序，其中有一个简单的摄像头UI和一个过滤器列表来操作相机点击的图片。我使用的是Java中的处理库()，以及Processing中的Ketai库()。下面是我的程序主要运行的方式：让我们将摄像机返回的图像称为cameraImage，将空图像称为dummyImage。-<em

浏览 5提问于2020-10-20得票数 0

回答已采纳

1回答

运行GPU* - Iphone和Android中的C++代码*

、、、、

我有一个C++代码，我在IPAD设备( IPAD)中执行C++代码，它需要大约1秒的执行时间。我需要通过在GPU中运行代码来提高代码的性能。是否有可能在GPU中运行我的特定C++代码？如果可能的话，有人可以列出在GPU中运行C++代码的步骤吗？我的主要目标是将当前C++代码的性能从1秒提高到毫秒。

浏览 0提问于2013-08-16得票数 0

1回答

令人尴尬的并行代码的低性能

、、、、

我有一个非常简单的并行代码，我正在用它来学习openmp，这是令人尴尬的并行。然而，我没有得到预期的超线性或至少线性的性能提升。column, column, 1.0, MatrixA1[id], column, MatrixB[id], column, 0.0, Matrixmultiply[id], column); 在Visualstudio上，使用英特尔c++编译器Xe15.0并计算288乘以288矩阵的</e

浏览 11提问于2015-03-17得票数 0

4回答

JVM (令人尴尬的)并行处理库/工具

、、、、

我正在寻找一些东西，它将使在集群上运行(正确编码)令人尴尬的并行JVM代码变得容易(这样我就可以使用Clojure + Incanter)。我以前就用过并行Python来做这件事。我们有一个新的PBS集群，我们的管理员将很快设置使用PBS作为后端的IPython节点。这两个系统都使得在集群中运行某些类型的代码变得几乎不费吹灰之力。我犯了过去使用Hadoop的错误

浏览 46提问于2010-03-24得票数 9

回答已采纳

2回答

为什么不在GPU上进行更多的筛选？

、、、

我得到的印象是，3D游戏中的瓶颈往往来自CPU必须对GPU进行抽签调用。裁剪似乎一般是在CPU上执行，然后，对于每一个帧，CPU必须将裁剪后的场景图转移到GPU内存中进行渲染和显示。但是，为什么不能在GPU上进行剔除呢？这似乎是一个非常重复和可预测的任务，必须对每个框架进行，并将受益于并行化。为什么不将整个活动场景图存储在GPU中；让CPU只更新每个帧需要更新的内

浏览 0提问于2020-03-10得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用于更快循环计算的Javascript库

应该使用GPU吗？

使用多(CPU)线程的多GPU编程

用GPU PyOpenCL优化python代码的不同方法:内核GPU/PyOpenCL内部的extern函数

在python中，有没有办法在多gpu环境下令人尴尬地并行运行程序？

如何在多个GPU上使用TensorRT运行推理？

python中令人尴尬的并行问题

.NET中令人尴尬的可并行任务

NBody模拟--合适的设计方法

Boost - Odeint:什么是使用VexCL的并发以及如何改进它？

向量化和令人尴尬的并行之间有什么关系？

Vulkan并行呈现依赖于多个队列吗？

CPU和GPU操作并行化

R，改进循环，令人尴尬的并行？

如何使像素一个像素的PImage操作更快？

运行GPU* - Iphone和Android中的C++代码*

令人尴尬的并行代码的低性能

JVM (令人尴尬的)并行处理库/工具

为什么不在GPU上进行更多的筛选？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐