CUDA C编程指南:线程和块索引计算是如何工作的？

文章/答案/技术大牛

发布

1回答

在CUDA_C_Programming_Guide、Chapter2、线程层次结构中__global__ void MatAdd(float A[N][N],float B[N][N],floatC[N][N]） int i=blockId.x*blockDim.x+threadIdx.x; C[i][j]=A[i][j]+B[i]

浏览 11提问于2017-03-01得票数 0

回答已采纳

1回答

理解GPU中多线程CUDA程序的执行模式

、

以下是我对CUDA线程执行模式的理解。如果某个特定线程满足条件，它将执行内核。通常，每个线程的索引和访问都是使用它的线程和块ID完成的。但是，当我看到下面的代码时，我就绊倒了。至于正确性，这段代码给出了完全正确的结果。= 0; c0 <= min(31, -32 * b0 + 99); c0 += 1)

浏览 0提问于2014-10-10得票数 1

回答已采纳

3回答

在使用CUDA时，如何测量每个块的执行时间？

、、

clock()不够精确。

浏览 1提问于2010-08-24得票数 4

1回答

动态并行与全局内存同步

如果我启动内核并考虑，例如，块0中的线程0，在调用__syncthreads()之后，所有其他块中的所有其他线程都会看到块0中的线程0对全局内存所做的更改吗？ void __syncthreads();等待直到线程块中的所有<e

浏览 0提问于2013-11-02得票数 2

回答已采纳

2回答

32个块中的32个线程会被调度为一个warp吗？

我知道在CUDA中，同一块中的32个相邻线程将被调度为一个warp。但是我经常发现一些教程CUDA代码有多个块，每个块有一个线程。在这个模型中，32个块中的32个线程会被调度为一个warp吗？如果没有，我可以说这个模型不如组织到每个块32个线程的效率高吗？谢谢!

浏览 0提问于2012-12-04得票数 5

回答已采纳

2回答

NVIDIA的CUDA核心和OpenCL计算单元之间有什么关系？

、、

我的电脑有一个GeForce GTX 960百万，这是由NVIDIA声称拥有640个CUDA核心。但是，当我运行clGetDeviceInfo来查找计算机中的计算单元数时，它会打印出5个(见下图)。听起来，数据自动化系统的核心与OpenCL认为的计算单元有些不同吗？或者一组数据自动化系统核心组成了一个OpenCL计算单元？你能给我解释一下吗？

浏览 0提问于2015-12-14得票数 3

回答已采纳

1回答

发现我的GPU功能

、

我试图了解我的GPU的内存组织是如何工作的。根据下面的技术规范，我的GPU可以有8个活动块/SM和768个线程/SM。基于此，我认为为了利用上面的优势，每个块应该有96个线程(=768/8)。最近的块有这么多的线程，我认为它是一个9x9块，81个线程。使用8个<

浏览 4提问于2013-10-02得票数 0

回答已采纳

1回答

使CURAND从均匀分布产生不同的随机数

、、

我试图使用CURAND库来生成从0到100之间完全独立的随机数。因此，我将时间作为每个线程的种子，并将"id =线程Idx.x+块Dim.x*块Idx.x“指定为序列和偏移量。现在，我面临的问题是，对于线程0,0和0,1得到相同的随机数，不管我运行了多少次，也就是11，我无法理解我做错了什么。请帮帮忙。WA) == 0)} pr

浏览 1提问于2012-09-17得票数 3

回答已采纳

2回答

如何正确地在CUDA中添加全局内存？

我正试图在一个作业作业中实现数据自动化系统中绝对值的总和，但却很难得到正确的结果。我得到了一个小块大小，它代表了我要比较的图像的正方形部分的X和Y的大小(以像素为单位)。我还得到了两张YUV格式的图片。下面是我必须实现的程序的部分:计算SAD的内核和网格/线程块大小的设置。程序的其余部分是提供

浏览 4提问于2013-09-25得票数 0

回答已采纳

1回答

cuda内核未执行或返回错误

、

我有一些通过一些FFT和其他数学操作运行的cuda代码，它们根据用户的请求在2^n的块上工作。代码在第一次运行时运行良好，但在运行足够长的时间后，它开始失败。我知道我必须运行处理的多次迭代才能导致错误。起初，只有较大的块大小将停止工作，但随着我运行更多的迭代，较小的块大小也将开始失败。我不确定问题出在内存上的原

浏览 0提问于2011-06-04得票数 0

回答已采纳

2回答

Cuda编程与C程序设计的比较

、、

我对cuda编程很陌生。在理解cuda代码方面，我没有什么问题。我正在从以下链接学习cuda教程：在CUDA中，本教程说它是这样做的：{} 它说，行int

浏览 7提问于2015-07-09得票数 2

回答已采纳

2回答

关于CUDA编程模型的问题

嗨，我是CUDA编程的新手，我有两个关于CUDA编程模型的问题。我的问题是： (1)为什么我们需要这样一个由线程和

浏览 5提问于2011-04-22得票数 1

回答已采纳

4回答

我有一个Nvidia图形处理器，我怎么能在上面写代码呢？

、

我从来没有真正喜欢过GPU，我不是一个游戏玩家，但我知道它们的并行能力，我想知道如何开始在一个上编程？我记得(在某个地方)有一种CUDA C风格的编程语言。

浏览 1提问于2010-10-31得票数 4

回答已采纳

2回答

基于matlab的CUDA内核中二维数组的运算

、

假设我有以下序列C：{ { a[i][j]+=b[i][j]; } }__global__ void

浏览 0提问于2012-02-02得票数 1

回答已采纳

1回答

内存要求CUDA

、

我最近写了一个非常简单的内核： if(row == -1) {+1) }基本上，它所做的是使用较大图像的值来计算缩小大小图像的像素的值在resizeKernel中的“if”中。我

浏览 1提问于2011-06-13得票数 0

回答已采纳

1回答

cuda:由多个线程写入相同的全局内存位置

我有一个内核，其中几个线程将写入位于全局内存中的相同数组位置，比如说arrayi。这里的其他相关问题给出了原子的使用和其他东西的答案。但是没有答案显示实际的cuda代码。有没有人可以向cuda代码展示arrayi，即数组在索引i的位置，是如何由几个线程原子编写的。谢谢!

浏览 0提问于2012-08-02得票数 1

回答已采纳

1回答

库达-多处理器，翘曲大小和每个块的最大线程:确切的关系是什么？

、、、

我知道在CUDA GPU上有多处理器，其中包含CUDA核心。在我的工作场所，我正在使用一个GTX 590，它包含512个CUDA核，16个多处理器，其翘曲尺寸为32。因此，这意味着每个多处理器中有32个CUDA核，它们在相同的翘曲中精确地工作在相同的代码上。最后，每个块大小的最大线程数是1024。我的问题是，块大小和多处理器计

浏览 1提问于2012-07-19得票数 24

回答已采纳

1回答

为什么这是一个无冲突的内存库访问？

、、

以下是来自CUDA C编程指南的图片：指南说，这是一个无冲突访问的例子，因为线程3、4、6、7和9访问银行5中的同一个单词。我不太明白为什么这种冲突是没有冲突的，因为不仅线程3、4、6、7和9在同一个银行中访问相同的工作(难道这不是内存冲突的一个例子吗？)而且线程5必须访问银行4。

浏览 0提问于2014-03-19得票数 6

回答已采纳

1回答

在CUDA中调用设备函数时设置块和线程数？

我有一个关于从全局CUDA内核调用设备函数的基本问题。当我要调用设备函数时，我们可以指定块和线程的数量吗？我在前面发布了一个关于最小减少()的问题，我想在另一个全局内核中调用这个函数。但是，还原代码需要某些块和线程。

浏览 0提问于2016-02-13得票数 0

回答已采纳

1回答

Opengl:最大共享内存大小小于硬件规范

、、、

然而，根据这个白皮书：因此，我希望OpenGL返回64 So的最大共享内存大小。这是错误的假设吗？如果是，为什么？

浏览 0提问于2019-10-08得票数 1

回答已采纳

点击加载更多