在CUDA内核中,如何将数组存储在"本地线程内存"中？ - 腾讯云开发者社区

、、、

我正在努力完成Nvidia的“CUDA Python加速计算基础”课程，并完成了重构一些代码的简单版本的任务，这些代码执行在神经网络中创建隐藏层所需的工作：fromnumba import cuda, vectorize weights = cuda.to_device(weights) normalized = <

浏览 19提问于2022-09-19得票数 1

2回答

在CUDA内核中声明变量

假设在CUDA内核中声明了一个新变量，然后在多个线程中使用它，如下所示：int i = blockIdx.x* blockDim.x + threadIdx.x;a = delt[i] + deltb[i];}int threads= 200; uint3 blocks = make_ui

浏览 3提问于2013-07-29得票数 5

回答已采纳

2回答

CUDA运行时错误:未指定的启动失败&超出范围的共享或本地地址

、

我是在1 1GB全局内存的GPU上运行这个程序的。Host Frame:/usr/lib/libcuda.so (cuLaunchKernel + 0x3dc) [0xc9edc] ========= Host Frame:/usr/local/cuda是因为设备上的全局内存不足吗？有没有办法返回设备上的内存使用情况？在源代码中，checkDevice.cu是在grid::SetSub

浏览 0提问于2013-03-13得票数 0

回答已采纳

1回答

Numbapro cuda python在gpu线程寄存器中定义数组

、、、、

我知道如何使用np.array或np.zeros或np.empty(shape, dtype)在主机中创建全局设备函数，然后使用cuda.to_device复制。另外，还可以将共享数组声明为cuda.shared.array(shape, dtype)。但是如何在gpu函数中特定线程的寄存器中创建一个恒定大小的数组。我试过cuda.device_array或np.array，但都没有用。我只想在线程</em

浏览 5提问于2014-11-28得票数 0

回答已采纳

1回答

无法使用CUDA* + MATLAB + Visual Studio检查全局内存*

、、、、

我目前正在从MEX文件中使用CUDA在MATLAB中编写代码。我在本地(x64)和CUDA上将MATLAB进程附加到Visual Studio，但是当我在内核定义中的断点处停止时，我无法检查全局内存中的值，即使我可以看到线程(本地)内存中定义的任何其他变量。如果不是，在调试内核时，我可以做些什么来检查全局<em

浏览 3提问于2016-01-28得票数 1

1回答

使用numba cuda注册数组

、

在numba cuda内核中，我知道我们可以定义本地数组和共享数组。此外，内核中的所有变量赋值都会被分配给特定线程的寄存器。可以使用numba cuda声明一个寄存器数组吗？在CUDA C内核中会用到的类似于下面的内容？ register float accumulators[32];

浏览 8提问于2019-05-13得票数 0

回答已采纳

1回答

Opencl内核本地内存

OpenCL提供的本地内存类似于cuda中的共享内存。在cuda中，我们必须使用带有共享内存的易失性，因为如果您不将共享数组声明为易失性，那么编译器可以通过在寄存器中定位它们来自由地优化共享内存中的位置。但如果线程之间相互通信，这将是一个问题。我的问题是，我们是否也必须在opencl内核中遵循

浏览 1提问于2019-07-30得票数 1

1回答

CUDA线程局部数组

我正在编写一个CUDA内核，它需要每个线程维护一个小的关联数组。我所说的小，我指的是最多8个元素的最坏情况，以及预期的两个左右的条目数量；所以没什么特别的；只有一个键数组和一个值数组，索引和插入是通过在这些数组上进行循环的方式进行的。现在我通过线程本地内存来实现这一点；这就是identifiersize；其中size是一个编译时间常数。现在我听说，在某些情况下，这个内存存储

浏览 2提问于2012-09-20得票数 1

回答已采纳

1回答

内核参数数据驻留在哪里？

、、、

与标题一样，在cuda程序中，内核参数在内核启动后、本地内存或GPU的全局内存中驻留在哪里？例如，在cuda程序的LLVM IR中：%0 = alloca int那么，在这种情况下，%0指向哪里本地内存还是全局内存？此外，我看到

浏览 1提问于2015-09-28得票数 3

回答已采纳

2回答

如果同时从多个pthread调用CUDA内核，会发生什么情况？

、

我有一个CUDA内核来完成我的繁重工作，但我也有一些繁重的工作需要在CPU中完成(同一数组的两个位置的计算)，我无法在CUDA中编写(因为CUDA线程不同步，所以我需要在一个数组的位置X上执行一个繁重的工作，然后执行zx = yx - yx - 1，其中y是CUDA内核的数组结果，其中每个线程都在这个数组的一个位置上工作，z是<

浏览 3提问于2012-10-25得票数 3

回答已采纳

3回答

在CUDA内核中，如何在“本地线程内存”中存储数组？

、、、

我正在尝试用CUDA开发一个小程序，但由于它很慢，我做了一些测试并搜索了一下。我发现，虽然单变量默认存储在本地线程内存中，但数组通常不是，我想这就是为什么它需要这么多时间来执行的原因。现在我在想:既然本地线程内存至少应该是16KB，而且我的数组就像52个字符一样长，有没有办法(语法请:)将它们存储在本地内存<e

浏览 127提问于2012-04-24得票数 31

1回答

我能否确保NVCC已设法将数组放入寄存器？

、、、

带有一些本地的固定大小数组的CUDA内核可能会被编译，使得数组驻留在线程的“本地内存”中，或者-如果NVCC可以在编译时确定每个数组访问的位置，并且有足够的寄存器可用-该数组可能会被分解，其元素驻留在寄存器中是否可以通过代码或作为构建过程的一部分，检查或确保特定的数组或内核中的所有局部数组都已装入寄存器？有没有

浏览 76提问于2018-06-04得票数 0

1回答

对于GPU上的非原子写入的弱保证？

、、、

OpenCL和CUDA已经包括了几年的原子操作(虽然显然不是每个CUDA或OpenCL设备都支持这些操作)。但是-我的问题是，由于非原子的写作，“与种族一起生活”的可能性。假设一个网格中的多个线程都写入全局内存中的相同位置。我们是否保证，当内核执行结束时，其中一个写操作的结果将出现在该位置，而不是一些垃圾？这个问题的相关参数(选择任意组合，编辑，除了已经得到答案的nVIDIA+CUDA )：内存空间:仅限于全局内存</e

浏览 0提问于2016-07-02得票数 5

4回答

CUDA共享内存-从内核减少总和

我有一个处理单个数据元素的内核。每个数据元素产生6个中间结果(浮点数)。我的代码块由1024个线程组成。这6个中间结果由每个线程存储在共享内存中(6个浮点数组)。我没有足够的全局内存将这6个浮点数组保存到全局内存中，然后从主机代码中运行一个来自推力或任何其他库的缩减。在共享内存中的数组上，有

浏览 5提问于2013-09-18得票数 2

3回答

openCL中的多维内核发布不起作用

、、

我正试图在以下三个维度中启动openCL：size_t localWorkSize[2] = {32, 32};globalWorkSize, localWorkSize,但是只有32个线程被启动还有什么方法可以找到Cuda n openCL线程的等价性？有人能帮忙吗。谢

浏览 0提问于2019-04-05得票数 1

回答已采纳

2回答

如何管理CUDA内存？

、、

(从其他人的帖子中，我认为问题与内存碎片有关)我试图理解这个问题，并意识到我有几个有关CUDA内存管理的问题。在CUDA中是否存在虚拟内存的概念?如果只允许一个内核在CUDA上同时运行，在其终止后，它所使用或分配的所有内存会被释放吗？如果没有，这些内存何时释放？如果允许多个内核在CUDA上运行，如何确保它们使

浏览 4提问于2011-12-30得票数 27

回答已采纳

1回答

使用Python和numba的CUDA内核中的数组

、、

(GPU) 回到第二步，重复，直到满足某一条件。大多数示例都非常具有说明性，但它们似乎都是这样工作的:在CPU上执行代码的主要部分，并且只在GPU上执行中间矩阵乘法等等。特别是，主机通常知道内核将要使用的所有变量。对我来说，反之亦然，我希望在GPU上执行代码的主要部分，在CPU本身上只执行一小部分步骤。我的主人根本不知道我的个别线程里发生了什么。它只管理标量列表以及

浏览 3提问于2015-10-30得票数 1

回答已采纳

1回答

cuda 4.0如何支持递归

我想知道，cuda 4.0是否支持使用本地内存或共享内存的递归？我必须自己使用全局内存来维护堆栈，因为系统级别的递归不能支持我的程序(可能是太多级别的递归)。当递归变得更深时，线程就停止工作。所以我真的想知道在CUDA中默认的递归是如何工作的，它是否使用共享内存的本地内存？谢谢!

浏览 2提问于2013-09-25得票数 4

1回答

在CUDA中使用寄存器存储器

我有一些关于cuda寄存器内存的问题。2)如果我使用设备函数，那么我在设备函数中使用的寄存器在其执行后会发生什么变化？它们是否可用于调用内核执行或其他设备功能？ 3) nvcc如何优化注册使用？请分享内存密集型内核的重要w.r.t优化要点。PS:我有一个复杂的算法来移植到

浏览 2提问于2016-10-21得票数 4

回答已采纳

2回答

是否合并了本地内存访问？

、

假设，我在CUDA内核函数中为每个线程声明了一个局部变量：另外，假设声明的变量被编译器放到一个本地内存中(就我所知，它只对一个线程可见，与全局内存相同)。我的问题是，在阅读f时，对它的访问会被合并吗？

浏览 2提问于2011-09-06得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

加速神经网络计算

在CUDA内核中声明变量

CUDA运行时错误:未指定的启动失败&超出范围的共享或本地地址

Numbapro cuda python在gpu线程寄存器中定义数组

无法使用CUDA* + MATLAB + Visual Studio检查全局内存*

使用numba cuda注册数组

Opencl内核本地内存

CUDA线程局部数组

内核参数数据驻留在哪里？

如果同时从多个pthread调用CUDA内核，会发生什么情况？

在CUDA内核中，如何在“本地线程内存”中存储数组？

我能否确保NVCC已设法将数组放入寄存器？

对于GPU上的非原子写入的弱保证？

CUDA共享内存-从内核减少总和

openCL中的多维内核发布不起作用

如何管理CUDA内存？

使用Python和numba的CUDA内核中的数组

cuda 4.0如何支持递归

在CUDA中使用寄存器存储器

是否合并了本地内存访问？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐