CUDA循环中的空间局部性

、、、

我正在阅读更简单的CUDA简介，我在想这样的例子：void add(int n, float *x, float *y) int index = threadIdx.x;在正常的CPU计算中，人们宁愿将数组拆分为连续的子数组，这些子数组在线程之间拆分，以便每个线程都能更好地利用空间局部性。这个概念是否也适用于CUDA的统一内存？我想知道在这种情况下最有效的方法是什么。

浏览 8提问于2021-05-20得票数 0

回答已采纳

1回答

分析代码的空间和时间局部性

、、

我有一些关于空间和时间局部性的问题。我在课程论中读到过如果引用了一项，则很快就会引用附近其他地址的可能性某一项在某个时间点被引用，很快就会再次被引用。我想我理解了时间局部性的概念，但我还不理解空间局部性。例如，在此循环中 for(j = 0; j < 10; j++)当访问ai十次时，内部循环将调用相同的内存地址，所以我想这是时

浏览 3提问于2010-11-04得票数 6

回答已采纳

3回答

现实生活代码中时空局部性的混淆

、、、

我读了这个，我想问更多关于他展示的代码，比如 for(j = 0; j < 10; j++)问题是，“当访问ai 10次时，内环将调用相同的内存地址，所以我想这是一个时间

浏览 2提问于2011-10-18得票数 18

回答已采纳

1回答

使用CUDA纹理存储二维表面

、、

我目前正在开发一个三维热流模拟的三维三角网格(基本上任何形状)与数据自动化系统。我可以使用三维纹理的多边形网格吗？说得通吗？如果没有，在CUDA中是否有其他用于我的案例的方法或数据结构？

浏览 3提问于2014-01-17得票数 2

1回答

多维CUDA块网格的动因

我和提出的问题基本上是一样的。我要特别提及这一最后答复：使用CUDA的多维网格来完成这项工作任务是否对性能有好处？在这种情况下，我不认为是这样的，因为您可以自己在内

浏览 0提问于2016-05-03得票数 2

6回答

阵列的时间局部性与空间局部性

、、、

我对空间和时间局部性的含义有点困惑。我希望通过一个数组示例来帮助我更好地理解它。这是否证明了时间局部性？我看到同一行被访问了很多次，但是在不同的偏移量上...这是否意味着访问了不同的地址？演示空间局部性？希望一些关于时间和空间局部性如何在真实代码中工作的澄清将帮助我更好地理解它们。

浏览 2提问于2013-04-30得票数 35

回答已采纳

1回答

给定代码段中引用的时间和空间局部性的所有出现

、、、

我读过关于空间和时态定位的文章。时态局部性：程序经常重复访问相同的内存位置。现在，我将分析以下代码，以查找引用的时间和空间局部性。所有这一切的指令都存储在内存中的彼此之间。用于索引每个a的数组基a[i]。j由赋值a[i] = j++中的

浏览 2提问于2017-03-30得票数 0

回答已采纳

3回答

CUDA -从GPU分配常量/纹理内存

、、

我应该用CUDA写一段代码，在递归循环中计算一个数组。有可能在它之前预先计算这个递归循环的一些中间步骤，即分配一些常数数组和标量，这将避免循环中的一些计算。但是，我找到的几个示例代码说明了如何从主机分配常量内存。是否有可能从GPU分配一些常量内存，即在那里计算它的值(就像我们对全局内存所做的那样)？你能提供一个示例代码吗？有没有一些关于如何从GPU分配内存的示例代码？

浏览 7提问于2013-01-28得票数 1

回答已采纳

1回答

我已经创建了两个类: SparseMatrix和Matrix，它们将数据存储为指向向量的共享指针的向量。根据bool属性的值，它们都可以是基于行或列的。现在我正试着在这两个矩阵之间写一个标准乘积的有效版本。在第一个实现中，我只考虑第一个矩阵是基于行的SparseMatrix和第二个是基于列的矩阵的情况。我通过重载操作符*将代码写入SparseMatrix类。，我不能理解的是，如果我改变了2循环的顺序，性能会快得多。

浏览 0提问于2015-01-10得票数 1

2回答

cudaArray与设备指针

、、

我对设备指针和cudaArray结构的预期用途之间的区别感到困惑。有人能解释一下为什么我要用一个而不是另一个吗？我的基本问题是，在阅读了文档和"CUDA by Example“一书之后，我不理解API设计人员的意图。在我看来，cudaArray应该用于纹理，而指针应该用于直接访问内存。另外，为什么有一个函数cudaMallocArray和cudaMallocArray3D，而cudaMallocArray2D没有对应的函数？

浏览 0提问于2013-01-22得票数 13

回答已采纳

1回答

CUDA中的纹理记忆:演示性能的概念和简单示例

我正在阅读的NVIDIA白皮书名为由西蒙格林。在讨论代码的性能时，作者说，粒子的位置和速度的全局记忆阵列“绑定”于纹理。可以提供/推荐给我一个非常简单的示例(虚拟人的纹理内存)，说明纹理是如何使

浏览 2提问于2012-01-07得票数 19

回答已采纳

1回答

pytorch model.cuda()运行时错误

我正在使用pytorch构建文本分类器，并在使用.cuda()方法时遇到了麻烦。我知道.cuda()会将所有参数移动到gpu中，这样训练过程就会更快。但是，在.cuda()方法中发生了如下错误： 148 149 def cpu(self, d

浏览 1提问于2018-01-23得票数 1

回答已采纳

1回答

多维内核执行的CUDA动机

、、

CUDA将其划分为块是合乎逻辑的，因为它反映了硬件(单个执行单元中的一些执行线程，全部位于同一个“块”中)。然而，当我看到图像处理算法的实现时，还不完全清楚为什么我应该有2D块网格，每个块都是一个2D线程网格。为什么1D不行？毕竟，内核调用通常只是将图像看作一个线性的一维像素数组，并且必须通过乘以列中通常的行*列+偏移量来计算其全局索引。一种猜测是空间局部性。我们通常根据像素周围的像素来计算像素，所以2D线程网格确保所有相邻的像素都

浏览 2提问于2013-12-06得票数 1

回答已采纳

1回答

CUDA:纹理内存对于加快计算功能2.x和更新的访问时间仍然有用吗？

我正在编写一个图像处理应用程序，在该应用程序中，我必须以非合并的方式获取像素数据。由于Comput1.x硬件没有缓存，因此每个SM的纹理内存6-8K提供了在此类设备上真正缓存数据的唯一方法。然而，随着费米及其高达48K的L1缓存和高达768 K的共享L2缓存<em

浏览 1提问于2013-10-30得票数 11

回答已采纳

1回答

在cuda代码中循环

、

我运行了一些CUDA代码来更新一组浮点数。我有一个包装器函数，就像这个问题在中讨论的那样。在我的CUDA函数中，我创建了一个for循环，如下所示...for(int i=0;i<X;i++) //code here现在的问题是，如果X等于1000000，一切都很好，但是如果X等于100，我的向量就不会更新(几乎就像for循环中的代码不会被执行一样)。现在在包装

浏览 1提问于2012-03-01得票数 0

回答已采纳

2回答

为什么下面程序的纹理内存版本比全局内存版本慢

、、

我很困惑为什么我的纹理版本比我的全局内存版本慢，因为纹理版本应该利用空间局部性。在下面的例子中，我正在尝试计算点积。因此，如果一个线程访问索引i，它的邻居应该访问i+1。因此，我们可以看到空间局部性。以下是纹理内存版本：#include<cuda.h>#include<stdlib.h> #define intMincudaUnbin

浏览 2提问于2011-07-10得票数 1

1回答

允许在运行Ubuntu16.04的VirtualBox中开发CUDA

、、

我想做一个Ubuntu16.04虚拟盒客户的CUDA开发。没有必要实际运行构建的应用程序，它只需要编译。我使用命令sudo apt install cuda-9-2安装了CODA-9-2，但是这也安装了nvidia-396驱动程序，这是CUDA 9.2中的一个依赖项。重新启动后，它处于一个永无止境的循环中，试图使用已安装的nvidia驱动程序启动显示管理器，这当然会失败，因为没有实际的NVIDIA硬件可用。显示管理器

浏览 0提问于2018-09-14得票数 2

1回答

如何使用numba在内核内分配数组？

、、

我试图在内核内部的for循环中分配一些数组。=threadsInBlock*cuda.gridDim.x tiles=p_num/cuda.blockDim.x + 1 shared_p_my = <

浏览 3提问于2020-03-28得票数 0

1回答

循环中的cuda线程

、、

这是一个非常普遍的问题，如果有人有这方面的经验，那就太好了。每次(在内核中)我都想在while循环中使用线程，例如：tidy = threadIdx.y + blockIdx.ywhile(i<70) { //calculations to get a desired array} 我的程序死机了我开始觉

浏览 2提问于2013-01-10得票数 0

4回答