gpu可以访问malloc分配的内存吗？

文章/答案/技术大牛

发布

1回答

、、、、

我正在尝试检查GPU是否可以访问系统分配器分配的内存(例如malloc)。我使用的是CUDA10.2，文档中提到该设备应该支持pageableMemoryAccessUsesHostPageTables。但是当我在我的机器上检查它时，它返回0。

浏览 15提问于2019-12-17得票数 0

回答已采纳

2回答

CUDA:在内核中使用realloc

我知道可以在内核中使用malloc在GPU的全局内存上分配内存。是否也可以使用realloc

浏览 0提问于2011-03-16得票数 3

1回答

OpenCL全局存储器

、、

我的OpenCL内核需要几MB的输入数据，大约300 MB的临时全局内存才能工作，而且它只返回几MB。我知道给内核这个临时内存的唯一方法是用malloc分配这个内存，然后用clCreateBuffer传递它，但是将300 of复制到GPU需要一些时间，并且还需要300 of的主机内存。是否可以跳过它，或者在内核中分配全局设备内存

浏览 0提问于2013-12-15得票数 2

回答已采纳

1回答

使用计算机内存时cudaMalloc失败

、、、

会不会因为没有可用的计算机内存而导致cudaMalloc分配失败？int main() size_t N=sizeof(int)*100000000; { int *h_a= (int *)mall

浏览 1提问于2011-12-28得票数 0

回答已采纳

1回答

带有映射内存、统一虚拟寻址和统一内存的GPU内存过度订阅

、、、、

我正在考虑在GPU上处理数据的可能性，这对GPU内存来说太大了，我有几个问题。如果我正确地理解了这一点，使用映射内存，数据驻留在主内存中，并且只有在访问时才被传输到GPU，所以分配给GPU内存不应该是一个问题。 UVA类似于映射内存，但是数据可以存储在CPU和GPU内存中。但是GPU是否有可能在满有自己

浏览 3提问于2017-09-20得票数 2

回答已采纳

1回答

复制到由malloc()分配的全局内存？

、、

CUDA编程指南指出“通过malloc()分配的内存可以使用运行时复制(即，通过从设备内存调用任何复制内存函数)”，但不知何故，我在重现此功能时遇到了麻烦。("p = %p (seen by GPU)\n", p); cudaError_t err;p = 0x601f920 (seen by CPU)

浏览 1提问于2012-09-03得票数 3

回答已采纳

1回答

opencl内核中的动态全局内存分配

可以从内核动态分配全局内存吗？在数据自动化系统，这是可能的，但我想知道这是否也是可能在OpenCL上的英特尔GPU。例如：, 有可能吗？如果是的话，怎么说？

浏览 6提问于2014-08-22得票数 2

回答已采纳

3回答

主机和设备均可访问的CUDA内存分配

、

我正在尝试找出一种方法来分配主机(CPU)和设备(GPU)都可以访问的内存块。除了使用cudaHostAlloc()函数分配CPU和GPU都可以访问的页面锁定内存之外，是否还有其他方法可以分配这样的内存块？提前感谢您的评论。

浏览 3提问于2009-11-16得票数 0

回答已采纳

1回答

为什么cuda内核可以访问主机内存？

、

我直接访问cuda内核中的主机mem，没有发现错误，这是为什么？分配主机内存的大小字节，该内存是页面锁定的，并可由设备访问。驱动程序跟踪此函数分配的虚拟内存范围，并自动加速对cudaMemcpy*()等函数的调用。，因为该内存可以由设备直接访问，因此它可以以比使用mallo

浏览 6提问于2021-09-05得票数 3

回答已采纳

5回答

如果cudaMalloc()分配全局内存，那么我为什么需要cudaMemcpy()？

、

我正在学习cuda，到目前为止，我了解到cuda具有为全局对象分配内存的cudaMalloc()函数。但现在在一些矩阵乘法代码中，我看到他们正在使用另一个名为cudaMemcpy()的函数，该函数将对象从主机复制到设备，或者从主机复制到设备。但我不明白为什么需要它？由于cudaMalloc()正在分配全局内存，所以所有的设备内核都应该能够访问它，不是吗？我的误解在哪里？

浏览 1提问于2012-12-13得票数 3

1回答

分配全局内存

、

我有以下在GPU上分配全局内存的代码。__global__ void mallocTest() char* ptr = (char*)malloc(123);}所以，如果我有两个10线程的块，那么分配了20个数组(即每个线程分配内存供自己使用)？如何才能按块而不是

浏览 2提问于2012-03-22得票数 2

回答已采纳

5回答

CUDA零拷贝内存注意事项

、

是合适的。我能cudaMallocHost比GPU上有更多的空间吗？如果没有，假设我分配了我所需要的空间的1/4 (这将适合GPU)，那么使用固定内存有什么好处吗？对于使用cudaMallocHost，这种典型的使用场景正确吗： "h_p&

浏览 5提问于2011-02-15得票数 8

1回答

CUDA统一内存可以用作固定内存(统一虚拟内存)吗？

、、

如我所知，我们可以在内核内存中分配固定内存区域。(来自)但是问题是linux内核数据应该被安排为数组。但是，当节点访问下一个节点时，会发生内存访问错误。我想知道统一内存是否可以在内核内存中作为固定内

浏览 3提问于2016-03-21得票数 3

2回答

CUDA中全局内存与动态全局内存分配

、

我也有一些变量需要偶尔写入(在GPU上进行了一些简化操作之后)，并且我将其放在全局内存中。对于阅读，我将以一种简单的方式访问全局内存。我的内核在for循环中被调用，在内核的每一个调用中，每个线程都将访问完全相同的全局内存地址，没有任何偏移。在编写过程中，每次内核调用之后，GPU上都会执行约简，我必须在循环的下一次迭代之前将结果写入全局内存。然而，在我的<

浏览 4提问于2013-10-30得票数 3

回答已采纳

2回答

只有Malloc下32位地址

、、、

我在64位机上有个关于malloc的问题。我想知道malloc是否可能只从较低的32位addr分配内存。例如，只将内存从0 0xcfffffff分配给0 0xcfffffff，就像在32位计算机中那样。更新:目前，我正在尝试为使用OpenCL的GPU设备实现内存管理工具。为了做到这一点，我需要拦截从OpenCL创建API的内存

浏览 2提问于2015-01-07得票数 0

1回答

多个进程可以共享它们的堆内存吗？

、、、

据我所知，线程确实共享堆内存，但是不同的进程也可以共享一个堆吗，这是默认发生的吗？如果不是，当使用malloc时，直到堆内存耗尽，malloc操作是否只是返回堆中的下一个内存块？因为它显然没有被分配，因为只有一个进程可以访问堆，例如，假设堆内存持有1-10个地址，第一个malloc调用(对于3个字节)不需要搜

浏览 0提问于2016-06-13得票数 0

1回答

CUDA双指针内存复制

我像这样写了我的示例代码。int* Mtx_on_GPU[N];此时，段-故障int* Mtx_on_GPU[N]; cudaMemcpy(Mtx_on_GPU[i], d_ptr[i], sizeof(int)*SIZE,cudaMemcpyDeviceToHost); 此代码也有相同的

浏览 2提问于2014-05-12得票数 5

回答已采纳

2回答

我是否可以在cudaMalloc中分配比必要的内存更多的内存以避免重新分配？

、、、、

我正在编写一个代码，它使用cuSparse在GPU上执行数千个稀疏矩阵的计算。由于内存在GPU上是有限的，我需要一个一个地处理它们，因为其余的内存被其他GPU变量和密集矩阵占用。using cudaMemcpy//deallocate sparse matrix with cudaFree在上面，我分配和释放每个稀

浏览 0提问于2018-07-16得票数 0

回答已采纳

1回答

如何将cudaMalloc / cudaMemcpy用于指向包含指针的结构的指针？

、

我求助于针对我的特定案例发布一个问题。感谢您的任何/所有帮助。int rows, cols, numMat = 2;

浏览 0提问于2013-10-16得票数 0

回答已采纳

1回答

在Tegra TK1上使用malloc()与cudaHostAlloc()分配的数据的CPU内存访问延迟

、、、

我正在执行一个简单的测试，它比较使用malloc()分配的数据的访问延迟和从主机分配的cudaHostAlloc()数据( cpu正在执行访问)。我注意到访问cudaHostAlloc()分配的数据比访问Jetson Tk1上使用malloc()分配的数据要慢得多。这种情况并不适用于离散GPU</em

浏览 10提问于2015-01-15得票数 5

回答已采纳

点击加载更多