腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
gpu
可以
访问
malloc
分配
的
内存
吗
?
、
、
、
、
我正在尝试检查
GPU
是否
可以
访问
系统
分配
器
分配
的
内存
(例如
malloc
)。我使用
的
是CUDA10.2,文档中提到该设备应该支持pageableMemoryAccessUsesHostPageTables。但是当我在我
的
机器上检查它时,它返回0。
浏览 15
提问于2019-12-17
得票数 0
回答已采纳
2
回答
CUDA:在内核中使用realloc
我知道
可以
在内核中使用
malloc
在
GPU
的
全局
内存
上
分配
内存
。是否也
可以
使用realloc
浏览 0
提问于2011-03-16
得票数 3
1
回答
OpenCL全局存储器
、
、
我
的
OpenCL内核需要几MB
的
输入数据,大约300 MB
的
临时全局
内存
才能工作,而且它只返回几MB。我知道给内核这个临时
内存
的
唯一方法是用
malloc
分配
这个
内存
,然后用clCreateBuffer传递它,但是将300 of复制到
GPU
需要一些时间,并且还需要300 of
的
主机
内存
。是否
可以
跳过它,或者在内核中
分配
全局设备
内存
浏览 0
提问于2013-12-15
得票数 2
回答已采纳
1
回答
使用计算机
内存
时cudaMalloc失败
、
、
、
会不会因为没有可用
的
计算机
内存
而导致cudaMalloc
分配
失败?int main() size_t N=sizeof(int)*100000000; { int *h_a= (int *)
mall
浏览 1
提问于2011-12-28
得票数 0
回答已采纳
1
回答
带有映射
内存
、统一虚拟寻址和统一
内存
的
GPU
内存
过度订阅
、
、
、
、
我正在考虑在
GPU
上处理数据
的
可能性,这对
GPU
内存
来说太大了,我有几个问题。如果我正确地理解了这一点,使用映射
内存
,数据驻留在主
内存
中,并且只有在
访问
时才被传输到
GPU
,所以
分配
给
GPU
内存
不应该是一个问题。 UVA类似于映射
内存
,但是数据
可以
存储在CPU和
GPU
内存
中。但是
GPU
是否有可能在满有自己
浏览 3
提问于2017-09-20
得票数 2
回答已采纳
1
回答
复制到由
malloc
()
分配
的
全局
内存
?
、
、
CUDA编程指南指出“通过
malloc
()
分配
的
内存
可以
使用运行时复制(即,通过从设备
内存
调用任何复制
内存
函数)”,但不知何故,我在重现此功能时遇到了麻烦。("p = %p (seen by
GPU
)\n", p); cudaError_t err;p = 0x601f920 (seen by CPU)
浏览 1
提问于2012-09-03
得票数 3
回答已采纳
1
回答
opencl内核中
的
动态全局
内存
分配
可以
从内核动态
分配
全局
内存
吗
?在数据自动化系统,这是可能
的
,但我想知道这是否也是可能在OpenCL上
的
英特尔
GPU
。例如:, 有可能
吗
?如果是的话,怎么说?
浏览 6
提问于2014-08-22
得票数 2
回答已采纳
3
回答
主机和设备均可
访问
的
CUDA
内存
分配
、
我正在尝试找出一种方法来
分配
主机(CPU)和设备(
GPU
)都
可以
访问
的
内存
块。除了使用cudaHostAlloc()函数
分配
CPU和
GPU
都
可以
访问
的
页面锁定
内存
之外,是否还有其他方法
可以
分配
这样
的
内存
块?提前感谢您
的
评论。
浏览 3
提问于2009-11-16
得票数 0
回答已采纳
1
回答
为什么cuda内核
可以
访问
主机
内存
?
、
我直接
访问
cuda内核中
的
主机mem,没有发现错误,这是为什么?
分配
主机
内存
的
大小字节,该
内存
是页面锁定
的
,并可由设备
访问
。驱动程序跟踪此函数
分配
的
虚拟
内存
范围,并自动加速对cudaMemcpy*()等函数
的
调用。,因为该
内存
可以
由设备直接
访问
,因此它
可以
以比使用
mallo
浏览 6
提问于2021-09-05
得票数 3
回答已采纳
5
回答
如果cudaMalloc()
分配
全局
内存
,那么我为什么需要cudaMemcpy()?
、
我正在学习cuda,到目前为止,我了解到cuda具有为全局对象
分配
内存
的
cudaMalloc()函数。但现在在一些矩阵乘法代码中,我看到他们正在使用另一个名为cudaMemcpy()
的
函数,该函数将对象从主机复制到设备,或者从主机复制到设备。但我不明白为什么需要它?由于cudaMalloc()正在
分配
全局
内存
,所以所有的设备内核都应该能够
访问
它,不是
吗
? 我
的
误解在哪里?
浏览 1
提问于2012-12-13
得票数 3
1
回答
分配
全局
内存
、
我有以下在
GPU
上
分配
全局
内存
的
代码。__global__ void mallocTest() char* ptr = (char*)
malloc
(123);}所以,如果我有两个10线程
的
块,那么
分配
了20个数组(即每个线程
分配
内存
供自己使用)?如何才能按块而不是
浏览 2
提问于2012-03-22
得票数 2
回答已采纳
5
回答
CUDA零拷贝
内存
注意事项
、
是合适
的
。我能cudaMallocHost比
GPU
上有更多
的
空间
吗
?如果没有,假设我
分配
了我所需要
的
空间
的
1/4 (这将适合
GPU
),那么使用固定
内存
有什么好处
吗
?对于使用cudaMallocHost,这种典型
的
使用场景正确
吗
: "h_p&
浏览 5
提问于2011-02-15
得票数 8
1
回答
CUDA统一
内存
可以
用作固定
内存
(统一虚拟
内存
)
吗
?
、
、
如我所知,我们
可以
在内核
内存
中
分配
固定
内存
区域。(来自)但是问题是linux内核数据应该被安排为数组。但是,当节点
访问
下一个节点时,会发生
内存
访问
错误。 我想知道统一
内存
是否
可以
在内核
内存
中作为固定
内
浏览 3
提问于2016-03-21
得票数 3
2
回答
CUDA中全局
内存
与动态全局
内存
分配
、
我也有一些变量需要偶尔写入(在
GPU
上进行了一些简化操作之后),并且我将其放在全局
内存
中。 对于阅读,我将以一种简单
的
方式
访问
全局
内存
。我
的
内核在for循环中被调用,在内核
的
每一个调用中,每个线程都将
访问
完全相同
的
全局
内存
地址,没有任何偏移。在编写过程中,每次内核调用之后,
GPU
上都会执行约简,我必须在循环
的
下一次迭代之前将结果写入全局
内存
。然而,在我
的<
浏览 4
提问于2013-10-30
得票数 3
回答已采纳
2
回答
只有
Malloc
下32位地址
、
、
、
我在64位机上有个关于
malloc
的
问题。我想知道
malloc
是否可能只从较低
的
32位addr
分配
内存
。例如,只将
内存
从0 0xcfffffff
分配
给0 0xcfffffff,就像在32位计算机中那样。 更新:目前,我正在尝试为使用OpenCL
的
GPU
设备实现
内存
管理工具。为了做到这一点,我需要拦截从OpenCL创建API
的
内存
浏览 2
提问于2015-01-07
得票数 0
1
回答
多个进程
可以
共享它们
的
堆
内存
吗
?
、
、
、
据我所知,线程确实共享堆
内存
,但是不同
的
进程也
可以
共享一个堆
吗
,这是默认发生
的
吗
? 如果不是,当使用
malloc
时,直到堆
内存
耗尽,
malloc
操作是否只是返回堆中
的
下一个
内存
块?因为它显然没有被
分配
,因为只有一个进程
可以
访问
堆,例如,假设堆
内存
持有1-10个地址,第一个
malloc
调用(对于3个字节)不需要搜
浏览 0
提问于2016-06-13
得票数 0
1
回答
CUDA双指针
内存
复制
我像这样写了我
的
示例代码。int* Mtx_on_
GPU
[N];此时,段-故障int* Mtx_on_
GPU
[N]; cudaMemcpy(Mtx_on_
GPU
[i], d_ptr[i], sizeof(int)*SIZE,cudaMemcpyDeviceToHost); 此代码也有相同
的
浏览 2
提问于2014-05-12
得票数 5
回答已采纳
2
回答
我是否
可以
在cudaMalloc中
分配
比必要
的
内存
更多
的
内存
以避免重新
分配
?
、
、
、
、
我正在编写一个代码,它使用cuSparse在
GPU
上执行数千个稀疏矩阵
的
计算。由于
内存
在
GPU
上是有限
的
,我需要一个一个地处理它们,因为其余
的
内存
被其他
GPU
变量和密集矩阵占用。using cudaMemcpy//deallocate sparse matrix with cudaFree在上面,我
分配
和释放每个稀
浏览 0
提问于2018-07-16
得票数 0
回答已采纳
1
回答
如何将cudaMalloc / cudaMemcpy用于指向包含指针
的
结构
的
指针?
、
我求助于针对我
的
特定案例发布一个问题。感谢您
的
任何/所有帮助。int rows, cols, numMat = 2;
浏览 0
提问于2013-10-16
得票数 0
回答已采纳
1
回答
在Tegra TK1上使用
malloc
()与cudaHostAlloc()
分配
的
数据
的
CPU
内存
访问
延迟
、
、
、
我正在执行一个简单
的
测试,它比较使用
malloc
()
分配
的
数据
的
访问
延迟和从主机
分配
的
cudaHostAlloc()数据( cpu正在执行
访问
)。我注意到
访问
cudaHostAlloc()
分配
的
数据比
访问
Jetson Tk1上使用
malloc
()
分配
的
数据要慢得多。 这种情况并不适用于离散
GPU</em
浏览 10
提问于2015-01-15
得票数 5
回答已采纳
点击加载更多
相关
资讯
轻松教你如何在C+中,使用参数化构造函数来初始化对象数组
聊聊C语言中的malloc申请内存的内部原理
弹性内存分配在IOT中的重要性
摩尔狮:探秘 Linux 内存分配黑魔法,malloc 如何做到高效吞吐?
一天一个离职技巧之代码优化
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券