腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
GPU合并
全局
内存
访问与使用
共享
内存
如果一个线程正在访问
全局
内存
,为什么它要访问一个很大的块?这一大块存储在哪里? 如果您以合并的方式从
全局
内存
中读取数据,那么将
全局
内存
的公共块复制到
共享
内存
中是有益的,还是没有任何改进。例如:如果每个线程正在读取下一个5、10或100个
内存
位置,并对它们进行平均,如果您可以将
全局
内存
中的一大块X点放入
共享
内存
中,您是否可以不编写一条If语句,说明如果您正在查找这些
浏览 0
提问于2013-06-14
得票数 3
回答已采纳
1
回答
CUDA将数据从
全局
内存
中缓存到统一缓存中,以便将它们存储到
共享
内存
中?
、
、
据我所知,GPU按照以下步骤(
全局
内存
-L2-L1-寄存器-
共享
内存
)将数据存储到以前NVIDIA GPU体系结构的
共享
内存
中。但是,maxwell gpu(GTX980)物理上分离了统一缓存和
共享
内存
,我想知道这个体系结构也遵循相同的步骤将数据存储到
共享
内存
中?还是支持
全局
内存
和
共享
内存
之间的直接通信?
浏览 2
提问于2016-04-20
得票数 3
回答已采纳
3
回答
dobbs cuda博士(反转阵列)教程
我理解使用
共享
内存
的必要性,但是我没有在reverseArray_multiblock_fast.cu的代码中获得性能提升你能
浏览 0
提问于2010-08-15
得票数 2
回答已采纳
1
回答
关于CUDA
内存
访问的简短问题
、
嘿,假设我有一个问题,每个线程都计算一些东西(从常量
内存
中读取一些参数并使用它们进行计算),然后将其存储到
全局
内存
矩阵中。这个矩阵永远不会被读取,只是写入访问...现在是否可以先使用
共享
内存
将所有计算值存储在
全局
内存
中,然后再将它们写入
全局
内存
?我认为不是,因为对
全局
内存
的写入完全保持不变,所以对
共享
内存
的写入只是添加到我之前已经有的写入。谢谢!
浏览 3
提问于2011-05-17
得票数 0
回答已采纳
3
回答
数据自动化系统
共享
的记忆和全球记忆有什么不同?
、
、
、
我对如何在CUDA中使用
共享
和
全局
内存
感到困惑,特别是在以下方面:
全局
内存
是否驻留在主机或设备上?在
共享
内存
中存储变量是否与通过内核传递其地址相同?i_ptr);} int main() {int *i_ptr;cudaMalloc(&i_ptr,sizeof(int));kernel<&l
浏览 8
提问于2012-12-30
得票数 43
回答已采纳
2
回答
共享
内存
的访问延迟
、
、
以下两种情况之间的延迟较长, 数据从
全局
内存
中填充到
共享
内存
中,所有线程访问
共享
内存
的concurrently.the数据对于访问多个线程的情况可能是相同的。所有线程都访问
全局
内存
,但数据是相邻的。
浏览 6
提问于2012-12-08
得票数 1
1
回答
为什么
共享
内存
比
全局
内存
更快?
、
这种速度上的差异是因为两者都是由技术造成的(我听说
共享
内存
是一种主要是SRAM
内存
,而
全局
内存
通常是DRAM
内存
的便携存储器)吗?如果两者都是用相同的技术制造的,那将是基于
共享
内存
的片上
内存
和
全局
内存
由于额外的指令(加载指令)或
全局
内存
加载到处理器所需的额外硬件电路而产生的性能差异怎么办?
浏览 2
提问于2015-03-02
得票数 0
回答已采纳
3
回答
使用cuda-gdb检查
全局
设备
内存
我正在尝试使用cuda-gdb来检查
全局
设备
内存
。即使在cudaMemcpy之后,这些值似乎也都是零。但是,在内核中,
共享
内存
中的值是好的。有什么想法吗?cuda-gdb会检查
全局
设备
内存
吗?看起来主机
内存
和设备
共享
内存
都很好。谢谢。
浏览 2
提问于2011-07-14
得票数 7
3
回答
CUDA Global Memory,它在哪里?
、
、
我知道在CUDA的
内存
层次结构中,我们有
共享
内存
、纹理
内存
、常量
内存
、寄存器,当然还有我们使用cudaMalloc()分配的
全局
内存
。我一直在搜索我能找到的任何文档,但我还没有遇到任何明确解释什么是
全局
内存
的文档。我相信分配的
全局
内存
在显卡本身的GDDR上,而不是与CPU
共享
的RAM上,因为其中一个文档确实指出指针不能被主机端解除引用。我说的对吗?
浏览 4
提问于2012-06-24
得票数 1
回答已采纳
1
回答
用于L1缓存的库达银行冲突?
、
、
、
、
在NVIDIA的2.x体系结构中,每一次翘曲都有64 of的
内存
,默认情况下,这些
内存
被划分为48 of的
共享
内存
和16 of的L1缓存(为global和constant
内存
服务)。我们都知道访问
共享
内存
的银行冲突--
内存
被划分为32个大小为32位的银行,允许所有32个线程同时独立访问。另一方面,
全局
内存
虽然要慢得多,但不会发生银行冲突,因为
内存
请求是通过翘曲合并在一起的。问题:假设某些来自
浏览 2
提问于2013-02-21
得票数 1
回答已采纳
1
回答
如何找出GPU的
共享
内存
和
全局
内存
大小?
、
、
、
、
我想知道我的GPU的
共享
内存
和
全局
内存
大小。我正在使用nvidia特斯拉k40c。我找到了,它说标准
内存
是12 GB。标准
内存
是否与
全局
内存
相同?如何找到
共享
内存
的大小?是否有显示gpu功能的命令?我使用了nvidia-smi命令,但它没有给出有关
内存
大小的信息。如何找出
内存
大小? 谢谢
浏览 4
提问于2016-06-26
得票数 3
回答已采纳
3
回答
CUDA:什么时候使用
共享
内存
,什么时候依赖L1缓存?
、
、
在计算能力2.0 (Fermi)发布后,我想知道是否还有
共享
内存
的用例。也就是说,什么时候使用
共享
内存
比让L1在后台执行它的魔术更好呢?
共享
内存
只是为了让专为CC < 2.0设计的算法在不修改的情况下高效运行吗? 为了通过
共享
内存
进行协作,块中的线程写入
共享
内存
并与__syncthreads()同步。为什么不直接写入
全局
内存
(通过L1),并与__threadfence_blo
浏览 1
提问于2012-07-01
得票数 21
回答已采纳
2
回答
复制到cuda中的
共享
内存
、
在CUDA编程中,如果我们想要使用
共享
内存
,我们需要将数据从
全局
内存
转移到
共享
内存
。线程用于传输这样的数据。我在某处读到(在在线资源中),最好不要涉及块中的所有线程,以便将数据从
全局
内存
复制到
共享
内存
。这样的想法是有意义的,不是所有的线程都一起执行。经线在一起执行。那么,我应该使用哪些线程将数据从
全局
内存
复制到
共享
内存
呢?
浏览 0
提问于2013-03-18
得票数 6
2
回答
共享
内存
和常量
在
共享
内存
中存储常量值有什么好处吗?例如:其中A和B是数组,常量是常量值,例如4。而tid是线程索引(数组元素=单线程)。每个线程都必须读取值CONSTANT,所以
共享
内存
应该是有用的,对吧?我认为它的工作原理:从
全局
内存
读取会消耗大量时间,所以从
全局
内存
读取constatnt值一次到
共享
内存
,然后线程就可以快速读取它。因为有许多线程(常量值必须被多次读取),
浏览 2
提问于2012-06-12
得票数 3
回答已采纳
4
回答
在
共享
内存
C++中实例化对象
、
、
库的功能是访问和更新通用
全局
内存
。每个程序的函数调用都需要查看这个通用的
全局
内存
。也就是说,一个函数调用需要查看任何先前函数调用的更新,即使是从另一个程序调用。任何标准数据类型或任何类的实例都可以在本地或
全局
出现,也可以同时出现。 一种解决方案是将库的公共
全局
内存
放入命名
共享
内存
中。第一个库调用将创建命名
共享
内存
并初始化它。随后的程序调用将获取
共享
内存
的地
浏览 2
提问于2009-12-23
得票数 8
3
回答
在CUDA中,用什么指令将数据从
全局
内存
加载到
共享
内存
?
、
、
、
我目前正在学习数据自动化系统,并了解到有
全局
记忆和
共享
记忆。我检查了CUDA文档,发现GPU可以分别使用ld.shared/st.shared和ld.global/st.global指令访问
共享
内存
和
全局
内存
。我好奇的是,用什么指令将数据从
全局
内存
加载到
共享
内存
?谢谢!
浏览 32
提问于2022-11-15
得票数 5
回答已采纳
1
回答
是否值得通过
共享
内存
传递内核参数?
、
、
由于这个数组将在所有线程之间
共享
,它将保存在
全局
内存
中。我的问题是,将这些变量转移到
共享
内存
不是更好吗? 我设想,如果我们有带有10线程的1024块,我们将需要对4字节进行10*3 = 30读取,以便将数字存储在每个块的
共享
内存
中。如果没有
共享
内存
,并且每个线程必须读取所有这三个变量一次,
全局
内存
读取的总量将是1024*10*3 = 30720,这是非常低效率的。现在有个问题,我对CUDA有点陌生,
浏览 3
提问于2013-05-25
得票数 7
回答已采纳
1
回答
持久GPU
共享
内存
、
、
、
我是CUDA编程的新手,由于性能原因,我主要使用每个块的
共享
内存
。按照我现在的程序结构,我使用一个内核加载
共享
内存
,使用另一个内核读取预先加载的
共享
内存
。但是,据我所知,
共享
内存
不能在两个不同的内核之间持久。第一个解决方案:我使用一个内核,而不是使用两个内核。在加载
共享
内存
之后,内核可能等待来自主机的输入,执行操作,然后将值返回给主机。我不确定内核是否可以等待来自
浏览 1
提问于2012-06-22
得票数 1
回答已采纳
1
回答
qt线程是否
共享
静态
全局
变量?
、
、
、
、
我想知道如何与qt线程
共享
静态
全局
变量。我有一个静态
全局
指针test_mem,它在qt线程和主线程之间
共享
,并将这个指针变量初始化到数据
内存
位置的起始地址(我必须指向read.then ),主线程将使用相同的
全局
变量从指针所指向的
内存
位置读取数据但似乎qt线程并没有与主线程
共享
全局
指针。PROT_READ,MAP_SHARED,trigger_fd,offset); emit pass_test(&test_mem);
浏览 2
提问于2019-05-29
得票数 0
1
回答
两个线程如何
共享
在一个对象中声明为变量的
内存
?
、
C程序可以使用
全局
变量在父线程和子线程中执行的函数之间
共享
内存
,但具有多个对象类的Java程序没有这样的
全局
变量。两个线程如何
共享
在一个对象中声明为变量的
内存
?
浏览 0
提问于2016-02-23
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
MemVerge 推出全球首个 CXL 全局共享内存架构
MemoryFile 共享内存原理分析
Android 匿名共享内存 Ashmem 驱动浅析
C语言:内存分配---栈区、堆区、全局区、常量区和代码区
聊聊跨进程共享内存的内部工作原理
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券