腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将
数据
从
全局
内存
移
动到
共享
内存
是否
会使
线程
停滞
?
、
、
在Cuda thread scheduling - latency hiding和Cuda global memory load and store中,他们说
内存
读取不会停止
线程
,直到读取的
数据
被使用。将其存储到
共享
内存
是否
算作“使用
数据
”?但是它
是否
使用了额外的寄存器呢?
浏览 17
提问于2020-09-28
得票数 1
回答已采纳
1
回答
GPU合并
全局
内存
访问与使用
共享
内存
如果一个
线程
正在访问
全局
内存
,为什么它要访问一个很大的块?这一大块存储在哪里? 如果您以合并的方式
从
全局
内存
中读取
数据
,那么
将
全局
内存
的公共块复制到
共享
内存
中是有益的,还是没有任何改进。例如:如果每个
线程
正在读取下一个5、10或100个
内存
位置,并对它们进行平均,如果您可以
将
全局
内存
中的一大块
浏览 0
提问于2013-06-14
得票数 3
回答已采纳
2
回答
复制到cuda中的
共享
内存
、
在CUDA编程中,如果我们想要使用
共享
内存
,我们需要将
数据
从
全局
内存
转移到
共享
内存
。
线程
用于传输这样的
数据
。我在某处读到(在在线资源中),最好不要涉及块中的所有
线程
,以便
将
数据
从
全局
内存
复制到
共享
内存
。这样的想法是有意义的,不是所有的
线程
都一起执行。经线在一
浏览 0
提问于2013-03-18
得票数 6
1
回答
是否
值得通过
共享
内存
传递内核参数?
、
、
假设我们有一个数组int * data,每个
线程
将
访问这个数组的一个元素。由于这个数组将在所有
线程
之间
共享
,它将保存在
全局
内存
中。现在这些变量,只是辅助的,
线程
只读取它们,没有其他的。 我的问题是,
将
这些变量转移到
共享
内存
不是更好吗?我设想,如果我们有带有10
线程
的1024块,我们
将
需要对4字节进行10*3 = 30读取,以便
将
数字存储在每个块的
共享</e
浏览 3
提问于2013-05-25
得票数 7
回答已采纳
2
回答
共享
内存
的访问延迟
、
、
以下两种情况之间的延迟较长,
数据
从
全局
内存
中填充到
共享
内存
中,所有
线程
访问
共享
内存
的concurrently.the
数据
对于访问多个
线程
的情况可能是相同的。所有
线程
都访问
全局
内存
,但
数据
是相邻的。
浏览 6
提问于2012-12-08
得票数 1
2
回答
关于CUDA延迟隐藏机制和
共享
内存
的问题
、
我知道要使CUDA程序高效,我们需要启动足够的
线程
来隐藏昂贵操作的延迟,例如
全局
内存
读取。例如,当一个
线程
需要从
全局
内存
读取时,其他
线程
将被调度运行,以便读取操作与
线程
的执行重叠。因此,CUDA程序的总体执行时间就是每个
线程
执行时间的总和,不包括读取
全局
内存
的时间。但是,如果我们可以
将
数据
放到
共享
内存
中,并让
线程</em
浏览 1
提问于2012-05-18
得票数 0
回答已采纳
3
回答
CUDA:什么时候使用
共享
内存
,什么时候依赖L1缓存?
、
、
在计算能力2.0 (Fermi)发布后,我想知道
是否
还有
共享
内存
的用例。也就是说,什么时候使用
共享
内存
比让L1在后台执行它的魔术更好呢?
共享
内存
只是为了让专为CC < 2.0设计的算法在不修改的情况下高效运行吗? 为了通过
共享
内存
进行协作,块中的
线程
写入
共享
内存
并与__syncthreads()同步。为什么不直接写入
全局
内存
(通过L1),并
浏览 1
提问于2012-07-01
得票数 21
回答已采纳
1
回答
关于CUDA
内存
访问的简短问题
、
嘿,假设我有一个问题,每个
线程
都计算一些东西(
从
常量
内存
中读取一些参数并使用它们进行计算),然后将其存储到
全局
内存
矩阵中。这个矩阵永远不会被读取,只是写入访问...现在
是否
可以先使用
共享
内存
将
所有计算值存储在
全局
内存
中,然后再将它们写入
全局
内存
?我认为不是,因为对
全局
内存
的写入完全保持不变,所以对
共享
内
浏览 3
提问于2011-05-17
得票数 0
回答已采纳
3
回答
单
线程
内的库达
内存
操作顺序
“
数据
自动化系统方案编制指南”(第5.5节): CUDA
线程
从
共享
内存
、
全局</e
浏览 2
提问于2014-01-18
得票数 2
1
回答
在CUDA中重用
线程
、
、
因此,我应该
将
数组划分为更小的数组,并将它们加载到
共享
内存
中,然后循环处理较小的数组的数量,并(最终将最后一个数组放入
内存
中)。澄清一下:目前我使用了20 000个
线程
,
全局
内存
中的1数组(150 an ),
共享
内存
中的数字序列(例如: 1,2,3,4,5),表示为数组。Thread0
从
cell0开始,查看
全局
内存
中的cell0
是否
等于
共享
<em
浏览 3
提问于2014-01-18
得票数 1
回答已采纳
1
回答
如何
将
全局
内存
中的读取与short或char类型的元素正确地合并为
共享
内存
(假设每个元素有一个
线程
)?
、
、
我正在编写一个CUDA内核函数,它将T类型数组
从
全局
内存
读取到
共享
内存
中,进行一些计算,然后
将
T类型数组写回
全局
内存
。我的计划是让每个
线程
在开始计算之前
将
一个元素读入
共享
内存
,然后是__syncthreads()。在这种情况下,每个
线程
加载、计算和存储一个元素(尽管计算依赖于其他
线程
加载到
共享
内存
中的元素)。对
浏览 0
提问于2012-01-20
得票数 3
回答已采纳
1
回答
更好地了解
数据
自动化系统中的本地记忆。它住在哪里?多少钱?我想试着利用它吗?
、
、
似乎我误解了本地
内存
,认为它访问起来很快,并且在内核中分配一个大数组
将
利用它,这将是一件好事。然而,经过一点谷歌搜索之后,看起来本地
内存
实际上是
全局
内存
的一部分,因此访问起来会很慢。其馀部分
是否
被溢出并写入本地分配的
全局
内存
空间?它的部分
是否
根据需要从寄存器中
移
进来或移出?如果我不得不在内核中多次
从
/写到它,那么这个缓存
是否
以某种方式减轻了它是
全局
<em
浏览 5
提问于2022-05-25
得票数 0
1
回答
qt
线程
是否
共享
静态
全局
变量?
、
、
、
、
我想知道如何与qt
线程
共享
静态
全局
变量。我有一个静态
全局
指针test_mem,它在qt
线程
和主
线程
之间
共享
,并将这个指针变量初始化到
数据
内存
位置的起始地址(我必须指向read.then ),主
线程
将使用相同的
全局
变量
从
指针所指向的
内存
位置读取
数据
但似乎qt
线程
并没有与主
线程
共享
全局</
浏览 2
提问于2019-05-29
得票数 0
1
回答
在CUDA中使用
共享
内存
和常量
内存
、
、
然后,我希望
将
数组
从
主机传输到设备,并将其存储在
共享
内存
中。我编写了以下代码,但与使用
全局
内存
相比,执行时间增加了。我不明白原因是什么?另外,如果有人能帮助我使用常量
内存
编写这段代码,那就太好了。
浏览 1
提问于2012-03-17
得票数 0
3
回答
数据
自动化系统
共享
的记忆和全球记忆有什么不同?
、
、
、
我对如何在CUDA中使用
共享
和
全局
内存
感到困惑,特别是在以下方面:
全局
内存
是否
驻留在主机或设备上?在
共享
内存
中存储变量
是否
与通过内核传递其地址相同?i_ptr);} int main() {int *i_ptr;cudaMalloc(&i_ptr,sizeof(
浏览 8
提问于2012-12-30
得票数 43
回答已采纳
2
回答
CUDA
共享
内存
不是比
全局
内存
快吗?
、
、
、
、
块中的每个
线程
读取idx上的数组,并将其与另一个数组进行比较,其中是我要搜索的数组。我通过两种方式做到了这一点:myAr
浏览 0
提问于2012-04-21
得票数 3
回答已采纳
1
回答
达到理论GPU
全局
存储带宽
、
、
、
、
序言:假设我在
数据
自动化系统中使用了NVIDIA GTX480卡。该卡的理论峰值
全局
内存
带宽为177.4 GB/s: 384*2*1848/8 *1E9 = 177.4 GB/s。对于
共享
内存
,可以计算出类似的
数据
:每组4个字节*32个组*每周期0.5个组* 1400MHz * 15 SMs =1 344 GB/s 以上因素中的数量在短信,即15。因此,达到这个最大的
共享
内存
带宽,我需要所有15个短信读取
浏览 4
提问于2012-09-10
得票数 6
1
回答
如何使用GPGPU有效地执行负载和位操作?
、
、
、
、
我需要将128到256字节的数组加载到GPU
共享
内存
中。我希望最大限度地减少
全局
内存
访问,同时高效地执行位操作。让我们解释一下。我
将
一个256字节的数组加载到
全局
内存
中,并且希望在内核代码开始时
将
所有256字节加载到
共享
内存
中。问题如下: 如果我加载每个
线程
的数组的16字节,那么我只有一个
内存
访问(翘曲大小)*(16字节)
数据
,还是最好的方式是每个
线程
浏览 3
提问于2014-09-27
得票数 1
回答已采纳
1
回答
CUDA中银行冲突与合并准入的关系
、
、
我尝试
将
一些
数据
从
共享
内存
传输到
全局
内存
。一些连续的
线程
将
访问一个银行(但不是相同的32位)。所以有一些银行冲突。(我使用Visual检查这一点)但是,这些
数据
也会被合并,然后转移到
全局
内存
中。(我使用Visual检查这个)为什么用合并的方式
将
数据
写入
全局
内存
?在我看来,流多处理器一个接一个地弹出32位字(基于
浏览 8
提问于2011-05-25
得票数 0
4
回答
CUDA
共享
内存
-
从
内核减少总和
我正在处理图像立方体(450x450x1500)的大
数据
集。我有一个处理单个
数据
元素的内核。每个
数据
元素产生6个中间结果(浮点数)。我的代码块由1024个
线程
组成。这6个中间结果由每个
线程
存储在
共享
内存
中(6个浮点数组)。但是,现在我需要将每个中间结果相加,以产生一个sum (6个sum值)。我没有足够的
全局
内存
将
这6个浮点数组保存到
全局
内存
中,然后
从
主机代码中运
浏览 5
提问于2013-09-18
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
并发编程-java多线程总结大纲
揭秘Tensor Core黑科技:如何让AI计算速度飞跃
一文揭开 NVIDIA CUDA 神秘面纱
GPU事务性内存技术研究
监控视频帧间篡改检测系统设计与性能优化研究
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券