将数据从全局内存移动到共享内存是否会使线程停滞？

、、

在Cuda thread scheduling - latency hiding和Cuda global memory load and store中，他们说内存读取不会停止线程，直到读取的数据被使用。将其存储到共享内存是否算作“使用数据”？但是它是否使用了额外的寄存器呢？

浏览 17提问于2020-09-28得票数 1

回答已采纳

1回答

GPU合并全局内存访问与使用共享内存

如果一个线程正在访问全局内存，为什么它要访问一个很大的块？这一大块存储在哪里？如果您以合并的方式从全局内存中读取数据，那么将全局内存的公共块复制到共享内存中是有益的，还是没有任何改进。例如:如果每个线程正在读取下一个5、10或100个内存位置，并对它们进行平均，如果您可以将全局内存中的一大块

浏览 0提问于2013-06-14得票数 3

回答已采纳

2回答

复制到cuda中的共享内存

、

在CUDA编程中，如果我们想要使用共享内存，我们需要将数据从全局内存转移到共享内存。线程用于传输这样的数据。我在某处读到(在在线资源中)，最好不要涉及块中的所有线程，以便将数据从全局内存复制到共享内存。这样的想法是有意义的，不是所有的线程都一起执行。经线在一

浏览 0提问于2013-03-18得票数 6

1回答

是否值得通过共享内存传递内核参数？

、、

假设我们有一个数组int * data，每个线程将访问这个数组的一个元素。由于这个数组将在所有线程之间共享，它将保存在全局内存中。现在这些变量，只是辅助的，线程只读取它们，没有其他的。我的问题是，将这些变量转移到共享内存不是更好吗？我设想，如果我们有带有10线程的1024块，我们将需要对4字节进行10*3 = 30读取，以便将数字存储在每个块的共享</e

浏览 3提问于2013-05-25得票数 7

回答已采纳

2回答

共享内存的访问延迟

、、

以下两种情况之间的延迟较长，数据从全局内存中填充到共享内存中，所有线程访问共享内存的concurrently.the数据对于访问多个线程的情况可能是相同的。所有线程都访问全局内存，但数据是相邻的。

浏览 6提问于2012-12-08得票数 1

2回答

关于CUDA延迟隐藏机制和共享内存的问题

、

我知道要使CUDA程序高效，我们需要启动足够的线程来隐藏昂贵操作的延迟，例如全局内存读取。例如，当一个线程需要从全局内存读取时，其他线程将被调度运行，以便读取操作与线程的执行重叠。因此，CUDA程序的总体执行时间就是每个线程执行时间的总和，不包括读取全局内存的时间。但是，如果我们可以将数据放到共享内存中，并让线程</em

浏览 1提问于2012-05-18得票数 0

回答已采纳

3回答

CUDA:什么时候使用共享内存，什么时候依赖L1缓存？

、、

在计算能力2.0 (Fermi)发布后，我想知道是否还有共享内存的用例。也就是说，什么时候使用共享内存比让L1在后台执行它的魔术更好呢？共享内存只是为了让专为CC < 2.0设计的算法在不修改的情况下高效运行吗？为了通过共享内存进行协作，块中的线程写入共享内存并与__syncthreads()同步。为什么不直接写入全局内存(通过L1)，并

浏览 1提问于2012-07-01得票数 21

回答已采纳

1回答

关于CUDA内存访问的简短问题

、

嘿，假设我有一个问题，每个线程都计算一些东西(从常量内存中读取一些参数并使用它们进行计算)，然后将其存储到全局内存矩阵中。这个矩阵永远不会被读取，只是写入访问...现在是否可以先使用共享内存将所有计算值存储在全局内存中，然后再将它们写入全局内存？我认为不是，因为对全局内存的写入完全保持不变，所以对共享内

浏览 3提问于2011-05-17得票数 0

回答已采纳

3回答

单线程内的库达内存操作顺序

“数据自动化系统方案编制指南”(第5.5节)： CUDA线程从共享内存、全局</e

浏览 2提问于2014-01-18得票数 2

1回答

在CUDA中重用线程

、、

因此，我应该将数组划分为更小的数组，并将它们加载到共享内存中，然后循环处理较小的数组的数量，并(最终将最后一个数组放入内存中)。澄清一下:目前我使用了20 000个线程，全局内存中的1数组(150 an )，共享内存中的数字序列(例如: 1,2,3,4,5)，表示为数组。Thread0从cell0开始，查看全局内存中的cell0是否等于共享<em

浏览 3提问于2014-01-18得票数 1

回答已采纳

1回答

如何将全局内存中的读取与short或char类型的元素正确地合并为共享内存(假设每个元素有一个线程)？

、、

我正在编写一个CUDA内核函数，它将T类型数组从全局内存读取到共享内存中，进行一些计算，然后将T类型数组写回全局内存。我的计划是让每个线程在开始计算之前将一个元素读入共享内存，然后是__syncthreads()。在这种情况下，每个线程加载、计算和存储一个元素(尽管计算依赖于其他线程加载到共享内存中的元素)。对

浏览 0提问于2012-01-20得票数 3

回答已采纳

1回答

更好地了解数据自动化系统中的本地记忆。它住在哪里？多少钱？我想试着利用它吗？

、、

似乎我误解了本地内存，认为它访问起来很快，并且在内核中分配一个大数组将利用它，这将是一件好事。然而，经过一点谷歌搜索之后，看起来本地内存实际上是全局内存的一部分，因此访问起来会很慢。其馀部分是否被溢出并写入本地分配的全局内存空间？它的部分是否根据需要从寄存器中移进来或移出？如果我不得不在内核中多次从/写到它，那么这个缓存是否以某种方式减轻了它是全局<em

浏览 5提问于2022-05-25得票数 0

1回答

qt线程是否共享静态全局变量？

、、、、

我想知道如何与qt线程共享静态全局变量。我有一个静态全局指针test_mem，它在qt线程和主线程之间共享，并将这个指针变量初始化到数据内存位置的起始地址(我必须指向read.then )，主线程将使用相同的全局变量从指针所指向的内存位置读取数据但似乎qt线程并没有与主线程共享全局</

浏览 2提问于2019-05-29得票数 0

1回答

在CUDA中使用共享内存和常量内存

、、

然后，我希望将数组从主机传输到设备，并将其存储在共享内存中。我编写了以下代码，但与使用全局内存相比，执行时间增加了。我不明白原因是什么？另外，如果有人能帮助我使用常量内存编写这段代码，那就太好了。

浏览 1提问于2012-03-17得票数 0

3回答

数据自动化系统共享的记忆和全球记忆有什么不同？

、、、

我对如何在CUDA中使用共享和全局内存感到困惑，特别是在以下方面：全局内存是否驻留在主机或设备上？在共享内存中存储变量是否与通过内核传递其地址相同？i_ptr)；} int main() {int *i_ptr；cudaMalloc(&i_ptr，sizeof(

浏览 8提问于2012-12-30得票数 43

回答已采纳

2回答

CUDA共享内存不是比全局内存快吗？

、、、、

块中的每个线程读取idx上的数组，并将其与另一个数组进行比较，其中是我要搜索的数组。我通过两种方式做到了这一点：myAr

浏览 0提问于2012-04-21得票数 3

回答已采纳

1回答

序言:假设我在数据自动化系统中使用了NVIDIA GTX480卡。该卡的理论峰值全局内存带宽为177.4 GB/s: 384*2*1848/8 *1E9 = 177.4 GB/s。对于共享内存，可以计算出类似的数据:每组4个字节*32个组*每周期0.5个组* 1400MHz * 15 SMs =1 344 GB/s 以上因素中的数量在短信，即15。因此，达到这个最大的共享内存带宽，我需要所有15个短信读取

浏览 4提问于2012-09-10得票数 6

1回答

如何使用GPGPU有效地执行负载和位操作？

、、、、

我需要将128到256字节的数组加载到GPU共享内存中。我希望最大限度地减少全局内存访问，同时高效地执行位操作。让我们解释一下。我将一个256字节的数组加载到全局内存中，并且希望在内核代码开始时将所有256字节加载到共享内存中。问题如下：如果我加载每个线程的数组的16字节，那么我只有一个内存访问(翘曲大小)*(16字节)数据，还是最好的方式是每个线程

浏览 3提问于2014-09-27得票数 1

回答已采纳

1回答

CUDA中银行冲突与合并准入的关系

、、

我尝试将一些数据从共享内存传输到全局内存。一些连续的线程将访问一个银行(但不是相同的32位)。所以有一些银行冲突。(我使用Visual检查这一点)但是，这些数据也会被合并，然后转移到全局内存中。(我使用Visual检查这个)为什么用合并的方式将数据写入全局内存？在我看来，流多处理器一个接一个地弹出32位字(基于

浏览 8提问于2011-05-25得票数 0

4回答

CUDA共享内存-从内核减少总和

我正在处理图像立方体(450x450x1500)的大数据集。我有一个处理单个数据元素的内核。每个数据元素产生6个中间结果(浮点数)。我的代码块由1024个线程组成。这6个中间结果由每个线程存储在共享内存中(6个浮点数组)。但是，现在我需要将每个中间结果相加，以产生一个sum (6个sum值)。我没有足够的全局内存将这6个浮点数组保存到全局内存中，然后从主机代码中运

浏览 5提问于2013-09-18得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

GPU合并全局内存访问与使用共享内存

复制到cuda中的共享内存

是否值得通过共享内存传递内核参数？

共享内存的访问延迟

关于CUDA延迟隐藏机制和共享内存的问题

CUDA:什么时候使用共享内存，什么时候依赖L1缓存？

关于CUDA内存访问的简短问题

单线程内的库达内存操作顺序

在CUDA中重用线程

如何将全局内存中的读取与short或char类型的元素正确地合并为共享内存(假设每个元素有一个线程)？

更好地了解数据自动化系统中的本地记忆。它住在哪里？多少钱？我想试着利用它吗？

qt线程是否共享静态全局变量？

在CUDA中使用共享内存和常量内存

数据自动化系统共享的记忆和全球记忆有什么不同？

CUDA共享内存不是比全局内存快吗？

达到理论GPU全局存储带宽

如何使用GPGPU有效地执行负载和位操作？

CUDA中银行冲突与合并准入的关系

CUDA共享内存-从内核减少总和

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐