我最近已经测试了使用CUDA (例如,在第16页上可以找到)的缩减算法。但最后,我遇到了不使用原子性的麻烦。因此,基本上,我做每个块的和,并将其存储到共享数组中。blockIdx.x] = s_x[tdx]; //get the shared sums in global memory__syncthreads();
然后,我想把第一个x元素之和(只要我有块)当使用原子性时,它工作得很好(与cpu的<
在图像转换过程中,我试图实现一个相当简单的平均值。我已经成功地实现了转换,但是现在我必须通过将所有5x5像素矩形的所有像素相加来处理这个结果图像。我的想法是为每个这样的5x5块增加一个计数器,只要在这个块中设置一个像素。然而,到目前为止,这些块计数器的增量还不够频繁。因此,为了调试,我检查了这样一个块的像素被击中的频率:
int x = (blockIdx