推力：：reduce的sum值不正确

、、、、

我一直在尝试实现一些需要在thrust::device_ptr上调用reduce的代码，在处理大值时，结果与CPU实现的结果不一致。我必须处理较大的值。= thrust::reduce(dev_ptr, dev_ptr+NZ*NX, 0, thrust::plus<real>()); cout<<"\nsum gpu "<< sum1<<

浏览 20提问于2021-01-27得票数 0

回答已采纳

1回答

推力对阵列缩减非常缓慢。

、、、、

我试图使用推力将包含1M元素的数组缩减为单个值。sum = thrust::reduce(D.begin(),D.end(),(float)0,thrust::plus<float>());} 问题是，仅在我的RTX 3070笔记本电脑GPU上运行thrust::reduce就需要大约4ms。推力:减少现在需要2ms来运行。<flo

浏览 8提问于2022-03-18得票数 0

回答已采纳

1回答

利用内核内推力进行CUDA约简

、、、

我想做并行缩减，但是在我的内核中，数据在共享内存中。有没有可能使用推力库？就像这样但这在内核中是行不通的。

浏览 3提问于2012-04-16得票数 0

回答已采纳

1回答

我试图使用推力库找到数组的总和(已经存在于CUDA内存中)。这里很少有回复说，通过使用thrust::device_ptr包装它是可能的，但是它正在为我抛出一个错误。= thrust::reduce(vec.begin(), vec.end());thrust::device_ptr<unsigned int> outputPtrEnd((d_output + stride + (rows * cols))); sum</em

浏览 1提问于2014-10-28得票数 0

回答已采纳

1回答

推力减少不适用于不相等的输入/输出类型

、

我试图用推力来减少一组值的最小和最大值，但我似乎被卡住了。给定一个浮点数组，我希望在一次遍历中减少它们的最小和最大值，但是使用推力的reduce方法，我得到了所有模板编译错误的母亲(或者至少是姑妈)。我的原始代码包含分布在2个float4数组中的5个值列表，我希望减少这些值，但我已经将其简化为这个简短的示例。我的</em

浏览 0提问于2012-05-11得票数 1

回答已采纳

2回答

请帮助我调试有关Javascript中for/in的错误。

var courses = [1, 2, 3, 4]; var sum; return total + number;该程序用于定义reduce2函数，计算数组中<em

浏览 4提问于2021-02-07得票数 1

回答已采纳

1回答

在调用其他CUDA函数后使用thrust::reduce

、

在使用我自己的CUDA函数之后，我正在尝试调用一个CUDA：：reduce函数。下面是问题：如果我在我的CUDA函数之前使用just：：reduce(只是为了测试)，一切都很好，没有错误，没有抛出。但是，如果在运行我的CUDA函数后调用CUDA：：reduce，则会弹出一条消息： cudaErrorLaunchOutOfResources(7): [.../dispatch_reduce.cuh, 646]: too many resources requ

浏览 63提问于2020-04-13得票数 0

2回答

这样的事情在CUDA中是可能的吗

、、、

比方说，我有一个值为0或1的矩阵。} { }所以我最终得到了矩阵中的n我知道，这是一个非常简单的例子，但是如果这是可能的，那么还有其他的变种...

浏览 0提问于2014-03-21得票数 0

3回答

CUDA推力大幅度降低

、

我有一个具有这种结构的顶点数组： [x0, y0, z0, empty float, x1, y1, z1, empty float, x2, y2, z2, empty float, ...]我写了一个适当的约简算法，但它似乎有点太慢了。我决定使用推力库。有一种高度优化的reduce() (甚至更好的minmax_element() )方法，它可以同时找到数组的最大值和最小值，但我无法找到一种快速使用的方法--然后

浏览 3提问于2014-07-20得票数 5

回答已采纳

1回答

推力输出的位置：：减少操作(GPU RAM或CPU RAM)？

、、、

在下面的示例中，当我们使用推力：：还原时，输出是一个int。此输出(代码中的和变量)是否位于GPU或CPU上？#include <thrust/execution_policy.h>{ thrust::device_vector<int>

浏览 0提问于2018-11-21得票数 0

回答已采纳

1回答

为什么不减少工作呢？

在Hadley的书“Advanced”中有两个函数Reduce()的例子，它们都工作得很好。Reduce(`+`, 1:3) # -> ((1 + 2) + 3)但是，当在mean中使用Reduce()时，它并不遵循相同的模式结果总是列表中的第一个元素。 > Reduce(mean,

浏览 1提问于2016-02-23得票数 4

回答已采纳

1回答

与推力相似的幼崽模板

、、、、

以下是主旨代码：在这里，thrust::reduce接受第一个和最后一个输入迭代器，推力将值返回给CPU(复制到h_in_value)。作为输入的第一迭代器和最后迭代器将结果返回到主机

浏览 7提问于2017-05-11得票数 2

回答已采纳

1回答

CUDA gdb推力碰撞(CUDA第5.5版)

、

我有以下一些琐碎的要点：：from程序(直接摘自thrust：：from文档)#include <thrust/device_vector.h>我还做了相应的扩展其中，只有最后三个(in

浏览 1提问于2013-07-17得票数 0

回答已采纳

1回答

不使用device_vectors的Cuda推力？

、、

我已经使用普通的CUDA代码编写了内核，这些代码不使用推力设备矢量。内核输出一些存储在设备上的数组中的结果，比如数组X。现在我想对X进行一次约简。有没有一种方法可以在不先将X复制到thrust::device_vector变量中的情况下使用into：：device函数？

浏览 2提问于2016-05-08得票数 1

1回答

推力/库达reduce_by_key误差？

、、

我面临着reduce_by_key函数的推力库的问题。在我看来，这好像是个窃听器，但我想在报告之前先确认一下。. 7、8、9、6 现在，我确信，dev

浏览 2提问于2015-08-12得票数 1

回答已采纳

1回答

采用binary_function和多种类型降低推力

、

如何使用具有多种类型的binary_functions使用推力降低？在我的例子中，我有一个结构FaceUV，它有一个成员‘距离’。我想用距离来数所有的FaceUV != 0。我该怎么做？我以为是这样的，但它没有编译： struct FaceHasUVCmp : public thrust::binary_function<FaceUV, uint32_t, uint32_t> {get_percent_of_FACES_with_UVs(thrust::device_ptr<FaceUV> face

浏览 2提问于2017-03-01得票数 0

回答已采纳

2回答

CUDA在共享内存中查找最大值

、、、、

我有一个内核，它生成一个结果值数组，我希望高效地找到这些值的最大值。数组是在内核的开头用一些负值(例如-1)初始化的。例如，内核使用5个块执行，每个块有256个线程。以下是问题所在：因为我的数据，我必须终止线程，这是无效的，所以我有时使用256个线程，有时是50，20个等等。在共享内存中，从块写入结果，但正如我所提到的，一些数组有50个结果，一些有256个结果.(共享数组如下所示) 8,6,4,9,1，-1，-1，-1.在这种情

浏览 2提问于2012-04-19得票数 0

回答已采纳

3回答

不带Jquery的数组之和

、

现在我已经研究过.reduce了但这是一个运行错误。我也想我可以试着做我自己的计数器... var sum = 0; sum+= array[i]; return sum;但即使这样做对我也不

浏览 1提问于2016-11-12得票数 3

1回答

cuda: cpu和gpu减少的不同答案

、

我犯了个很奇怪的错误。我用推力缩减法对矩阵中的所有元素进行了求和。它对大多数数据运行良好，但在一组数据上出错了。代码： thrust::device_ptr<lbfgsfloatval_t> ptr(A.getPtron host sums += A_p[i]; //

浏览 5提问于2013-09-24得票数 2

回答已采纳

1回答

我可以用CUDA幼崽迭代器代替推力吗？

、、、

是否有可能使用迭代器与幼崽一样的推力？我不想用幼崽代替推力，如下所示： float resultat = 0; resultat = thrust::reduceresult

浏览 3提问于2018-10-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

推力对阵列缩减非常缓慢。

利用内核内推力进行CUDA约简

无法调用CUDA存储器的推力

推力减少不适用于不相等的输入/输出类型

请帮助我调试有关Javascript中for/in的错误。

在调用其他CUDA函数后使用thrust::reduce

这样的事情在CUDA中是可能的吗

CUDA推力大幅度降低

推力输出的位置：：减少操作(GPU RAM或CPU RAM)？

为什么不减少工作呢？

与推力相似的幼崽模板

CUDA gdb推力碰撞(CUDA第5.5版)

不使用device_vectors的Cuda推力？

推力/库达reduce_by_key误差？

采用binary_function和多种类型降低推力

CUDA在共享内存中查找最大值

不带Jquery的数组之和

cuda: cpu和gpu减少的不同答案

我可以用CUDA幼崽迭代器代替推力吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐