前言
之前第三篇也看到了, 并行方面GPU真的是无往不利, 现在再看下第二个例子, 并行规约....通过这次的例子会发现, 需要了解GPU架构, 然后写出与之对应的算法的, 两者结合才能得到令人惊叹的结果.....
----
cuda-gdb
如果之前没有用过gdb, 可以速学一下, 就几个指令....在调试之前, 我把代码贴出来:
#include
__global__ void add(float * x, float *y, float * z, int n){...( d_a );
cudaFree( d_partial_sum );
return(0);
}
----
优化后并行规约
其实需要改动的地方非常小, 改变步长即可.
?