我正在尝试编写一个代码,在内核中执行多个向量点积。我正在使用来自cublas库的cublasSdot函数来执行矢量点积。这是我的密码:__global__ void ker(float * a, float * c,long long result_size,int n, int m)float *sum;float *out1,*out2; {
c
我正在用CUDA编写一些代码(确切地说,Huffman算法,但它与实际情况完全无关)。我有一个文件(WriteDictionary)有两个函数:一个是普通函数,第二个(wrtDict)是在CUDA GPU中运行的一个特殊的CUDA _global_函数。以下是这些职能的主体:// to program main topic, but it's just for tests.
__global__ void wrtDict(Node** nodes, unsigned c