腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
CUDA
C
编程
指南
:
线程
和
块
索引
计
算是
如何
工作
的
?
在
CUDA
_
C
_Programming_Guide、Chapter2、
线程
层次结构中__global__ void MatAdd(float A[N][N],float B[N][N],float
C
[N][N]) int i=blockId.x*blockDim.x+threadIdx.x;
C
[i][j]=A[i][j]+B[i]
浏览 11
提问于2017-03-01
得票数 0
回答已采纳
1
回答
理解GPU中多
线程
CUDA
程序
的
执行模式
、
以下是我对
CUDA
线程
执行模式
的
理解。如果某个特定
线程
满足条件,它将执行内核。通常,每个
线程
的
索引
和
访问都是使用它
的
线程
和
块
ID完成
的
。但是,当我看到下面的代码时,我就绊倒了。至于正确性,这段代码给出了完全正确
的
结果。= 0;
c
0 <= min(31, -32 * b0 + 99);
c
0 += 1)
浏览 0
提问于2014-10-10
得票数 1
回答已采纳
3
回答
在使用
CUDA
时,
如何
测量每个
块
的
执行时间?
、
、
clock()不够精确。
浏览 1
提问于2010-08-24
得票数 4
1
回答
动态并行与全局内存同步
如果我启动内核并考虑,例如,
块
0中
的
线程
0,在调用__syncthreads()之后,所有其他
块
中
的
所有其他
线程
都会看到
块
0中
的
线程
0对全局内存所做
的
更改吗? void __syncthreads();等待直到
线程
块
中
的
所有<e
浏览 0
提问于2013-11-02
得票数 2
回答已采纳
2
回答
32个
块
中
的
32个
线程
会被调度为一个warp吗?
我知道在
CUDA
中,同一
块
中
的
32个相邻
线程
将被调度为一个warp。但是我经常发现一些教程
CUDA
代码有多个
块
,每个
块
有一个
线程
。在这个模型中,32个
块
中
的
32个
线程
会被调度为一个warp吗?如果没有,我可以说这个模型不如组织到每个
块
32个
线程
的
效率高吗?谢谢!
浏览 0
提问于2012-12-04
得票数 5
回答已采纳
2
回答
NVIDIA
的
CUDA
核心
和
OpenCL计算单元之间有什么关系?
、
、
我
的
电脑有一个GeForce GTX 960百万,这是由NVIDIA声称拥有640个
CUDA
核心。但是,当我运行clGetDeviceInfo来查找计算机中
的
计算单元数时,它会打印出5个(见下图)。听起来,数据自动化系统
的
核心与OpenCL认为
的
计算单元有些不同吗?或者一组数据自动化系统核心组成了一个OpenCL计算单元?你能给我解释一下吗?
浏览 0
提问于2015-12-14
得票数 3
回答已采纳
1
回答
发现我
的
GPU功能
、
我试图了解我
的
GPU
的
内存组织是
如何
工作
的
。 根据下面的技术规范,我
的
GPU可以有8个活动
块
/SM
和
768个
线程
/SM。基于此,我认为为了利用上面的优势,每个
块
应该有96个
线程
(=768/8)。最近
的
块
有这么多
的
线程
,我认为它是一个9x9
块
,81个
线程
。使用8个<
浏览 4
提问于2013-10-02
得票数 0
回答已采纳
1
回答
使CURAND从均匀分布产生不同
的
随机数
、
、
我试图使用CURAND库来生成从0到100之间完全独立
的
随机数。因此,我将时间作为每个
线程
的
种子,并将"id =
线程
Idx.x+
块
Dim.x*
块
Idx.x“指定为序列
和
偏移量。现在,我面临
的
问题是,对于
线程
0,0
和
0,1得到相同
的
随机数,不管我运行了多少次,也就是11,我无法理解我做错了什么。请帮帮忙。WA) == 0)} pr
浏览 1
提问于2012-09-17
得票数 3
回答已采纳
2
回答
如何
正确地在
CUDA
中添加全局内存?
我正试图在一个作业作业中实现数据自动化系统中绝对值
的
总和,但却很难得到正确
的
结果。我得到了一个小块大小,它代表了我要比较
的
图像
的
正方形部分
的
X
和
Y
的
大小(以像素为单位)。我还得到了两张YUV格式
的
图片。下面是我必须实现
的
程序
的
部分:计算SAD
的
内核
和
网格/
线程
块
大小
的
设置。程序
的
其余部分是提供
浏览 4
提问于2013-09-25
得票数 0
回答已采纳
1
回答
cuda
内核未执行或返回错误
、
我有一些通过一些FFT
和
其他数学操作运行
的
cuda
代码,它们根据用户
的
请求在2^n
的
块
上
工作
。代码在第一次运行时运行良好,但在运行足够长
的
时间后,它开始失败。我知道我必须运行处理
的
多次迭代才能导致错误。起初,只有较大
的
块
大小将停止
工作
,但随着我运行更多
的
迭代,较小
的
块
大小也将开始失败。我不确定问题出在内存上
的
原
浏览 0
提问于2011-06-04
得票数 0
回答已采纳
2
回答
Cuda
编程
与
C
程序设计
的
比较
、
、
我对
cuda
编程
很陌生。在理解
cuda
代码方面,我没有什么问题。我正在从以下链接学习
cuda
教程:在
CUDA
中,本教程说它是这样做
的
:{} 它说,行int
浏览 7
提问于2015-07-09
得票数 2
回答已采纳
2
回答
关于
CUDA
编程
模型
的
问题
嗨,我是
CUDA
编程
的
新手,我有两个关于
CUDA
编程
模型
的
问题。我
的
问题是: (1)为什么我们需要这样一个由
线程
和
浏览 5
提问于2011-04-22
得票数 1
回答已采纳
4
回答
我有一个Nvidia图形处理器,我怎么能在上面写代码呢?
、
我从来没有真正喜欢过GPU,我不是一个游戏玩家,但我知道它们
的
并行能力,我想知道
如何
开始在一个上
编程
?我记得(在某个地方)有一种
CUDA
C
风格
的
编程
语言。
浏览 1
提问于2010-10-31
得票数 4
回答已采纳
2
回答
基于matlab
的
CUDA
内核中二维数组
的
运算
、
假设我有以下序列
C
:{ { a[i][j]+=b[i][j]; } }__global__ void
浏览 0
提问于2012-02-02
得票数 1
回答已采纳
1
回答
内存要求
CUDA
、
我最近写了一个非常简单
的
内核: if(row == -1) {+1) }基本上,它所做
的
是使用较大图像
的
值来计算缩小大小图像
的
像素
的
值在resizeKernel中
的
“if”中。 我
浏览 1
提问于2011-06-13
得票数 0
回答已采纳
1
回答
cuda
:由多个
线程
写入相同
的
全局内存位置
我有一个内核,其中几个
线程
将写入位于全局内存中
的
相同数组位置,比如说arrayi。这里
的
其他相关问题给出了原子
的
使用
和
其他东西
的
答案。但是没有答案显示实际
的
cuda
代码。有没有人可以向
cuda
代码展示arrayi,即数组在
索引
i
的
位置,是
如何
由几个
线程
原子编写
的
。谢谢!
浏览 0
提问于2012-08-02
得票数 1
回答已采纳
1
回答
库达-多处理器,翘曲大小
和
每个
块
的
最大
线程
:确切
的
关系是什么?
、
、
、
我知道在
CUDA
GPU上有多处理器,其中包含
CUDA
核心。在我
的
工作
场所,我正在使用一个GTX 590,它包含512个
CUDA
核,16个多处理器,其翘曲尺寸为32。因此,这意味着每个多处理器中有32个
CUDA
核,它们在相同
的
翘曲中精确地
工作
在相同
的
代码上。最后,每个
块
大小
的
最大
线程
数是1024。 我
的
问题是,
块
大小
和
多处理器计
浏览 1
提问于2012-07-19
得票数 24
回答已采纳
1
回答
为什么这是一个无冲突
的
内存库访问?
、
、
以下是来自
CUDA
C
编程
指南
的
图片:
指南
说,这是一个无冲突访问
的
例子,因为
线程
3、4、6、7
和
9访问银行5中
的
同一个单词。我不太明白为什么这种冲突是没有冲突
的
,因为不仅
线程
3、4、6、7
和
9在同一个银行中访问相同
的
工作
(难道这不是内存冲突
的
一个例子吗?)而且
线程
5必须访问银行4。
浏览 0
提问于2014-03-19
得票数 6
回答已采纳
1
回答
在
CUDA
中调用设备函数时设置
块
和
线程
数?
我有一个关于从全局
CUDA
内核调用设备函数
的
基本问题。当我要调用设备函数时,我们可以指定
块
和
线程
的
数量吗? 我在前面发布了一个关于最小减少()
的
问题,我想在另一个全局内核中调用这个函数。但是,还原代码需要某些
块
和
线程
。
浏览 0
提问于2016-02-13
得票数 0
回答已采纳
1
回答
Opengl:最大共享内存大小小于硬件规范
、
、
、
然而,根据这个白皮书: 因此,我希望OpenGL返回64 So
的
最大共享内存大小。这是错误
的
假设吗?如果是,为什么?
浏览 0
提问于2019-10-08
得票数 1
回答已采纳
点击加载更多
相关
资讯
Triton入门教程:安装与编写和运行简单Triton内核
一文揭开 NVIDIA CUDA 神秘面纱
如何在Julia编程中实现GPU加速
揭秘Tensor Core黑科技:如何让AI计算速度飞跃
NVIDIA发布CUDA Tile:20年来最大平台升级,让AI开发更轻松
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券