腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9573)
视频
沙龙
1
回答
CUDA
分析
-
nvprof
结果
中
API
调用
的
含义
是什么
?
下面是我
的
nvprof
结果
,我正在尝试理解
API
calls部分
的
含义
。
API
calls
中
的
第一个花费了4.67456秒,这比GPU activities
中
的
第一个长得多,为什么呢?int>::Policy700 const *, thrust::
cuda
_cub::cub::DeviceRadixSortDownsweepKernel<thrust::
cud
浏览 47
提问于2019-01-28
得票数 0
2
回答
如何通过
nvprof
在短时间内
分析
数据自动化系统
的
应用?
、
我想通过
nvprof
生成一个极限配置文件。如何将
分析
时间限制为5秒?
浏览 1
提问于2018-09-01
得票数 0
回答已采纳
1
回答
如何在不使用
nvprof
的
情况下获得
CUDA
事件
的
开始和结束时间
、
、
我编写了一些使用JCuda执行某些
CUDA
内核
的
Java代码。我想
分析
一下应用程序,以便了解流是如何重叠
的
等等。我可以使用
cuda
事件
调用
(如cudaEventElpasedTime )来获取内核
的
执行时间,但我不知道如何获得相同内核
的
开始和结束时间戳。我知道
nvprof
可以生成这样
的
结果
并显示时间表,但是我没有找到一种使用Java应用程序运行
nvprof
的
方法。
浏览 5
提问于2017-05-16
得票数 0
回答已采纳
1
回答
我
的
CUDA
nvprof
'
API
跟踪‘和'GPU跟踪’是不同步
的
-怎么办?
、
、
、
、
我正在使用
CUDA
7.0
分析
器
nvprof
来
分析
一些进行
CUDA
调用
的
过程:稍后,我生成两个跟踪:'
API
跟踪‘(发生在主机CPU上
的
情况,例如您标记
的
CUDA
运行时
调用
和范围)和'GPU跟踪’(内核执行、内
浏览 1
提问于2015-04-09
得票数 0
回答已采纳
2
回答
cuFFT
分析
问题
、
、
我正在尝试获取cuFFT库
调用
的
分析
数据,例如plan和exec。我使用
的
是
nvprof
(命令行
分析
工具),选项为"--print-
api
-trace“。它打印除cuFFT apis之外
的
所有apis
的
时间。是否有任何标志需要更改才能获得cuFFT
分析
数据?或者我需要使用这些事件来衡量自己?
浏览 1
提问于2013-04-15
得票数 0
回答已采纳
1
回答
如何使用
CUDA
8.0
nvprof
评测OpenCL应用程序
、
、
、
我正在尝试在一个使用NVIDIA TITAN X和
CUDA
8.0
的
系统中
分析
OpenCL应用程序a.out。 如果是
CUDA
应用程序,
nvprof
./a.out就足够了。在
CUDA
7.5之前,我在之后成功地使用了COMPUTE_PROFILE=1。不幸
的
是,文档说“在
CUDA
8.0版本
中
删除了对使用环境变量COMPUTE_PROFILE
的
命令行
分析
器
的
支持”。问题是,除
浏览 25
提问于2017-01-17
得票数 9
回答已采纳
1
回答
为什么GPU上
的
Tensorflow模型推理会引起如此多
的
CUDA
cuEventRecord
API
调用
?
、
、
为了检查性能瓶颈,我使用了Nvidia
nvprof
分析
工具来
分析
我
的
对象检测应用程序(在几个框架上执行对象检测)。
分析
结果
如下所示。通过查看Nvidia可视化
分析
器,我发现对象检测应用程序包含多个线程。其中有两个线程一直在
调用
cuEventRecord
CUDA
驱动程序
API
调用
。
分析
结果
表明,cuEventRecord
API
调用</
浏览 2
提问于2019-08-20
得票数 1
回答已采纳
1
回答
多
CUDA
核
的
时间测量
、
如何测量多个
CUDA
内核
的
特定时间?我已经试过这种方法了。cudaEventRecord(tic4, 0);我得到
的
第一个
结果
是正确
的
浏览 0
提问于2017-10-24
得票数 0
2
回答
cuda
nvprof
for mex文件
、
、
我
的
程序由一个Matlab文件(.m)和一个mex-
cuda
文件(.cu)组成。它从Matlab开始,然后Matlab文件
调用
mex-
cuda
文件。我想使用'
nvprof
‘命令行在mex-
cuda
文件中
分析
性能。我知道对于常规
的
CUDA
程序,我们简单地使用(在Unix
中
):但是,mex-
cuda
文件现在是从matlab
调用</e
浏览 2
提问于2014-11-10
得票数 3
1
回答
如何通过
nvprof
对
CUDA
应用程序进行
分析
、
我只想使用命令工具
nvprof
编写一个脚本来
分析
我
的
cuda
应用程序。目前,我主要研究两个指标: GPU利用率和GPU flops32 (FP32)。 GPU利用率是GPU活动时间
的
一部分。
nvprof
--print-gpu-trace可以轻松地获得GPU
的
活动时间,而应用程序
的
运行时间(没有开销)对我来说并不清楚。我使用可视化
分析
器nvvp来可视化
分析
结果
并计算GPU利用率。似乎经过
的<
浏览 2
提问于2018-05-07
得票数 0
1
回答
全局内存重放开销从何而来?
、
、
、
、
在NVIDIA Visual Profiler
中
运行以下代码以在全局内存
中
写入1 GB,我得到:#include <unistd.h
浏览 7
提问于2013-06-26
得票数 0
2
回答
nvprof
output:“没有
分析
内核”
是什么
意思,以及如何修复它
但是当我尝试在程序上运行
Cuda
分析
器时: > sudo
nvprof
./
cuda
_test 我得到
的
结果
是: ==3201==
NVPROF
is profiling process 3201, command: .后一个警告不是我
的
主要问题,也不是我问题
的
主题,我
的
问题是消息说没有
分析
内核,也没有
分析
API
活动。 这是否意味着程序完全在我<e
浏览 274
提问于2019-08-22
得票数 6
回答已采纳
1
回答
nvidia可视
分析
器遇到无效选项:--openacc-profiling
、
、
、
在nvidia Visual上运行一个简单
的
应用程序将显示错误:======== Use "
nvprof
我试图
分析
的
任何gpu应用程序都会出现相同
的
错误。
nvprof
--version
nvprof
: NVIDIA (R)
Cuda
浏览 3
提问于2017-04-08
得票数 0
回答已采纳
1
回答
如何在
分析
器
中
查看
CUDA
库函数
调用
?
、
、
如何修改代码以查看NVIDIA Visual Profiler NVVP
中
来自此库(或任何其他
CUDA
库)
的
函数
调用
?我正在使用Windows和Visual 2013。 下面是我
的
密码。我将图像和滤波器转换为傅里叶域,然后在我编写
的
自定义
CUDA
内核
中
执行逐点复矩阵乘法,然后在滤波后
的
图像谱上执行逆DFT。
结果
是准确
的
,但我无法弄清楚如何在
分析
器
中
查看cuFFT函
浏览 5
提问于2015-07-13
得票数 1
回答已采纳
1
回答
CUDA
_VISIBLE_DEVICES上
的
nvprof
警告
、
、
、
当我在py手电筒中使用os.environ‘’
CUDA
_VISIBLE_DEVICES‘时,我会收到以下消息这到底
是什么
意思?如何通过使用'
CUDA
_VISIBLE_DEVICES‘(而不是torch.
cuda
.s
浏览 2
提问于2019-12-20
得票数 0
回答已采纳
1
回答
二进制文件上
的
nvprof
、
我有一个二进制程序,它是由nvcc编译器生成
的
。我想和
nvprof
一起
分析
一下。我试过使用
nvprof
./a.out,它显示了每个函数
的
秒数。虽然这对我有好处,但我想看看我
的
应用程序
的
时间表。如果我用Nsight构建我
的
项目,我本可以轻松地完成这件事,但不幸
的
是,我不能这样做。那么,如何在Nsight之外
调用
nvprof
程序来查看我
的
应用程序
的
时间线呢
浏览 7
提问于2013-01-11
得票数 0
1
回答
Profiling MPI+
Cuda
、
、
、
我正在开发一个MPI+
cuda
项目,我尝试用nvvp和
nvprof
来
分析
我
的
应用程序,但是,在这两种情况下,它都没有给出配置文件。该应用程序完全可以工作,但没有生成任何配置文件。
nvprof
mpirun -np 2 MPI_test======== Warning: No
CUDA
application was profiled, exiting 我尝试使用simpleMPI
cuda
示例,
结果
是相同
的
。我在580 G
浏览 4
提问于2013-12-18
得票数 1
回答已采纳
2
回答
nvprof
不接收任何
API
调用
或内核。
、
、
、
我正试图用
nvprof
在我
的
CUDA
程序
中
获得一些基准时间,但不幸
的
是,它似乎没有
分析
任何
API
调用
或内核。/profile_test-bash-4.2$
nvprof
./profile_test ==85454==
NVPROF</e
浏览 1
提问于2016-05-01
得票数 2
回答已采纳
1
回答
nvprof
在
分析
python脚本时使用所有可用
的
GPU
、
、
、
我正在使用一个远程机器,其中有2个GPU,以执行一个Python脚本,其中有
CUDA
代码。为了找到可以提高代码性能
的
地方,我尝试使用
nvprof
。我已经设置了我
的
代码,我只想使用远程机器上
的
两个GPU
中
的
一个,尽管在
调用
nvprof
--profile-child-processes ./myscript.py时,每个GPU上都会启动一个ID相同
的
进程。 为了只使用一个GPU进行
分析
,我可
浏览 3
提问于2017-04-06
得票数 0
回答已采纳
1
回答
如何在每次使用
nvprof
调用
CUDA
内核函数时收集事件值?
、
与
nvprof
一起
分析
CUDA
程序。我又发了一次这个问题。与
nvprof
--events tex0_cache_sector_queries --replay-mode kernel ./matrixMul,==40013== Profiling application: .内核函数tex0_cache_sector_queries
调用
的
301次
调用
值
浏览 0
提问于2018-06-29
得票数 0
点击加载更多
相关
资讯
CUDA编程的错误处理
详解英伟达芯片在自动驾驶的软件移植设计开发
解密 Cursor:一位深度用户的原理探析与实验验证
AI大模型本地化部署的开发
API接口对接全攻略:从入门到精通
热门
标签
更多标签
云服务器
ICP备案
云直播
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券