CUDA分析- nvprof结果中API调用的含义是什么？

文章/答案/技术大牛

发布

1回答

下面是我的nvprof结果，我正在尝试理解API calls部分的含义。API calls中的第一个花费了4.67456秒，这比GPU activities中的第一个长得多，为什么呢？int>::Policy700 const *, thrust::cuda_cub::cub::DeviceRadixSortDownsweepKernel<thrust::cud

浏览 47提问于2019-01-28得票数 0

2回答

如何通过nvprof在短时间内分析数据自动化系统的应用？

、

我想通过nvprof生成一个极限配置文件。如何将分析时间限制为5秒？

浏览 1提问于2018-09-01得票数 0

回答已采纳

1回答

如何在不使用nvprof的情况下获得CUDA事件的开始和结束时间

、、

我编写了一些使用JCuda执行某些CUDA内核的Java代码。我想分析一下应用程序，以便了解流是如何重叠的等等。我可以使用cuda事件调用(如cudaEventElpasedTime )来获取内核的执行时间，但我不知道如何获得相同内核的开始和结束时间戳。我知道nvprof可以生成这样的结果并显示时间表，但是我没有找到一种使用Java应用程序运行nvprof的方法。

浏览 5提问于2017-05-16得票数 0

回答已采纳

1回答

我的CUDA* nvprof 'API跟踪‘和'GPU跟踪’是不同步的-怎么办？*

、、、、

我正在使用CUDA7.0分析器nvprof来分析一些进行CUDA调用的过程：稍后，我生成两个跟踪：'API跟踪‘(发生在主机CPU上的情况，例如您标记的CUDA运行时调用和范围)和'GPU跟踪’(内核执行、内

浏览 1提问于2015-04-09得票数 0

回答已采纳

2回答

cuFFT分析问题

、、

我正在尝试获取cuFFT库调用的分析数据，例如plan和exec。我使用的是nvprof (命令行分析工具)，选项为"--print-api-trace“。它打印除cuFFT apis之外的所有apis的时间。是否有任何标志需要更改才能获得cuFFT分析数据？或者我需要使用这些事件来衡量自己？

浏览 1提问于2013-04-15得票数 0

回答已采纳

1回答

如何使用CUDA8.0 nvprof评测OpenCL应用程序

、、、

我正在尝试在一个使用NVIDIA TITAN X和CUDA8.0的系统中分析OpenCL应用程序a.out。如果是CUDA应用程序，nvprof ./a.out就足够了。在CUDA7.5之前，我在之后成功地使用了COMPUTE_PROFILE=1。不幸的是，文档说“在CUDA8.0版本中删除了对使用环境变量COMPUTE_PROFILE的命令行分析器的支持”。问题是，除

浏览 25提问于2017-01-17得票数 9

回答已采纳

1回答

为什么GPU上的Tensorflow模型推理会引起如此多的CUDA* cuEventRecord API调用？*

、、

为了检查性能瓶颈，我使用了Nvidia nvprof分析工具来分析我的对象检测应用程序(在几个框架上执行对象检测)。分析结果如下所示。通过查看Nvidia可视化分析器，我发现对象检测应用程序包含多个线程。其中有两个线程一直在调用cuEventRecord CUDA驱动程序API调用。分析结果表明，cuEventRecord API调用</

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

多CUDA核的时间测量

、

如何测量多个CUDA内核的特定时间？我已经试过这种方法了。cudaEventRecord(tic4, 0);我得到的第一个结果是正确的

浏览 0提问于2017-10-24得票数 0

2回答

cuda nvprof for mex文件

、、

我的程序由一个Matlab文件(.m)和一个mex-cuda文件(.cu)组成。它从Matlab开始，然后Matlab文件调用mex-cuda文件。我想使用'nvprof‘命令行在mex-cuda文件中分析性能。我知道对于常规的CUDA程序，我们简单地使用(在Unix中)：但是，mex-cuda文件现在是从matlab调用</e

浏览 2提问于2014-11-10得票数 3

1回答

我只想使用命令工具nvprof编写一个脚本来分析我的cuda应用程序。目前，我主要研究两个指标: GPU利用率和GPU flops32 (FP32)。 GPU利用率是GPU活动时间的一部分。nvprof --print-gpu-trace可以轻松地获得GPU的活动时间，而应用程序的运行时间(没有开销)对我来说并不清楚。我使用可视化分析器nvvp来可视化分析结果并计算GPU利用率。似乎经过的<

浏览 2提问于2018-05-07得票数 0

1回答

全局内存重放开销从何而来？

、、、、

在NVIDIA Visual Profiler中运行以下代码以在全局内存中写入1 GB，我得到：#include <unistd.h

浏览 7提问于2013-06-26得票数 0

2回答

nvprof output：“没有分析内核”是什么意思，以及如何修复它

但是当我尝试在程序上运行Cuda分析器时： > sudo nvprof ./cuda_test 我得到的结果是： ==3201== NVPROF is profiling process 3201, command: .后一个警告不是我的主要问题，也不是我问题的主题，我的问题是消息说没有分析内核，也没有分析API活动。这是否意味着程序完全在我<e

浏览 274提问于2019-08-22得票数 6

回答已采纳

1回答

nvidia可视分析器遇到无效选项：--openacc-profiling

、、、

在nvidia Visual上运行一个简单的应用程序将显示错误：======== Use "nvprof我试图分析的任何gpu应用程序都会出现相同的错误。nvprof --version nvprof: NVIDIA (R) Cuda

浏览 3提问于2017-04-08得票数 0

回答已采纳

1回答

如何在分析器中查看CUDA库函数调用？

、、

如何修改代码以查看NVIDIA Visual Profiler NVVP中来自此库(或任何其他CUDA库)的函数调用？我正在使用Windows和Visual 2013。下面是我的密码。我将图像和滤波器转换为傅里叶域，然后在我编写的自定义CUDA内核中执行逐点复矩阵乘法，然后在滤波后的图像谱上执行逆DFT。结果是准确的，但我无法弄清楚如何在分析器中查看cuFFT函

浏览 5提问于2015-07-13得票数 1

回答已采纳

1回答

CUDA_VISIBLE_DEVICES上的nvprof警告

、、、

当我在py手电筒中使用os.environ‘’CUDA_VISIBLE_DEVICES‘时，我会收到以下消息这到底是什么意思？如何通过使用'CUDA_VISIBLE_DEVICES‘(而不是torch.cuda.s

浏览 2提问于2019-12-20得票数 0

回答已采纳

1回答

二进制文件上的nvprof

、

我有一个二进制程序，它是由nvcc编译器生成的。我想和nvprof一起分析一下。我试过使用nvprof ./a.out，它显示了每个函数的秒数。虽然这对我有好处，但我想看看我的应用程序的时间表。如果我用Nsight构建我的项目，我本可以轻松地完成这件事，但不幸的是，我不能这样做。那么，如何在Nsight之外调用nvprof程序来查看我的应用程序的时间线呢

浏览 7提问于2013-01-11得票数 0

1回答

Profiling MPI+Cuda

、、、

我正在开发一个MPI+cuda项目，我尝试用nvvp和nvprof来分析我的应用程序，但是，在这两种情况下，它都没有给出配置文件。该应用程序完全可以工作，但没有生成任何配置文件。nvprof mpirun -np 2 MPI_test======== Warning: No CUDA application was profiled, exiting 我尝试使用simpleMPIcuda示例，结果是相同的。我在580 G

浏览 4提问于2013-12-18得票数 1

回答已采纳

2回答

nvprof不接收任何API调用或内核。

、、、

我正试图用nvprof在我的CUDA程序中获得一些基准时间，但不幸的是，它似乎没有分析任何API调用或内核。/profile_test-bash-4.2$ nvprof ./profile_test ==85454== NVPROF</e

浏览 1提问于2016-05-01得票数 2

回答已采纳

1回答

nvprof在分析python脚本时使用所有可用的GPU

、、、

我正在使用一个远程机器，其中有2个GPU，以执行一个Python脚本，其中有CUDA代码。为了找到可以提高代码性能的地方，我尝试使用nvprof。我已经设置了我的代码，我只想使用远程机器上的两个GPU中的一个，尽管在调用nvprof --profile-child-processes ./myscript.py时，每个GPU上都会启动一个ID相同的进程。为了只使用一个GPU进行分析，我可

浏览 3提问于2017-04-06得票数 0

回答已采纳

1回答

如何在每次使用nvprof调用CUDA内核函数时收集事件值？

、

与nvprof一起分析CUDA程序。我又发了一次这个问题。与nvprof --events tex0_cache_sector_queries --replay-mode kernel ./matrixMul，==40013== Profiling application: .内核函数tex0_cache_sector_queries调用的301次调用值

浏览 0提问于2018-06-29得票数 0

点击加载更多