分析CUDA矩阵添加代码，使用nvprof:代码API配置文件，内核不

文章/答案/技术大牛

发布

1回答

cuda、gpu、nvidia、gpgpu

我使用的是带有nvidia Geforce Gpu的远程工作站，在编译和执行之后，当我尝试评测时，屏幕上会显示以下内容 ? 这是我运行nvidia-smi时的输出 ? #include <stdio.h>#include <math.h> cudaFree(B); cudaFree(C)

浏览 276提问于2021-10-20得票数 0

1回答

如何在不使用nvprof的情况下获得CUDA事件的开始和结束时间

cuda、jcuda、nvprof

我编写了一些使用JCuda执行某些CUDA内核的Java代码。我想分析一下应用程序，以便了解流是如何重叠的等等。我可以使用cuda事件调用(如cudaEventElpasedTime )来获取内核的执行时间，但我不知道如何获得相同内核的开始和结束时间戳。我知道nvprof可以生成这样的结果并显示时间表，但是我没有找到一种使用Java应用程序运行nvprof的方法。编辑:现在我了解

浏览 5提问于2017-05-16得票数 0

回答已采纳

1回答

如何在分析器中查看CUDA库函数调用？

cuda、cufft、nvvp

我正在使用cuFFT库。如何修改代码以查看NVIDIA Visual Profiler NVVP中来自此库(或任何其他CUDA库)的函数调用？我正在使用Windows和Visual 2013。我将图像和滤波器转换为傅里叶域，然后在我编写的自定义CUDA内核中执行逐点复矩阵乘法，然后在滤波后的图像谱上执行逆DFT。结果是准确的，但我无法弄清楚如何在分析器中查看cuFFT函数。

浏览 5提问于2015-07-13得票数 1

回答已采纳

1回答

多CUDA核的时间测量

cuda、gpu

如何测量多个CUDA内核的特定时间？我已经试过这种方法了。但是对于第二个内核，时间显示为零。

浏览 0提问于2017-10-24得票数 0

1回答

用于NCCL程序的NVProf

cuda、nvidia

当我想使用NVProf来解决带有--metrics all的NCCL问题时，分析结果总是返回如下==2781== Profiling result:#include <stdio.h>#includ

浏览 29提问于2021-05-27得票数 0

回答已采纳

1回答

nvprof在分析python脚本时使用所有可用的GPU

python、cuda、profiling、nvprof

我正在使用一个远程机器，其中有2个GPU，以执行一个Python脚本，其中有CUDA代码。为了找到可以提高代码性能的地方，我尝试使用nvprof。我已经设置了我的代码，我只想使用远程机器上的两个GPU中的一个，尽管在调用nvprof --profile-child-processes .为了只使用一个GPU进行分析，我可以给nvprof提供任何论据吗？

浏览 3提问于2017-04-06得票数 0

回答已采纳

1回答

如何修复Nsight profiler中的“低内核并发”警告？

cuda、gpu、profiler、nsight

我试图在Nsight eclipse profiler中分析一个带有内核调用的cuda程序，但是我得到了这样的警告：‘低内核并发性，两个内核并行执行的时间百分比很低’。当我运行程序时，结果显示内核是并行运行的。我检查了其他一些简单的cuda代码，结果都是一样的。我还检查了这个问题：，它说在分析时应用程序中的所有并发内核都是序列化的，如果这是正确的，那么为什么我会得到这个警告？以下是代码的内

浏览 3提问于2019-09-14得票数 0

2回答

nvprof output：“没有分析内核”是什么意思，以及如何修复它

cuda

我只需将代码从this tutorial复制粘贴到一个名为cuda_test.cu的文件中，然后运行 > nvcc cuda_test.cu -o cuda_test 在任何一种情况下，程序都可以运行，但是当我尝试在程序上运行Cuda分析器时： > sudo nvprof .后一个警告不是我的主要问题，也不是我问题的主题，我的问题是消息说没有分析内核，也没有分析API活动。这是否意味着

浏览 274提问于2019-08-22得票数 6

回答已采纳

1回答

为什么cudaMemcpy花费这么多时间？

c++、cuda

我正在编写cuda程序，并且在分析了一个函数之后，比如在大型矩阵上做点积，大部分时间：Time(%) Time Calls Avg但是我的代码中很少有cudaMemcpy调用，D->H或H->D内存副本都是固定内存。我不认为我的cudaMemcpy电话会花那么多时间。; *(convolution + y * width + x) = sum;

浏览 1提问于2014-06-04得票数 2

1回答

CUDA_VISIBLE_DEVICES上的nvprof警告

python、cuda、pytorch、nvprof

当我在py手电筒中使用os.environ‘’CUDA_VISIBLE_DEVICES‘时，我会收到以下消息这到底是什么意思？如何通过使用'CUDA_VISIBLE_DEVICES‘(而不是torch.cu

浏览 2提问于2019-12-20得票数 0

回答已采纳

1回答

Profile并发CUDA内核

cuda

我感兴趣的是获得并发cuda内核的内存性能计数器。我尝试使用几个nvprof选项，比如--metrics all和--print-gpu-trace。输出似乎表明内核不再并发。并且每个内核的并发性能指标看起来与单独运行每个内核的几乎完全相同。我认为这些并发内核是按顺序运行的。如何获得并发内核的内存性能度量计数器，例如L2缓存？

浏览 6提问于2017-08-25得票数 0

回答已采纳

1回答

Profiler中的cudaErrorIllegalAdress

c++、cuda、thrust、illegalaccessexception

我有一个CUDA程序，在一些地方使用推力，但也正常内核。有什么想法可以导致这件事，或者如何缩小范围？也许是一种获得失败的入口的方法？不能与nvprof AFAIK(?)奇怪的是，今天早上虽然我没有引入任何

浏览 1提问于2015-03-25得票数 0

回答已采纳

3回答

CUDA在远程计算机上运行NVVP，在没有启用CUDA设备的本地计算机上显示结果。

cuda、terminal、profiling、remote-server

至少我们中的一些人在远程服务器上开发了我们的CUDA代码。而且它们通常只在SSH连接上提供访问。可以在远程计算机上使用这样的命令来分析CUDA应用程序(或内核)。nvprof -o profile.out -s ./prog args 然后将"profile.out“下载到本地计算机。我的问题是，是否可以在没有启用CUDA设备的计算机上使用可视分析器打开该文件？是否有任何其他工具可以打开此类文件并

浏览 0提问于2013-04-10得票数 4

回答已采纳

1回答

将CUDA* nvprof输出导出到*

cuda、nvvp、nvprof

我必须使用nvprof，因为应用程序运行在远程服务器上，因此我应该创建一个文件，以便在Visual 中本地导入。我尝试用nvprof -o file_name <app> <params>和nvprof --analysis-metrics --output-profile file_name <app> <params>创建文件，但是当我在Visual上导入这些文件时，在分析部分中，一些字段是空的：“全局内存加载数据不足”、“全局内存存储数据不足”、“<e

浏览 10提问于2016-01-21得票数 6

2回答

nvprof不接收任何API调用或内核。

c、cuda、profiling、nvprof

我正试图用nvprof在我的CUDA程序中获得一些基准时间，但不幸的是，它似乎没有分析任何API调用或内核。我寻找了一个简单的初学者示例，以确保我做得对，并在这里的Nvidia开发博客中找到了一个： int main() const unsigned int N = 1048576;不幸的是，我的结果是一样的：==85454== Profiling result: No

浏览 1提问于2016-05-01得票数 2

回答已采纳

1回答

nvprof -警告:未收集配置文件数据

c++、cuda、nvcc

在尝试使用nvprof对我的程序进行分析时，我收到以下输出，没有任何其他信息：======== Warning: No profile data collected.使用的代码遵循这个经典的。我以前在我的系统上做过nvprof的工作，但是最近我不得不重新安装cuda。系统规格 <

浏览 20提问于2022-10-21得票数 0

回答已采纳

1回答

Numba矩阵向量乘法

python、numpy、cuda、numba、numba-pro

我试着用它来写一个简单的矩阵向量乘法：from numba import *import mathdef cu_matrix_vector(A, b, c): y, x = cuda.grid

浏览 1提问于2014-01-29得票数 6

1回答

CUDA内核printf()在终端中不产生输出，在分析器中工作

c++、cuda

考虑以下方案：template <typename T> cuda::launch(::kernels::print_stuff<int>, launch_config);} (它使用<

浏览 7提问于2019-10-23得票数 1

回答已采纳

1回答

最佳数据自动化系统剖析器

hpc

我对CUDA分析的状况非常困惑。现在我有一个我想要优化的内核，我很难找到正确的软件是什么。据我所知，Nvidia有以下几种选择： nvprof来获取一些打印到命令行的粗略信息，或者保存一个概要文件。Nvidia Visual (nvvp)用于查看由nvprof保存的配置文件。据我所知，这只给出了内核何时启动/完成的时间线，以及关于GPU正在做什么的一些其他粗略信息(PCIe数据传输等)。Nsight "Visual代码版“。从截图来

浏览 0提问于2022-05-11得票数 0

1回答

用Nsight系统跟踪自定义CUDA内核

c++、cuda、profiling、nvidia、nsight

我的工作是用C++20和CUDA 11实现的库。这个库是通过ctypes通过一个只交换JSON字符串的C调用的。我们使用Clang 11编译它。但我得到的只是众多内核中的一颗。输出如下所示：我们可以看到漂亮的NVTX上下文，也可以看到对CUDA API (memcpy等)

浏览 8提问于2021-04-20得票数 0

回答已采纳

点击加载更多