腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(3060)
视频
沙龙
1
回答
分析
CUDA
矩阵
添加
代码
,
使用
nvprof
:
代码
API
配置文件
,
内核
不
、
、
、
我
使用
的是带有nvidia Geforce Gpu的远程工作站,在编译和执行之后,当我尝试评测时,屏幕上会显示以下内容 ? 这是我运行nvidia-smi时的输出 ? #include <stdio.h>#include <math.h> cudaFree(B); cudaFree(C)
浏览 276
提问于2021-10-20
得票数 0
1
回答
如何在不
使用
nvprof
的情况下获得
CUDA
事件的开始和结束时间
、
、
我编写了一些
使用
JCuda执行某些
CUDA
内核
的Java
代码
。我想
分析
一下应用程序,以便了解流是如何重叠的等等。我可以
使用
cuda
事件调用(如cudaEventElpasedTime )来获取
内核
的执行时间,但我不知道如何获得相同
内核
的开始和结束时间戳。我知道
nvprof
可以生成这样的结果并显示时间表,但是我没有找到一种
使用
Java应用程序运行
nvprof
的方法。 编辑:现在我了解
浏览 5
提问于2017-05-16
得票数 0
回答已采纳
1
回答
如何在
分析
器中查看
CUDA
库函数调用?
、
、
我正在
使用
cuFFT库。如何修改
代码
以查看NVIDIA Visual Profiler NVVP中来自此库(或任何其他
CUDA
库)的函数调用?我正在
使用
Windows和Visual 2013。我将图像和滤波器转换为傅里叶域,然后在我编写的自定义
CUDA
内核
中执行逐点复
矩阵
乘法,然后在滤波后的图像谱上执行逆DFT。结果是准确的,但我无法弄清楚如何在
分析
器中查看cuFFT函数。
浏览 5
提问于2015-07-13
得票数 1
回答已采纳
1
回答
多
CUDA
核的时间测量
、
如何测量多个
CUDA
内核
的特定时间?我已经试过这种方法了。但是对于第二个
内核
,时间显示为零。
浏览 0
提问于2017-10-24
得票数 0
1
回答
用于NCCL程序的
NVProf
、
当我想
使用
NVProf
来解决带有--metrics all的NCCL问题时,
分析
结果总是返回如下==2781== Profiling result:#include <stdio.h>#includ
浏览 29
提问于2021-05-27
得票数 0
回答已采纳
1
回答
nvprof
在
分析
python脚本时
使用
所有可用的GPU
、
、
、
我正在
使用
一个远程机器,其中有2个GPU,以执行一个Python脚本,其中有
CUDA
代码
。为了找到可以提高
代码
性能的地方,我尝试
使用
nvprof
。我已经设置了我的
代码
,我只想
使用
远程机器上的两个GPU中的一个,尽管在调用
nvprof
--profile-child-processes .为了只
使用
一个GPU进行
分析
,我可以给
nvprof
提供任何论据吗?
浏览 3
提问于2017-04-06
得票数 0
回答已采纳
1
回答
如何修复Nsight profiler中的“低
内核
并发”警告?
、
、
、
我试图在Nsight eclipse profiler中
分析
一个带有
内核
调用的
cuda
程序,但是我得到了这样的警告:‘低
内核
并发性,两个
内核
并行执行的时间百分比很低’。当我运行程序时,结果显示
内核
是并行运行的。 我检查了其他一些简单的
cuda
代码
,结果都是一样的。我还检查了这个问题:,它说在
分析
时应用程序中的所有并发
内核
都是序列化的,如果这是正确的,那么为什么我会得到这个警告?以下是
代码
的
内
浏览 3
提问于2019-09-14
得票数 0
2
回答
nvprof
output:“没有
分析
内核
”是什么意思,以及如何修复它
我只需将
代码
从this tutorial复制粘贴到一个名为
cuda
_test.cu的文件中,然后运行 > nvcc
cuda
_test.cu -o
cuda
_test 在任何一种情况下,程序都可以运行,但是当我尝试在程序上运行
Cuda
分析
器时: > sudo
nvprof
.后一个警告不是我的主要问题,也不是我问题的主题,我的问题是消息说没有
分析
内核
,也没有
分析
API
活动。 这是否意味着
浏览 274
提问于2019-08-22
得票数 6
回答已采纳
1
回答
为什么cudaMemcpy花费这么多时间?
、
我正在编写
cuda
程序,并且在
分析
了一个函数之后,比如在大型
矩阵
上做点积,大部分时间:Time(%) Time Calls Avg但是我的
代码
中很少有cudaMemcpy调用,D->H或H->D内存副本都是固定内存。我不认为我的cudaMemcpy电话会花那么多时间。; *(convolution + y * width + x) = sum;
浏览 1
提问于2014-06-04
得票数 2
1
回答
CUDA
_VISIBLE_DEVICES上的
nvprof
警告
、
、
、
当我在py手电筒中
使用
os.environ‘’
CUDA
_VISIBLE_DEVICES‘时,我会收到以下消息这到底是什么意思?如何通过
使用
'
CUDA
_VISIBLE_DEVICES‘(而不是torch.
cu
浏览 2
提问于2019-12-20
得票数 0
回答已采纳
1
回答
Profile并发
CUDA
内核
我感兴趣的是获得并发
cuda
内核
的内存性能计数器。我尝试
使用
几个
nvprof
选项,比如--metrics all和--print-gpu-trace。输出似乎表明
内核
不再并发。并且每个
内核
的并发性能指标看起来与单独运行每个
内核
的几乎完全相同。我认为这些并发
内核
是按顺序运行的。如何获得并发
内核
的内存性能度量计数器,例如L2缓存?
浏览 6
提问于2017-08-25
得票数 0
回答已采纳
1
回答
Profiler中的cudaErrorIllegalAdress
、
、
、
我有一个
CUDA
程序,在一些地方
使用
推力,但也正常
内核
。有什么想法可以导致这件事,或者如何缩小范围?也许是一种获得失败的入口的方法?不能与
nvprof
AFAIK(?)奇怪的是,今天早上虽然我没有引入任何
浏览 1
提问于2015-03-25
得票数 0
回答已采纳
3
回答
CUDA
在远程计算机上运行NVVP,在没有启用
CUDA
设备的本地计算机上显示结果。
、
、
、
至少我们中的一些人在远程服务器上开发了我们的
CUDA
代码
。而且它们通常只在SSH连接上提供访问。可以在远程计算机上
使用
这样的命令来
分析
CUDA
应用程序(或
内核
)。
nvprof
-o profile.out -s ./prog args 然后将"profile.out“下载到本地计算机。我的问题是,是否可以在没有启用
CUDA
设备的计算机上
使用
可视
分析
器打开该文件?是否有任何其他工具可以打开此类文件并
浏览 0
提问于2013-04-10
得票数 4
回答已采纳
1
回答
将
CUDA
nvprof
输出导出到
、
、
我必须
使用
nvprof
,因为应用程序运行在远程服务器上,因此我应该创建一个文件,以便在Visual 中本地导入。我尝试用
nvprof
-o file_name <app> <params>和
nvprof
--analysis-metrics --output-profile file_name <app> <params>创建文件,但是当我在Visual上导入这些文件时,在
分析
部分中,一些字段是空的:“全局内存加载数据不足”、“全局内存存储数据不足”、“<e
浏览 10
提问于2016-01-21
得票数 6
2
回答
nvprof
不
接收任何
API
调用或
内核
。
、
、
、
我正试图用
nvprof
在我的
CUDA
程序中获得一些基准时间,但不幸的是,它似乎没有
分析
任何
API
调用或
内核
。我寻找了一个简单的初学者示例,以确保我做得对,并在这里的Nvidia开发博客中找到了一个: int main() const unsigned int N = 1048576;不幸的是,我的结果是一样的:==85454== Profiling result: No
浏览 1
提问于2016-05-01
得票数 2
回答已采纳
1
回答
nvprof
-警告:未收集
配置文件
数据
、
、
在尝试
使用
nvprof
对我的程序进行
分析
时,我收到以下输出,没有任何其他信息:======== Warning: No profile data collected.
使用
的
代码
遵循这个经典的。我以前在我的系统上做过
nvprof
的工作,但是最近我不得不重新安装
cuda
。系统规格 <
浏览 20
提问于2022-10-21
得票数 0
回答已采纳
1
回答
Numba
矩阵
向量乘法
、
、
、
、
我试着用它来写一个简单的
矩阵
向量乘法:from numba import *import mathdef cu_matrix_vector(A, b, c): y, x =
cuda
.grid
浏览 1
提问于2014-01-29
得票数 6
1
回答
CUDA
内核
printf()在终端中
不
产生输出,在
分析
器中工作
、
考虑以下方案:template <typename T>
cuda
::launch(::kernels::print_stuff<int>, launch_config);} (它
使用<
浏览 7
提问于2019-10-23
得票数 1
回答已采纳
1
回答
最佳数据自动化系统剖析器
我对
CUDA
分析
的状况非常困惑。现在我有一个我想要优化的
内核
,我很难找到正确的软件是什么。据我所知,Nvidia有以下几种选择:
nvprof
来获取一些打印到命令行的粗略信息,或者保存一个概要文件。Nvidia Visual (nvvp)用于查看由
nvprof
保存的
配置文件
。据我所知,这只给出了
内核
何时启动/完成的时间线,以及关于GPU正在做什么的一些其他粗略信息(PCIe数据传输等)。Nsight "Visual
代码
版“。从截图来
浏览 0
提问于2022-05-11
得票数 0
1
回答
用Nsight系统跟踪自定义
CUDA
内核
、
、
、
、
我的工作是用C++20和
CUDA
11实现的库。这个库是通过ctypes通过一个只交换JSON字符串的C调用的。我们
使用
Clang 11编译它。但我得到的只是众多
内核
中的一颗。输出如下所示:我们可以看到漂亮的NVTX上下文,也可以看到对
CUDA
API
(memcpy等)
浏览 8
提问于2021-04-20
得票数 0
回答已采纳
点击加载更多
相关
资讯
全球首个AI CUDA工程师来了!将PyTorch原生实现提速10-100倍
Triton入门教程:安装与编写和运行简单Triton内核
一文揭开 NVIDIA CUDA 神秘面纱
详解英伟达芯片在自动驾驶的软件移植设计开发
《PHP扩展及核心》
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券