我对使用英特尔VTune在GPU上执行的算法或函数的数据传输进行估计(字节)感兴趣。例如,如果我的算法计算10个浮动元素的两个向量之间的乘法,卸载后的结果将是:发送到GPU的10+10浮点元素和返回的结果1,因此我们总共有84个字节(21*4)。请记住,我对评估感兴趣,而不是GPU上的实际结果,因为我没有可用的结果。
使用Intel可以这样做,并被称为“使用重用的估计数据传输”,正如我在下面的屏幕中所附加的那样:Intel Advisor数据估计结果示例
在Intel VTune中,我发现的唯一方法是通过“内存访问”分析,但它将结果表示为负载和存储的数量,并且可能使用硬件计数器,因此,如果由巨大的数据结构引起的主内存有多个读数,它们将被考虑在内,并且不返回字节数。英特尔VTune内存访问分析结果示例
有什么方法可以对英特尔VTune进行类似的分析吗?谢谢
发布于 2022-11-04 04:29:52
如果您有一个核心CPU在您的系统,它将有UHD图形。当您尝试使用卸载GPU时,您可以看到GPU内存访问(读和写)指标(GB/秒)。我附上了一张屏幕截图供你参考。要尝试GPU卸载分析,您需要一个运行在GPU上的示例,以及一个带有Intel GPU的系统。
你可以找到你的问题的答案,这里。
https://stackoverflow.com/questions/74183888
复制