sample 参数用于指定是否收集 CPU 样本。trace 参数用于选择追踪的呼叫。
在此设定中,我们选择收集 nvtx API、CUDA API、操作系统运行时间,以及 CUDNN API 呼叫。...变更先前之PyProf 呼叫的最后一行,以取得花在迭代正向传递上的总奈秒数:
python -m pyprof.prof a_file -w 100 -c idx,trace,sil,tc,flops,...-05 -b 256 \
--amp --static-loss-scale 128 \
--epochs 1 --workspace /ecan/results \
--pyprof
大部分参数都与先前的呼叫相同...在开启AMP 模式之情况下,执行呼叫的程序代码范例时,获得72,860,695 ns (72.86 ms)。这是好消息,因为已使用混合精度进一步将程序代码优化。...在先前的呼叫中增加 –memoryformat nchw 即可,且让您可以使用 [n,c, h, w] 记忆体格式。