正确的计时也是从今天开始的, CUDA优化章节的重要基础,因为你的代码干了什么, 例如对一张图片进行边缘查找, 或者颜色分布进行直方图统计, 这些工作量你本身, 作为代码的编写者, 是知道的....此时再加上了正确的计时方法, 则你可以立刻衡量出来, "我的具体XXX操作过程, 在XXX ms内完成, 性能是XXX"(例如10张图片/秒)。...此时, 因为你的基础部分(计时)是错误的, 从而导致了你的问题整体无效.
这点无论是从, 我们的论坛上的帖子中, 还是我们的直接的客户支持用, 用户给出的他们的代码中, 都可以看到这样的错误....例如在我们之前的文章中, 我们知道一个kernel的启动是异步的, 也就是一旦该kernel成功启动后, 它就开始在GPU上执行了....即明确的告诉了他哪里是理解错了后), 他均无视了我们.