本文备注/经验分享:
这章节主要说了如何优化Host和Device间的数据传输。...首先章节说, 应当尽量尝试能减少传输量就要减少,例如一段数据如果原本需要从显存移动到内存, 然后CPU继续处理;那么如果通过代码改写, 将一些CPU上的代码改写成GPU版本, 这样就可以不用移动这些数据了...有的时候虽然这种改写可能很渣,并行度不高, 但只要是合算的, 就应当使用这种GPU代码,也就是说, 就算是渣GPU代码, 运行的时间能小于数据移动的时间,那么即使改写成GPU不是那么的好, 也要改写成GPU...但是这里指出, 最好还是改写, 虽然是在不适合GPU的情况下运行, 但只要总体成本合算,还是要改写的,因为相比现在的GPU上的计算性能和GPU上的访存性能,PCI-E传输的性能太低了。...总之本章节说, 能不传输就不传输, 例如对于可以改变数据处理代码的位置(从CPU到GPU); 或者不需要传输(集成或者TX2类的)就应当尽量不需要传输.然后还说了, 如果真的要传输, 尽量使用一次性大量传输