但是很遗憾的, 很多人就是喜欢传递过来一个额外的数组/指针这样使用, 原因我们还未知。...此外, 今天的实践手册没有说明的是, local memory还具有强制合并访问的特性.我们都说用了local memory, 但是几乎没人讨论"local memory是否是合并的", 既然我们今天已经知道了它也是用的显存模拟出来的...这是因为local memory有自动交错的特性....也可以参考我们之前的CUDA编程指南中的内容),因为这种自动交错/合并的存在. 对local memory中, 来自同一个warp的杂乱的下标/指针访问这种, 应当避免. 因为默认是一致的....某些时刻某个变量可能在寄存器中, 但下一时刻它可能在local中, 根据不同代码位置的寄存器压力, 或者其他因素所决定.好了.