如果cudaKernal1的执行速度非常快,那么以下代码的运行速度将提高1000倍 X = X + cudaKernel1[(100,100),(32,32)] (X)
通过将循环放在同一个内核中,避免了gpu内核的设置时间。然而,如果每一步都非常快,那么调用内核所需的时间比调用内核要长,所以如果您可以循环执行这些步骤而不退出,那么它的速度可能会快1000倍。我承认我可以看到有一些浪费的努力,但这是一个交易杀手吗?例如
数据以10 The (1.25MBaud)以8字节包的形式到达。因此,数据捕获(从COM-Port缓冲区获取数据)和处理必须尽可能快。我认为我的代码是非常优化的,但我仍然有时会因为串行缓冲区溢出而丢失一些数据包。正因为如此,我考虑将pyserial包(或者至少是我使用的部分)移植到Cython。可以将pyserial包移植到Cython上吗?更重要的是:如果代码是用Cython编写的,速度会有所提高吗?是否有其他可能