卷积操作示意图
对于一个nchw格式的Tensor来说, 其在计算机中的内存排布是这样的:
NCHW的Tensor内存排布示意图
使用cpp一次指令处理一个数据, 用来处理卷积操作, 即循环实现乘法相加即可...卷积实现示意图
现在有一条指令处理4组数据的能力, 比如x86结构的sse指令,arm的neon指令.以及GPGPU的OpenGL和OpenCL,单次处理RGBA四组数据....使用指令集加速卷积,可以直接计算
NC4HW4中使用im2col+gemm实现卷积:
im2col+gemm在深度学习中是最常用的对卷积进行加速计算的方案。最早在caffe框架中支持。...使用SSE,Neon,OpenCL或OpenGL实现Gemm....使用SSE,Neon,OpenCL或OpenGL实现Gemm
最后
欢迎关注我和BBuf及公众号的小伙伴们一块维护的一个深度学习框架Msnhnet: https://github.com/msnh2012