关于DLA的基本知识:一篇文章回答你关于NVIDIA DLA的所有疑问
NVIDIA的DLA硬件是专门用于深度学习操作的固定功能加速器引擎。它旨在对卷积神经网络进行全硬件加速,支持各种层,如卷积、反卷积、全连接、激活、池化、批量归一化等。NVIDIA的Jetson Orin SoC最多支持2个第二代DLA(第二代DLA在功耗效率方面表现最佳),而Xavier SoC最多支持2个第一代DLA。
DLA软件包括DLA编译器和DLA运行时堆栈。离线编译器将神经网络图转化为DLA可加载的二进制文件,并可通过NVIDIA TensorRT™、NvMedia-DLA或cuDLA来调用。运行时堆栈由DLA固件、内核模式驱动程序和用户模式驱动程序组成。
更多详细信息,请参考DLA产品页面(https://developer.nvidia.com/deep-learning-accelerator)。
为什么在Orin上使用DLA是必要的?
注意:
详细内容,请见:
https://github.com/NVIDIA/Deep-Learning-Accelerator-SW/tree/dla3.12.1#dla-performance-per-watt-power-efficiency