清华大学微纳电子系博士生涂锋斌在大会上做了题为《RANA:基于刷新优化嵌入式 DRAM 的神经网络加速框架》(RANA: Towards Efficient Neural Acceleration with Refresh-Optimized Embedded DRAM)的口头报告。该研究成果大幅提升了人工智能(AI)计算芯片的能量效率。
1 研究背景
深度神经网络(DNN)已经被广泛应用在各种 AI 场景中。为了获得更高的精度,DNN 的网络规模也日益增大,导致网络数据存储量达几 MB 甚至几十 MB。此数据量甚至会随着输入图片的分辨率和批处理规模的增大而增大。然而,传统的基于 SRAM 的 AI 计算芯片,由于芯片面积的限制,往往只有几百 KB 的片上存储容量。因此,在运行当前的 DNN 时,片外存储访问难以避免,这会造成巨大的系统能耗开销。存储问题是 AI 计算芯片设计中必须解决的一个重要问题。
2 数据生存时间感知的神经网络加速框架(RANA)
嵌入式 DRAM(简称 eDRAM),相比于传统 SRAM 有更高的存储密度,可以替代传统 SRAM 作为片上存储以减少片外访问。然而,eDRAM 存储单元中的电容电荷会随时间而逐渐丢失,因此需要周期性的刷新操作来维持 eDRAM 的数据正确性。已经有研究证明,刷新能耗是 eDRAM 总能耗的主要来源,而且会占据整体系统能耗的很大比重。因此,使用 eDRAM 带来的额外刷新能耗开销不容忽视。本文发现,如果数据在 eDRAM 中的生存时间(Data Lifetime)小于 eDRAM 的数据维持时间(Retention Time),那么系统将不再需要对于此数据的刷新操作。由此可以得到两个优化方向:减少数据生存时间,和增大数据维持时间
3 实验结果
下图为用于验证 RANA 框架的实验平台具体配置:本工作实现了一款 AI 计算芯片来进行 RTL 级别性能功耗分析,以获得精确的性能参数和访存行为记录。
4 总结
清华大学微纳电子系 Thinker 团队近年来基于可重构计算架构设计了 Thinker 系列 AI 计算芯片(Thinker I,Thinker II,Thinker S),受到学术界和工业界的广泛关注,在 2017 年曾获得 ISLPED'17 低功耗设计竞赛冠军。Thinker 团队此次研究成果,从存储优化和软硬件协同设计的角度大幅提升了芯片能量效率, 给 AI 计算芯片的架构演进提供了新思路。
吻吻智能珠宝以智能芯为切入口,搭建了人与珠宝的互动平台。吻吻智能珠宝优雅轻奢的造型能为日常穿搭增添万分光彩,通过与智能珠宝互动,不仅能吸引众人的目光,还能让你走在潮流的尖端。
官网:www.wenwen-tech.com
邮箱:ww@wenwen-tech.com
领取专属 10元无门槛券
私享最新 技术干货