URL https://openreview.net/pdf?id=T1Qx6EC08o
利用知识蒸馏来增强camera-based方法的特征学习。具体做法如下:
模型结构 专家模型: lidar backbone 使用 TransFusion-L的backbone 为了对齐bev表征,师生使用相同的head。expert预先训练一个高性能模型。
pipline分为三部分:
**Selective Focus in Pretraining: ** 噪声主要来自于不准确的depth. 在BEV空间,点云数据提供更 attentive 的特征表达。由于激光雷达数据中点数量较少的区域不太可能提供高可信度的有用特征,提取这些区域的知识可能使网络偏离正确的优化目标。所以文章利用来自点云数据密度的统计提示来限制蒸馏区域。每个bev 特征points对应的pillars内包含的点云points; 本质是提出了一种特征蒸馏选区域的新的见解。
Duplication in Finetuning BEV表示对齐后,camera学习到的特征表示分布应该遵循lidar的分布;所以camera直接复制了lidar的head和权重。
EXPERIMENTS
加了channel-wise normalization
一个亮点是,有别于之前利用object选取,本文提出利用点云密度来帮助选取,效果不错,证明了前背景信息都很重要。 本文重点在pretraining阶段,为了对齐特征表示,从老师那里学习知识,用了选区蒸馏,channel-wise等。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有