大家好。
今天介绍的文章是:
GVCNN: Group-View Convolutional Neural Networks for 3D Shape Recognition。
作者清华大学张子昭。这篇文章现在还下载不到,连arXiv上都还没挂出来。相关资料都是从最近的学术报告里公开出来的。
我们先来看一下它的网络结构:
觉得眼熟吗?看看前端输入的一排图片,是不是和MVCNN非常像。来看一下MVCNN的网络结构:
你可能已经猜到了,其实GVCNN就是对MVCNN做了改进。
MVCNN又是什么来路呢?
它可是最早将深度学习引入到三维形状识别中来的,早在ICCV2015会议上发表出来,当时就已经能在ModelNet40数据集上跑出90.1%的成绩了,可以说是师爷级的网络了。
后续的各种处理点云的方法,都会与它做比较。
它的思路其实很简单,对于三维物体,从多个视角去‘拍照’,得到12幅图片,然后码12个VGG网络上来,进行特征提取,把12组特征进行池化后,进行分类。
所以,MVCNN的缺点也很明显,网络巨大。这与当今小型化的趋势明显不符嘛!这么大的网络,别说往移动终端部署了,就是桌面电脑,跑起来都费劲。所以,这个网络的follower一直也不多。
笔者倒是见过一篇比较老的论文,是把三维物体往球形上面做投影,同样是把三维转换成多个二维图像去处理,跟MVCNN的区别是,往球型投影比平面投影更能反映三维物体的属性
再来看今天的主角GVCNN,它的改进是,把12幅图片进行了分组、加权。
作者考虑到,MVCNN中的12幅图像其实权重是一样的,但是实际当中肯定12幅图像对于分类的贡献是有高有低,通过合理加权,自然可以提高分类准确率。
具体操作就如上图,每个图片得到一组特征值,通过FC层获得分数,对分数进行分组,比如图中分成了三组。
然后,在组内按照MVCNN原来的池化操作进行。组间则是加权后在平均池化,得到最后结果。
下面是结果了:
可以看到,提升效果还是很明显的。
小结
怎么看待GVCNN呢?
笔者个人觉得意义不大,虽然提升了2~3个百分点,但是网络的缺点仍然存在,就是太重了,比较难以投入实用。
今年的ICLR当中,球面CNN都出来了,其实解决三维物体的新奇思路还有很多,值得挖掘,也更有价值。相反,对本就不太出色的方法修修补补,就真得有点炒冷饭的意味了。
这里是3D点云深度学习,下期见。