首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

CubeNet:对三维旋转和平移的等价性

泡泡点云时空,带你精读点云领域顶级会议文章

标题:CubeNet: Equivariance to 3D Rotation and Translation

作者:Daniel Worrall and Gabriel Brostow,Computer Science Department, University College London, UK

来源:ECCV2018

编译:Felaim

审核:吕佳俊

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

简介

3D卷积神经网络对其输入的变换是敏感的。比如将一个3D体素对象和经旋转变换后的体素传入网络中,在网络的最后一层中,两者之间没有什么联系。理想化的模型应该是不仅可以保留不同位姿下两个输入之间关联,而且能解释不同姿态体素之间的差异。一个等变表示向量有两个组成部分:身份部分不变、可编码变换信息。如果模型无法感知姿态变换,在优化分类或回归损失函数中,模型的表现将无法有良好的性能。

作者引入了一个群体卷积神经网络,其线性等效于三维平移和直角旋转。称为CubeNet(立方网络),反映了立方体的对称性。通过构造,这个网络在通过连续层转换时,有助于保留3D形状的全局和局部的特征。我们将此网络应用于各种3D推理问题,在ModelNet10数据集和ISBI 2012 Connectome Segmentation Benchmark获得比较好的成绩。作者称,这是第一个用于体素表示的3D旋转等效CNN。

如图1所示,在左侧,展示了是标准的卷积公式,滑动滤波器W和输入块F之间的标准2D卷积。右侧为2D直角旋转卷积(称为Z4卷积)。

图4显示了实验中的网络结构。我们使用类似VGG的网络结构来进行ModelNet10的分类挑战,使用类似UNet/FusionNet的网络结构类进行ISBI2012边界分割的数据集。

ModelNet10包含4095个CAD模型,总共有10类,训练集为3991个,测试集为914个。每个模型与标准框架对齐,然后在Z轴上的12个均匀采样方向上旋转。这些旋转的模型的大小为32x32x32

表格2显示,在ModelNet10数据集上的结果。本文方法与其它使用体素表示数据的方法进行比较,只有一个方法的结果比本文的好,但是Brock等人的方法集合了6个模型。如果只限制单个模型,本文的结果就是暂时最好的。

ISBI 2012挑战是一个体素边界分割的基准。任务是从串行切片透射电子显微镜(EM)图像中分割果蝇腹侧神经索。

如图5所示,来自训练体积的2D切片的示例,相关联的标签掩以及由我们的网络进行的预测。 原始体积包含少量噪声,并且卷内的某些结构本质上是模糊的。结果如表3所示:

总的说来,本文提出了一种3D卷积神经网络架构,它与三维直角旋转等效,这依赖于将标准卷积扩展到3D旋转。

Abstract

3D Convolutional Neural Networks are sensitive to transformations applied to their input. This is a problem because a voxelized version of a 3D object, and its rotated clone, will look unrelated to each other after passing through to the last layer of a network. Instead, an idealized model would preserve a meaningful representation of the voxelized object, while explaining the pose-difference between the two inputs. An equivariant representation vector has two components: the invariant identity part, and a discernable encoding of the transformation. Models that can't explain pose-differences risk "diluting" the representation, in pursuit of optimizing a classification or regression loss function.

We introduce a Group Convolutional Neural Network with linear equivariance to translations and right angle rotations in three dimensions. We call this network CubeNet, reflecting its cube-like symmetry. By construction, this network helps preserve a 3D shape's global and local signature, as it is transformed through successive layers. We apply this network to a variety of 3D inference problems, achieving state-of-the-art on the ModelNet10 classification challenge, and comparable performance on the ISBI 2012 Connectome Segmentation Benchmark. To the best of our knowledge, this is the first 3D rotation equivariant CNN for voxel representations.

如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号。

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡论坛:http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181117A08QZF00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券