技术前沿
作者:olgalitech
编译整理:萝卜兔
上周整理了第一部分,关于场景问答和图像增强的,这周我们继续整理了各种NN架构以及人物分析等论文,希望能够对大家的研究有所帮助。
计算机视觉的各种NN结构
会议主题
Deep Layer Aggregation
重点
更准确,更少的参数;
是深层可视化结构一种通用、有效的扩展。
框架和技术细节
论文:
https://arxiv.org/abs/1707.06484
学习聚合图层输出
任何块结构
更具有表现力的图层输入
更快的聚合
其它
文章提到图像识别的两个trends:
1、更好的构建块
2、跳过连接
应用
图像识别、图像分割
会议主题
Practical Block-wise Neural Network Architecture Generation
重点
提供了一个名为BlockQNN的块式网络生成Pipeline,它使用具有epsilon-greedy探索策略的Q-learning范式自动构建高性能网络。
分布式异步框架(加速+)
框架和技术细节
论文:
https://arxiv.org/abs/1708.05552
数据
CIFAR, ImageNet
其他
图像分类:用32GPU花了3天时间创建神经网络,这比NASv1-Google少(800GPUs,28天)
会议主题
Relation Networks for Object Detection
重点
提出对象关系模块ORM可以嵌入到现有的对象检测流水线中(比如更快的RCNN),效果提高了mAP(0.5-2)
该模块通过一组对象的外观特征和几何图形之间的交互同时处理这些对象。
框架和技术细节
论文:
https://arxiv.org/abs/1711.11575
其他
作者表示嵌入2个ORM能够使RCNN更快(+2.3mAP)
网络学习:
高关系权重的的对象对
类共现信息
会议主题
DeepGlobe: A Challenge for Parsing the Earth through Satellite Images
重点
博客链接:
http://deepglobe.org/
D-LinkNet:道路提取的获胜者
Dense Fusion:地面覆盖分类的获胜者
Multi-task U-net:建筑检测的获胜者
框架和技术细节
D-LinkNet:
结构:该网络采用LinkNet架构构建,中心部分有扩张的卷积层。linknet架构在计算和内存方面非常有效。Dilation convolution是一个强大的工具,它可以在不降低特征图分辨率的情况下扩大特征点的接收范围。
损失函数和优化器:
BCE(二进制交叉熵)+dice系数损失作为损失函数,Adam作为优化器。
数据增强:
测试时间增强(TTA)(包括图像水平偏移、图像垂直偏移、图像对角线偏移(预测每个图像2*2*2=8次)然后恢复输出以匹配原始图像
Dense Fusion:Dense Fusion Classmate Network(DFCNet)
Multi-task U-net:
数据
高分辨率卫星图像数据集(由DigitalGlobe提供)和相应的训练数据
应用
三个挑战:道路提取、建筑识别、地面覆盖分类
会议主题
Interpretable Machine Learning for Computer Vision
重点
解释性不是要理解模型所有数据点的每一个字节,而是对你下游目标的足够了解。
框架和技术细节
Slides: Intro to interpretable ML
https://interpretablevision.github.io/
应用
AI的可解释性
会议主题
What do deep networks like to see?
重点
对其它分类器的交叉反馈重构
框架和技术细节
项目链接:
https://spalaciob.github.io/s2snets.html
数据
YFCC100m,Imagenet
应用
理解CNN
会议主题
Context Encoding for Semantic Segmentation
重点
上下文编码显著改善了语义分割结果,与FCN相比,仅增加了边际额外计算成本。它有选择地突出依赖于类的特征映射,并简化了网络的问题。该模型在ADE20K测试集中最终获得了0.5567分,超过了2017年COCO挑战赛冠军。它还改进了CIFAR-10数据集上图像分类的相对阴影网络的特征表示。
框架和技术细节
论文:
https://arxiv.org/pdf/1803.08904.pdf
主要贡献:
1、语义编码丢失(SE-loss):一个利用全局场景上下文信息的单元
2、一种新的语义分割框架上下文编码网络(EncNet)的设计与实现:扩充一个预先训练好的深度残差网络。
数据
PSCAL-Context, PASCAL VOC 2012, ADE20K, CIFAR-10
应用
语义分割
会议主题
Learn to See in the dark
重点
一种基于全卷积网络端到端训练的微光图像处理Pipeline
框架和技术细节
论文:
https://arxiv.org/pdf/1805.01934.pdf
数据
作者搜集了夜间的室内和室外图像,总共5094个原始短曝光图像
应用
图像预处理
目标驱动导航,室内3D场景
会议主题
Density Adaptive Point Set Registration
重点
成功处理地面激光雷达应用中常见的严重密度变化
框架和技术细节
论文:
https://arxiv.org/abs/1804.01495
将场景的底层结构建模为潜在的概率分布,从而建立点集密度的不变性。场景的概率模型和配准参数都是通过基于期望最大化的框架中最小化Kullback-Leibler发散来推断的。
观察权重函数
数据
通过在模拟室内3D场景的多边形网格上执行点采样来构建合成点云。虚拟照片集,ETHTLS
应用
激光雷达应用,3D绘图,场景理解
会议主题
Im2Pano3D: Extrapolating 360° Structure and Semantics Beyond the Field of View
重点
为了简化3D结构的预测,建议用它们的平面方程对3D表面进行参数化,并训练模型直接预测这些参数。
框架和技术细节
项目链接:
http://im2pano3d.cs.princeton.edu/
关键想法:室内环境高度结构化。通过学习许多典型场景的统计数据,模型应该能够利用强大的上下文线索来预测超出FoV的内容。
使用多个损失函数:pixel-wise accuracy、使用Patch-GAN丢失的中级上下文一致性、按场景测量的全局场景一致性和对象分布。最终损失是三级损失的加权和。
数据
3D House数据集:SUNCG和Matterplot3D
应用
机器人、导航
会议主题
Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments
重点
平均指令长度:29个词(自然语言)
提出在真实建筑物中导航的第一个基准数据集
框架和技术细节
项目链接:
https://bringmeaspoon.org/
代理:RNN(Seq2Seq LSTM)
数据
Matterport3D
Room-to-Room (R2R)
测试集:之前看不见的建筑
应用
机器人
会议主题
Sim2Real View Invariant Visual Servoing by Recurrent Control
重点
视觉servoing系统利用其对过去动作的记忆,从目前角度来理解这些动作是如何影响机器人的动作,纠正错误并逐渐接近目标。
使用模拟数据和强化学习目标来学习该循环控制器。
框架和技术细节
论文:
https://arxiv.org/pdf/1712.07642
Visual servoing:使用主要视觉反馈将工具或终点移动到所需位置
目标由查询对象的图像指示,并且网络必须找出该对象在图像中的位置。
数据
通过生成具有不同相机位置,对象和纹理的大量图像来合成监督学习的训练数据。
应用
机器人
参考链接:
https://olgalitech.wordpress.com/2018/06/30/cvpr-2018-recap-notes-and-trends/
领取专属 10元无门槛券
私享最新 技术干货