Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >FashionAI 天池竞赛 - Top5 技术方案简汇

FashionAI 天池竞赛 - Top5 技术方案简汇

作者头像
AIHGF
发布于 2019-02-27 09:54:36
发布于 2019-02-27 09:54:36
1.7K0
举报
文章被收录于专栏:AIUAIAIUAI

原文:FashionAI 天池竞赛 - Top5 技术方案简汇 - AIUAI

主页:http://fashionai.alibaba.com/ 服饰属性标签识别 - Top5-PPT

阿里天池关于服装属性标签识别的竞赛的 Top5 团队的技术方案 PPT 汇总. 可以在竞赛主页观看技术方案的答辩视频.

1. 禾思众成团队

2. JUST GAN 团队

3. 小飞猪团队

在开始我们的展示之前,首先想先问大家一个问题: 如何理解Fashion?其实每个人对fashion都有不同的理解和关注点。因此阿里巴巴在本次竞赛中提供了丰富的数据,从Attributes Recognition 角度去理解Fashion。

数据集照片的属性标签可以分为两大类:长度估计,款式设计 长度估计包括:衣长,裤长,裙长,袖长 款式设计包括:领口,领线 带观众了解一下数据集,数据集又分为两大类,一类是长度估计,包括衣长、裙长、裤长、袖长;另一类是款式设计,大多关注领口的款式,比如V领圆领等。 总的来说,数据集大概有18万的训练图片,可以分为8大类,54小类。

(看几个例子)数据集中有两类图片,一类是模特图,一类是平铺图。左边是两个比较容易的图片(不需要解释为什么容易),右边是一些比较难的图片,他们有遮挡、剪切、多个人、姿势变形、小尺度、旋转等方面的问题.

下面,我向大家介绍一下我们这次提出的解决方案

我们的方案非常直观,分为两个模块,第一个是Detection,第二个是Recognition.

具体的网络框架可以看这幅图,左边是Detection的过程,对输入的图片进行处理,找到图片最重点的区域,右边是recognition,检测到图片区域会经过两个深度卷积神经网络,得到最终的结果。下面我们将对这些模块一一具体讲解。

首先,为什么我们要做detection。大家可以想象一下,不管我们的分类长度估计也好,款式设计也好,首先我们应该做的,是把这件衣服找出来。而detection就能帮助我们完成这件事情,让我们把注意力集中到图片中最关键的区域,这样就可以避免位置和尺度不一带来的干扰。其次是假如图片中有多个人或多件衣服,detection也是可以搞定的,有多少件给你识别多少件出来,这样的情况在生活中是非常常见的.

这是我们detection的整个pipeline,可以分为四步。首先,当然是检测出衣服所在的位置在哪啦(强调“当然是”),然后再经过后面的放大,填充以及数据增强操作.

我们怎么做detection呢。我们采用的是Faster R-CNN, ROIAlign和YOLOv2作为我们的detector,它们都是在学术界非常state-of-the-art的方法,也在一些成熟的产品项目中有应用.

检测出框之后,我们会利用框周围的context信息对原来的框进行补充。好这里问题来了,为什么我们要用context信息呢? 大家可以想象一下,比如对于裙子来说,我们人的腿是不是一个非常有用的参考信息,比如我看到了膝盖,可能就是短裙,我看到脚踝,可能就是长裙。因此,这个context上下文信息是可以引入一些挺有用的参考信息的,对分类也是有帮助的。其次,加context信息可以把一些漏检的区域给补回来,有效地减少缺胳膊少腿的情况. 好,现在问题又来了,怎么设定这个padding的大小呢?这里我们要引入学术圈非常常用的两个数字,一个是512,另一个是448,在训练模型的时候,512 random crop 448是一个非常广泛使用的setting,我们在之后的训练中也用到了。所以,怎么让这个random crop,无论怎么random,都能框住检测的核心区域呢?答案就是,将核心区域的大小缩放到384,这样就能保证,检测核心区域能够永远被框中.

Detection部分的亮点就是这样,下面我将介绍我们的分类模型。我们的base分类模型采用的是DPN和NASNet,其中DPN是imagenet2017 物体定位的冠军,性能非常强大,而NASNet就更有意思了,它是google最近搞出来的,用神经网络生成出来的神经网络。非常推荐去阅读这两篇paper了解更多有意思的细节.

数据集难点。其实在这个task中,有一个提到的难点,这个数据集中有两类的图片,一类是模特图,一类是平铺图。从我们人的直观感受来看,假如衣服穿在人身上,我们人就是一把活的尺子,可以用来丈量衣服的长度,而对于平铺图,就只能通过一些比例,比如长宽比啊去估算了。我们统计了一下数据集的一个分布,发现了一个有趣的事情,在长度估计的类别中,模特图平铺图的比例大概是一半一半,而领口款式设计类的图片全是模特图。我们接下来提出的方案是针对图片有人没人这个特点的,因此只对四个长度类进行设计。

这个是最原始的分类网络,输入图片,输出label。

我们在此基础上,引入了multi task training 的概念,用另一个分支去预测输入图片是模特图还是平铺图,两个分支同时优化整个网络。这样做有什么好处呢?这个好处是体现在分类之前的这个feature F身上的. 原本的 F 只有区分label的能力,网络需要去学习模特图和平铺图之间的共同点,这样是比较困难的;现在F同时具有了判别模特图平铺图的能力,这样在最后一个隐空间学习的时候,能从两个不同的角度去拟合label,这两个角度都是学习同种图片类内的共同点,所以会比较简单。

首先,不知道大家注意到没有,不同长度之间,实际是有一种包含递增的关系的. 像长裙可能有这么多布料,长裙包含这么多布料,它当然包括短裙需要的布料长度. 我们可以利用这种类别与类别之间的递增关系。 另外,如果一个短裙被误判成了这种中长裙,错得不多,但如果预测成了长裙,那错得就很离谱了,显然,错得越离谱需要给更多的惩罚。结合刚刚说到的两点,我们提出了这种 incremental label 的表达方式。 具体是这样的。最原始的label,第一位是1代表第一类,第三位是1代表第三位;可能也有其他人注意到这点,稍微改进成了这种soft label的方式,让ground truth周围的类不会有太大的惩罚;而我们提出的incremental label是这样,一个1代表第一类,三个1代表第三类,六个1代表第六类,用1的数量来表示长度。我们通过实验也发现,这种方式的设计可以大大提升准确率。

下面我们展示一些我们在比赛过程中做的一些不同维度的对比实验

首先这个是我们在本地验证集上的实验结果,我们对比了在所有类别上用原图,加了detection以及加了模特平铺图分支分别的实验结果,可以看到,加了detection对准确率和map的提升非常大,而加了模特平铺图分支之后又能进一步提升.

这个是我们在衣长这个类别上,对比了我们几种创新方案的实验,可以incremental label和soft label的准确率提升都非常大,但map指标反而下降,因此最终我们没有采用这两种方案,用的还是模特平铺图这种在准确率和map都有提升的方案

接下来我带大家做一下性能分析。首先我先解释几个概念,在预测的时候,为了提高分数,我们使用了multi crop testing,具体操作是 : 1crop指的是原图,2crop指的是原图和翻转,5crop指的是对原图进行五种尺度的裁剪,10crop是五种尺度裁剪以及镜像。

下面这个是我们模型的运行效率,推荐大家从下往上看。

最后,总结一下提出的方案.

首先,Detection能够大大地提升准确率,而且它在更加复杂的场景,比如多个物体,或者物体不在图片中心之类的情况,都能够适用,在实际产品中非常具有应用价值;

其次,适当的multi task training可以增强feature的表达能力,在一些具有层级结构label的分类任务中能够起到作用,比如说动植物里面界门纲目科属种的分类就可以这么用;

第三,incremental label的这种表达形式对于具有递增形式label的分类任务是非常有作用的,比如年龄,长度,体积等等

性能分析,上面是在detector和classifier中用的分辨率,检测器速度 下面是分类器速度,当我用用大batch size的时候,由于GPU做了并行优化,可以发现速度明显加快

Invisible是一个特殊的类,它跟其他长度的类或者设计的类没有共性,放在一起会加大网络学习的难度。我们将这个task提前,让模型在前面先判断是否visible,如果是visible的,后面再进行label预测,这样就不会让invisible的图片干扰到label的学习.

这个是novel trail的实验结果,可以看到 incremental label,soft label, invisible的准确率都有提升,但是map降了,所以我们最终的方案并没有采用.

4. BUPT_OVERFITED 团队

5. SIAT-MMLAB-VIP 团队

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年01月30日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
服装关键点检测算法(CNN/STN)含(4点、6点以及8点)
最近几年服饰关键点检测分析引起了人们的广泛关注。以前的具有代表性的工作是服装关键点的检测或人体关节。这项工作提出预测关键位置在时尚物品上定义的点,例如领口的角落,下摆和袖口。然而,由于背景杂乱,人体的姿势和尺度,检测时尚义务上的关键点是具有挑战性的,为了消除上述变化,以前的工作通常是假设在训练和测试中提供的边界的边框作为附加条件,然而这在实践中是不适用的,本项目涉及的是无约束的服装的关键点的检测,无论是训练还是测试所涉及到的是没有提供服饰的边界框,对此我们提出了一种新的网络结构, 此结构主要包含两个部分,首先使用Resnet进行特征提取,然后利用STN空间转换网络除去背景的干扰,最后使用全连接网络进行对关键点的位置和可见性进行预测。
机器学习AI算法工程
2021/04/22
2.4K0
论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery
[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]
AIHGF
2019/02/18
9380
论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery
智能时尚:人工智能在时尚&服装行业的应用综述 | 580+参考文献
标题:Smart Fashion: A Review of AI Applications in the Fashion & Apparel Industry
AI算法与图像处理
2021/11/09
2.9K0
智能时尚:人工智能在时尚&服装行业的应用综述 | 580+参考文献
一文梳理缺陷检测方法
近年来,随着深度学习的快速发展,基于卷积神经网络(CNN)的计算机视觉技术在工业领域得到了广泛的应用。目前,机器视觉表面缺陷检测是CNN在工业上最成熟的应用之一。接下来我们将介绍深度学习在表面缺陷检测领域的概述。
Amusi
2021/01/28
6.4K0
一文梳理缺陷检测方法
全卷积网络:从图像级理解到像素级理解
卷积神经网络(CNN):图像级语义理解的利器 自2012年AlexNet提出并刷新了当年ImageNet物体分类竞赛的世界纪录以来,CNN在物体分类、人脸识别、图像检索等方面已经取得了令人瞩目的成就。通常CNN网络在卷积层之后会接上若干个全连接层, 将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。 以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述, 比如AlexNet的ImageNet模型输出一个1000
智能算法
2018/04/02
2.3K0
全卷积网络:从图像级理解到像素级理解
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD「建议收藏」
之前我所在的公司七月在线开设的深度学习等一系列课程经常会讲目标检测,包括R-CNN、Fast R-CNN、Faster R-CNN,但一直没有比较好的机会深入(但当你对目标检测有个基本的了解之后,再看这些课程你会收益很大)。但目标检测这个领域实在是太火了,经常会看到一些写的不错的通俗易懂的资料,加之之前在京东上掏了一本书看了看,就这样耳濡目染中,还是开始研究了。
全栈程序员站长
2022/06/30
8840
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD「建议收藏」
计算机视觉中的物体检测方法
本文适合刚入门物体检测的人群学习,不涉及公式推理。 目录 *摘要 *相关物体检测数据集介绍 *现有的主流物体检测算法 *物体检测的难点与挑战 *相关术语介绍 *物体检测的传统算法概述 *基于深度学习的物体检测算法 R-CNN Fast-RCNN Faster-RCNN YOLO *物体检测动手实践 *参考文献 摘要 相比于图像分类,图像中物体检测是计算机视觉中一个更加复杂的问题,因为图像分类只需要判断出图像属于哪一类就行,而在物体检测中,图像里可能有多个物体,我们需要对所有
张俊怡
2018/04/24
1K0
计算机视觉中的物体检测方法
多图文帖智能封面提取方案
导语 一个帖子在用户点进去观看之前,能被用户捕捉到的信息只有封面缩略图、标题、作者等少量信息,这些因素直接决定了用户是否愿意点击该帖。一个好的封面能明显提高用户的点击欲,而对于不少UGC内容的帖子,用户也不会去指定封面,这时智能提取封面就显得尤为重要。 对于资讯类App,从文章的配图中选择1-3张图片并裁剪出适合区域作为封面,是一种很常见的场景。这里会涉及到两个问题:如何从多张图片中选择质量较高的前几张图作为封面?挑选出来的图片宽高比可能与封面要求的比例不符,如何从图中裁剪出适合的区域呈现给用户? 本
腾讯技术工程官方号
2019/07/30
1.7K0
多图文帖智能封面提取方案
基于密度图的航空物体检测:理论与代码实现
本文来谈一下基于深度学习的航空物体场景下的物体检测。航空物体这类场景一般由无人机空拍来收集数据,然后进行后处理来满足特定的任务场景,有些情况下要求实现实时反馈,甚至多任务。
CV君
2021/01/25
8010
基于密度图的航空物体检测:理论与代码实现
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
object detection,就是在给定的图片中精确找到物体所在位置,并标注出物体的类别。所以,object detection要解决的问题就是物体在哪里以及是什么的整个流程问题。
智能算法
2019/12/06
13.1K1
一文读懂目标检测:R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD
CVPR 2019细粒度图像分类竞赛中国团队DeepBlueAI获冠军 | 技术干货分享
近日,在Kaggle上举办的CVPR 2019 Cassava Disease Classification挑战赛公布了最终结果,国内团队 DeepBlueAI 获得冠军。
新智元
2019/06/21
3.5K0
CVPR 2019细粒度图像分类竞赛中国团队DeepBlueAI获冠军 | 技术干货分享
想读懂YOLOV4,你需要先了解下列技术(一)
yolov4论文:YOLOv4: Optimal Speed and Accuracy of Object Detection arxiv:https://arxiv.org/abs/2004.10934 github源码:https://github.com/AlexeyAB/darknet
磐创AI
2021/08/05
9670
想读懂YOLOV4,你需要先了解下列技术(一)
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
机器之心专栏 作者:王雅楠、廖胜才 本文通过从单张照片克隆整套衣服穿搭到三维人物,构建了一个包含 5621 个三维人物模型的虚拟行人数据集 ClonedPerson。这些虚拟人物在游戏环境里模拟真实监控渲染了多场景下的多摄像机视频。实验表明,该数据集在行人再辨识任务取得了良好的泛化性,并可应用于无监督域适应、无监督学习、人体关键点检测等多个相关任务。相关论文已被 CVPR 2022 接收,数据和代码已开源。 论文地址:https://arxiv.org/pdf/2204.02611.pdf 项目地址:ht
机器之心
2022/07/12
9670
CVPR 2022 | ClonedPerson:从单照片构建大规模真实穿搭虚拟行人数据集
深度学习经典网络解析:8.R-CNN
  目标检测(Object Detection) 就是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,通俗点说就是给定一张图片要精确的定位到物体所在位置,并完成对物体类别的识别。其准确性和实时性是整个系统的一项重要能力。
AiCharm
2023/05/15
7110
深度学习经典网络解析:8.R-CNN
Object Detection · RCNN论文解读
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列。2010年-2012年,Object Detection进展缓慢,在DPM之后没有大的进展,直到CVPR2014,RBG大神(Ross Girshick)把当时爆火的CNN结合到Detection中,将PASCAL VOC上的准确率提高到53.7%,本文为你解读RBG的CVPR2014 paper: Rich feature hierarchie
梦里茶
2018/03/30
8430
来了解下计算机视觉的八大应用
之前通过三篇文章简单介绍了机器学习常用的几种经典算法,当然也包括了目前很火的 CNNs 算法了:
kbsc13
2019/08/16
1.1K0
SSD原理解读-从入门到精通「建议收藏」
当初写这篇博客的初衷只是记录自己学习SSD的一些心得体会,纯属学习笔记,后来由于工作上的需要,需要对小伙伴进行目标检测方面的培训,后来就基于这篇博客进行了扩展,逐渐演变成了现在的样子,本文力求从一个初学者的角度去讲述目标检测和SSD(但是需要你具备CNN的基础),尽量使用通俗的语言并结合图表的方式让更多初学者更容易理解SSD这个算法,但是一个人的时间精力有限,不可能深入理解SSD的每一个细节,加上表达能力也有限,自己理解了的东西不一定在文中能够说明白,文中有什么不妥的地方,欢迎大家批评指正,也欢迎留言一起交流讨论。
全栈程序员站长
2022/09/02
8190
SSD原理解读-从入门到精通「建议收藏」
微信扫物上线,全面揭秘扫一扫背后的识物技术!
12月23 日,微信扫物  iOS 版本正式上线。从识别特定编码形态的图片,到精准识别自然场景中商品图片,有哪些难点需要去克服? 扫物以图片作为媒介,聚合微信内部有价值的生态内容如电商,百科,资讯进行
风间琉璃
2019/12/27
12.8K1
实录 | 旷视研究院详解COCO2017人体姿态估计冠军论文(PPT+视频)
主讲人:王志成 | 旷视研究院研究员 屈鑫 整理编辑 量子位 出品 | 公众号 QbitAI 12月13日晚,量子位·吃瓜社联合Face++论文解读系列第二期开讲,本期中旷视(Megvii)研究院解读了近期发表的人体姿态估计论文:Cascaded Pyramid Network for Multi-Person Pose Estimation。 基于这篇论文所提出的算法,Megvii(Face++)队在COCO2017人体姿态估计竞赛上获得了历史最好成绩,相对 2016年人体姿态估计的最好成绩提高了19%
量子位
2018/03/22
1.5K0
实录 | 旷视研究院详解COCO2017人体姿态估计冠军论文(PPT+视频)
商汤科技20篇论文入选ICCV 2017,披露最新研究主线
来源自 商汤科技 量子位 出品 | 公众号 QbitAI 本月22-29日,是两年一度的国际计算机视觉大会(ICCV)召开的日子。 于往届ICCV相比,本届 ICCV堪称火爆。据组委会统计,ICCV 2017共收到2143篇论文投稿,其中621篇被选为大会论文,录用比例29%。其中包含45篇口头报告(Oral)和56篇亮点报告(Spotlight),参会人数预计将超过3000人。 本届ICCV中,商汤科技与中国香港中大-商汤科技联合实验室共发表了20篇论文,其中包括3篇Oral (录取
量子位
2018/03/23
8290
推荐阅读
相关推荐
服装关键点检测算法(CNN/STN)含(4点、6点以及8点)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档