Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >线上购物被革命!谷歌最新模型AI一键试衣,细节不变姿势随意换

线上购物被革命!谷歌最新模型AI一键试衣,细节不变姿势随意换

作者头像
新智元
发布于 2023-08-05 09:44:44
发布于 2023-08-05 09:44:44
7870
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:编辑部

【新智元导读】谷歌的新AI模型,直接解决了AI换装的两大难题——既保留衣服细节,又能随意换姿势。以后再剁手,恐怕要更容易了!

一键换装,被谷歌给实现了!

这个AI试衣模型TryOnDiffusion,你只要给它一张自己的全身照,和服装模特的照片,就能知道自己穿上这件衣服之后是什么样子了。

主打的就是一个真实。所以,是真人版奇迹暖暖吧?

按说,各种换装的AI早就有不少了,谷歌的这个AI模型究竟有何突破呢?

项目地址:https://tryondiffusion.github.io/

关键就在于,他们提出了一种基于扩散的框架,把两个Parallel-Unet统一了起来。

在以前,这种模型的关键挑战就在于,如何既保留衣服细节,又能将衣服变形,同时还能适应不同主体的姿势和形状,让人感觉不违和。

以前的方法无法同时做到这两点,要么只能保留衣服细节,但无法处理姿势和形状的变化,要么就是可以换姿势,但服装细节会缺失。

而TryOnDiffusion因为统一了两个UNet,就能够在单个网络中保留衣服细节,并且对衣服进行重要的姿势和身体变化。

可以看到,衣服在人物上的变形极其自然,并且衣服的细节也还原得非常到位。

话不多说,让我们直接看看,谷歌的这个「AI试穿」到底有多厉害!

用AI生成试穿图像

具体来说,Virtual Try-On(VTO)可以向顾客展示衣服在不同体型和尺寸的真实模特身上的效果。

虚拟服装试穿中,有许多微妙但对于来说至关重要的细节,比如衣服的垂坠、折叠、紧贴、伸展和起皱的效果。

此前已有的技术,比如geometric warping(几何变形),可以对服装图像进行剪切和粘贴,然后对其进行变形以适配身体的轮廓。

但这些功能,很难让衣服妥帖地适应身体,并且会存在一些视觉缺陷,比如错位的褶皱,会让衣服看起来畸形和不自然。

因此,谷歌的研究者致力于从头开始生成服装的每个像素,以生成高质量、逼真的图像。

他们采用的技术是一种全新的基于Diffusion的AI模型,TryOnDiffusion。

扩散是逐渐向图像添加额外像素(或「噪声」),直到它变得无法识别,然后完全消除噪声,直到原始图像以完美的质量重建。

像Imagen这样的文本到图像模型,就是使用的来自大语言模型LLM的扩散加文本,可以仅根据输入的文本,就能生成逼真的图像。

Diffusion是逐渐向图像添加额外像素(或「噪声」),直到它变得无法识别,然后再完全消除噪声,直到原始图像以完美的质量重建。

在TryOnDiffusion中,不需要使用文字,而是使用一组成对的图片:一张图片是衣服(或者穿着衣服的模特),一张图片是模特。

每张图片都会被发送到自己的神经网络(U-net),并通过被称为「交叉注意力」的过程来相互共享信息,输出新的穿着这件衣服的模特的逼真图像。

这种基于图像的Diffusion和交叉注意力的结合技术,构成了这个AI模型的核心。

VOT功能让用户可以在符合自己身材的模特身上渲染展示上衣效果。

海量高质量数据训练

谷歌为了使VTO功能尽可能提供真实的效果并且真的能帮助用户挑选衣服,对这个 AI 模型进行了大量的训练。

但是,谷歌没有使用大语言模型来训练它,而是利用了谷歌的购物图。

这个数据集拥有全世界最全面,同时也是最新的产品、卖家、品牌、评论和库存数据。

谷歌使用了多对图像训练模型,每对图像由两种不同姿势的穿着衣服的模特图组成。

比如,一个穿着衬衫的人侧身站立的图像和另一个向前站立的图像。

谷歌专门的扩散模型将图像输入到他们自己的神经网络(U-net)来生成输出:穿着这件衣服的模特的逼真图像。

在这对训练图像中,模型学习将侧身姿势的衬衫形状与面朝前姿势的图相匹配。

反过来也一样,直到它可以从各个角度生成该人穿着衬衫的逼真图像。

为了追求更好的效果,谷歌使用数百万不同服装和人物的随机图像对多次重复了这个过程。

结果就是我们在文章开头的图片呈现出来的效果。

总之,TryOnDiffusion既保留了衣服的细节效果,也适配了新模特的身材和姿势,谷歌的技术做到了二者兼得,效果相当逼真。

技术细节

在一张展示一个模特的身体的图片,另一张展示另一个穿着某件衣服的模特的图片的条件下,TryOnDiffusion的目标是生成一个展示这件服装在这个人身上可能会呈现的具体的视觉效果。

解决这个问题最关键的难点在于,保持服装细节逼真的同时,将服装进行适当的变形以适应不同模特之间的姿势和体型的变化。

先前的方法要么着重于保留服装细节,但无法有效处理姿势和形状的变化。

要么允许根据期望的体型和姿势呈现出了试穿效果,但缺乏服装的细节。

谷歌提出了一种基于Diffusion的架构,将两个UNet(称为Parallel-UNet)合二为一,谷歌能够在单个网络中保留服装细节并对服装的试穿效果进行明显的姿势和身体变化。

Parallel-UNet的关键思想包括:

1)通过交叉注意机制隐式地为服装制作褶皱;

2)服装的褶皱和人物的融合作为一个统一的过程,而不是两个独立任务的序列。

实验结果表明,TryOnDiffusion在定性和定量上均达到了最先进的性能水平。

具体的实现方式如下图所示。

在预处理步骤中,目标人物从人物图像中被分割出来,创建「无服装 RGB」图像,目标服装从服装图像中分割出来,并为人物和服装图像计算姿势。

这些信息输入被带入128×128 Parallel-UNet(关键步骤)以创建128x128的试穿图像,该图像与试穿条件的输入一起作为输入进一步发送到256×256 Parallel-UNet中。

再把256×256 Parallel-UNet的输出内容被发送到标准超分辨率扩散(super resolution diffusion)来创建1024×1024的图像。

而在上面整个流程中最为重要的128×128 Parallel-UNet的构架和处理过程,如下图所示。

将与服装无关的RGB和噪声图像输入顶部的person-UNet中。

由于两个输入内容都是按像素对齐的,在 UNet 处理开始时直接沿着通道维度(channel demension)将两个图像连接起来。

由于两个输入都是按像素对齐的,我们在 UNet 处理开始时直接沿着通道维度将它们连接起来。

将分割后的服装图像输入位于底部的garment-UNet。

服装的特征通过交叉注意(cross attention)融合到目标图像之中。

为了保存模型参数,谷歌研究人员在32×32上采样(Upsampling)之后提前停止了garment-UNet,此时person-UNet中的最终交叉注意力模块(final cross attention module)已经完成。

人和衣服的姿势首先被送入线性层以分别计算姿势嵌入。

然后通过注意力机制将姿势嵌入融合到person-UNet中。

此外,它们被用在使用FiLM在所有规模上调制两个UNet的特征。

与主流技术的对比

用户调查研究:对于每组输入的图片,15个普通用户选从4个备选技术中选择一个他们认为最好的,或者选择「无法区分」。TryOnDiffusion的表现明显超过了其他技术。

下图从左到右依次是「输入,TryOnGAN,SDAFN,HR-VITON,谷歌的方法」。

局限性

不过TryOnDiffusion存在一些局限性。

首先,在预处理过程中,如果分割图和姿势估计存在错误,谷歌的方法可能会出现服装泄漏的瑕疵。

幸运的是,近年来这方面的准确性已经大大提高,这种情况并不经常发生。

其次,不包括关服装的RGB来显示身体的效果并不理想,因为有时它可能只能保留身份的一部分。

例如纹身在这种情况下会不可见,某些的肌肉结构也会不可见。

第三,我们的训练和测试数据集通常都会具有干净统一的背景,因此无法确定该方法在更复杂的背景下的表现如何。

第四,我们不能保证服装在模特身上是否真的合身,只关注试穿的视觉效果。

最后,本研究侧重于上半身的服装,谷歌还没有对全身试穿效果进行实验,未来会进一步对全身效果进行研究。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
虚拟试衣技术发展综述:从应用到开源资源
虚拟试衣是通过虚拟的技术手段,实现用户不用脱去身上衣服,完成变装的效果。最初,起源于换装游戏,随着互联网的普及和电子商务的兴起,消费者对在线购物体验的需求不断增加,虚拟试衣技术因此得到了快速发展。现如今,虚拟试衣技术多应用于:
CV君
2024/07/12
9070
虚拟试衣技术发展综述:从应用到开源资源
[AIGC服务]TryOn虚拟试衣 | 只需照片即可在线换衣
虚拟试穿技术允许用户在线上购物时预览服装在自己身上的效果,从而提高购物体验并减少退货率。
iResearch666
2024/03/14
1.2K1
[AIGC服务]TryOn虚拟试衣 | 只需照片即可在线换衣
Adobe的AI试衣已上线,再也不用担心变成卖家秀了
在过去的十年中,让购物者虚拟地试穿服装和配饰在购物平台大受欢迎。根据Klarna公司进行的一项调查,有29%的购物者倾向于在实际购买商品之前先在线浏览商品,而49%的消费者对预搭配方案感兴趣,这样他们就可以在购买商品之前确定适合的商品。
AiTechYun
2020/02/21
9560
AI一键换衣:开源虚拟试穿项目IDM-VTON介绍与使用
随著电子商务及科技的快速发展,线上购物已成为不少人生活的一部分。最近,一款虚拟试衣技术 IDM-VTON 引起广泛关注,这项技术透过改进扩散模型,为使用者带来真实试穿体验。
Color Space
2024/06/04
3.4K0
AI一键换衣:开源虚拟试穿项目IDM-VTON介绍与使用
[AIGC服务]IDM-VTON | 真实的野外虚拟试穿
本文考虑基于图像的虚拟试穿,在给定一对分别描绘人和衣服的图像的情况下,渲染穿着精选服装的人的图像。与其他方法(例如基于 GAN)相比,之前的作品采用现有的基于样本的修复扩散模型进行虚拟试穿,以提高生成的视觉效果的自然度,但它们无法保留服装的身份。为了克服这一限制,我们提出了一种新颖的扩散模型,可以提高服装保真度并生成真实的虚拟试穿图像。
iResearch666
2024/04/28
6340
[AIGC服务]IDM-VTON | 真实的野外虚拟试穿
每日学术速递6.18
1.TryOnDiffusion: A Tale of Two UNets(CVPR 2023)
AiCharm
2023/07/26
3070
每日学术速递6.18
喂饭级教程!AI一键试衣,不用PS也能学会
如果有一个虚拟试衣镜,直接在线生成一个符合自己身材的数字人,我们把衣服商品图和尺码给到AI,它直接生成衣服的上身效果。再以同样的方式搭全套。
Datawhale
2025/04/01
2470
喂饭级教程!AI一键试衣,不用PS也能学会
深度学习虚拟试衣的挑战和机遇
怎样,这个理由是不是好有说服力?觉得没有说服力的话请点赞,赞多的话我下次再想一个更清新脱俗的偷懒借口……
McGL
2021/01/12
2.6K0
深度学习虚拟试衣的挑战和机遇
虚拟试衣:GAN的落地应用挑战之一
LA-VITON也是一种基于图像的虚拟试穿网络,主要由两个模块组成:几何匹配模块(Geometric Matching Module)和试穿模块(Try-On Module,TOM)。
公众号机器学习与AI生成创作
2021/04/19
1.8K0
虚拟试衣:GAN的落地应用挑战之一
CVPR 2020 | ACGPN: 基于图像的虚拟换装新思路
本文介绍的是CVPR2020入选论文《Towards Photo-Realistic Virtual Try-On by Adaptively Generating↔Preserving Image Content》。
AI科技评论
2020/04/01
3.8K0
CVPR 2020 | ACGPN: 基于图像的虚拟换装新思路
革命性的虚拟试穿技术:IDM-VTON让在线购物体验更真实
随着电子商务的蓬勃发展,线上购物已成为我们生活的一部分。然而,缺少了实体店试穿体验的线上购物,总让人觉得少了点什么。为了解决这一问题,科研人员一直在探索如何通过技术手段提供更加真实的虚拟试穿体验。最近,一个名为 IDM-VTON 的项目,由 Yisol Choi、Sangkyung Kwak、Kyungmin Lee、Hyungwon Choi 和 Jinwoo Shin 共同研发,为我们带来了突破性的进展。
程序那些事儿
2024/04/26
9630
革命性的虚拟试穿技术:IDM-VTON让在线购物体验更真实
电商模特1元购,人图背景随便换!国产AI工具降本99%
如此一来,商家岂不是无需进行大量线下拍摄,省去换景别甚至外出拍图的步骤,在电脑前即可做出丰富商品图?
量子位
2023/09/08
6200
电商模特1元购,人图背景随便换!国产AI工具降本99%
你还说这是AI?我们体验了一波生成亚洲人最好看的文生图大模型
点开几个 Demo,确实惊艳。下方视频是一位海外网友自制的穿搭合辑,你能分得清这是 AI 还是真人吗?
机器之心
2025/02/15
2410
你还说这是AI?我们体验了一波生成亚洲人最好看的文生图大模型
你跳宅舞的样子很专业:不,这都是AI合成的结果
想展示自己的完美舞姿吗?你现在只需要一段别人跳舞的视频,和自己的一张照片。最近,来自上海科技大学和腾讯 AI Lab 的新研究着实让很多人跃跃欲试。
机器之心
2019/09/29
8780
你跳宅舞的样子很专业:不,这都是AI合成的结果
再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
把指定物品放进另一张图片不像贴张贴纸一样简单,想要做到无缝接入,贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。
机器之心
2023/12/21
6630
再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
可灵AI深夜悄悄上线AI模特,他们这是要革电商的命。
我大概测了一下,效果还不错,语义理解有加强,真人效果史诗级强化,而且对亚洲人适配效果极佳。审美也高级了。
数字生命卡兹克
2025/04/14
970
可灵AI深夜悄悄上线AI模特,他们这是要革电商的命。
3 个令人惊艳的 GitHub 开源项目,诞生了!
如何有效地记录及整理自己日积月累的笔记,并可迅速检索到关键内容,成为每个习惯做笔记的你一直在寻求的答案。
老K博客
2024/03/13
4320
3 个令人惊艳的 GitHub 开源项目,诞生了!
【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)
DensePose 是 Facebook 研究员 Natalia Neverova、Iasonas Kokkinos 和法国 INRIA 的 Rıza Alp Guler 开发的一个令人惊叹的人体实时姿势识别系统,它在 2D 图像和人体3D 模型之间建立映射,最终实现密集人群的实时姿态识别。
新智元
2018/09/25
1.1K0
【ECCV 2018】Facebook开发姿态转换模型,只需一张照片就能让它跳舞(视频)
智能时尚:人工智能在时尚&服装行业的应用综述 | 580+参考文献
标题:Smart Fashion: A Review of AI Applications in the Fashion & Apparel Industry
AI算法与图像处理
2021/11/09
2.7K0
智能时尚:人工智能在时尚&服装行业的应用综述 | 580+参考文献
TryOnDiffusion-Google最强虚拟试衣App
iResearch666
2023/09/13
2.5K0
TryOnDiffusion-Google最强虚拟试衣App
推荐阅读
相关推荐
虚拟试衣技术发展综述:从应用到开源资源
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档