首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

论文推荐:谷歌Masked Generative Transformers 以更高的效率实现文本到图像的 SOTA

作者头像
deephub
发布于 2023-02-01 02:27:18
发布于 2023-02-01 02:27:18
7050
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

基于文本提示的生成图像模型近年来取得了惊人的进展,这得益于新型的深度学习架构、先进的训练范式(如掩码建模)、大量图像-文本配对训练数据的日益可用,以及新的扩散和基于掩码的模型的发展。

在23年1月新发布的论文 Muse中:Masked Generative Transformers 生成文本到图像利用掩码图像建模方法来达到了最先进的性能,零样本 COCO 评估的 FID 分数为 7.88,CLIP 分数为 0.32——同时明显快于扩散或传统自回归模型。

google团队总结了它们的主要贡献如下:

  • 提出了一个最先进的文本到图像生成模型,该模型获得了出色的 FID 和 CLIP 分数(图像生成质量、多样性和与文本提示对齐的定量测量)。
  • 由于使用了量化图像标记和并行解码,模型明显快于同类模型。
  • 架构支持开箱即用的零样本编辑功能,包括inpainting, outpainting和free mask编辑。

Muse构建在谷歌的T5之上,T5是一个大型语言模型,它接受各种文本到文本任务的训练,可通过掩码transformer 架构生成高质量图像。Muse 从 T5 嵌入中继承了有关对象、动作、视觉属性、空间关系等的丰富信息;并学习将这些丰富的概念与生成的图像相匹配。

Muse一共包含八个核心组件,例如它的语义标记化,它使用VQGAN模型的编码器和解码器对来自不同分辨率的图像进行编码,并输出离散的标记,这些标记捕获图像的更高级别语义,而不受低级别噪声的影响。

超分辨率模型将较低分辨率的潜在映射转换为更高分辨率的潜在映射,并通过更高分辨率的 VQGAN 解码生成最终的高分辨率图像。研究人员还在保持编码器的容量固定的前提下向 VQGAN 解码器添加额外的残差层和通道,然后微调这些新层,同时保持 VQGAN 编码器的权重等固定。由于视觉标记“语言”保持不变,因此可以在不重新训练任何其他模型组件的情况下可以改善生成图像的细节和视觉质量。

为了改进 Muse 的文本图像对齐,还使用了一种无分类器指导 (classifier-free guidance) 的方法,该方法线性增加引导尺度,在低引导或无引导的情况下对早期标记进行采样,对后面的标记逐渐增加条件提示的影响。还采用并行解码来减少推理时间。

在他们的实证研究中,Muse与各种文本到图像生成任务的流行基准模型进行了比较。Muse 900M参数模型在CC3M数据集上实现了新的SOTA, FID评分为6.06(越低越好),而Muse 3B参数模型在零样本COCO获得了7.88的FID评分,CLIP 分数为 0.32。

Muse展示了令人印象深刻的无需微调的零样本编辑功能,进一步证实了冻结的大型预训练语言模型作为文本到图像生成的强大而高效的文本编码器的潜力。

这是一篇非常值得推荐的论文,并且google还为他制作了专门的网站:

https://muse-model.github.io/

https://arxiv.org/abs/2301.00704

作者:Synced

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
C# 11:接口中的静态抽象成员
接口我们都很了解了,在编写代码的时,如果有一定的抽象思维,就会将不同对象的相同行为抽象出来,放到接口中,我们最熟悉的就是在接口中写一堆方法的定义。
oec2003
2022/12/01
8240
C# 11:接口中的静态抽象成员
.NET Core开发实战(第19课:日志作用域:解决不同请求之间的日志干扰)--学习笔记
日志框架是用统一的记录方式,让我们可以把日志记录到不同的地方去,输出到不同的地方去
郑子铭
2021/01/13
5610
基于.net8在 ASP.NET Core 中掌握 API 密钥身份验证
如果我告诉您,保护 API 比您想象的要简单,会怎么样?如果您认为向 .NET 8 应用程序添加强大的安全性需要大量复杂的设置,那么想象一下只需几行代码即可实现 API 密钥身份验证的轻松程度。突然之间,您的服务变得安全并受到保护,不会受到未经授权的访问!您知道在 ASP.NET Core 中实施 API 密钥身份验证是多么容易吗?如果您有兴趣让您的 API 免受窥探,那么您绝对应该继续阅读。
郑子铭
2024/12/05
5910
基于.net8在 ASP.NET Core 中掌握 API 密钥身份验证
Unity3D网络通讯(一)--Asp.Net Core WebApi创建发布注意事项
最近一直在练习Unity3D,如果在项目中肯定少不了与后台交互,所以就准备把Unity中和后台交互这块专门做点Demo学习和掌握一下,计划是包括Http Restful,Socket,Webservice等方式都练习一下,本章就开始先从后台的Asp.Net Core的WebApi创建和发布开始。
Vaccae
2020/09/10
1.6K0
使用 Tye 辅助开发 k8s 应用竟如此简单(三)
续上篇,这篇我们来进一步探索 Tye 更多的使用方法。本篇我们来了解一下如何在 Tye 中如何对数据库进行链接。
newbe36524
2021/02/18
6430
使用 Tye 辅助开发 k8s 应用竟如此简单(三)
详解Net Core Web Api项目与在NginX下发布
本文将介绍Net Core的一些基础知识和如何NginX下发布Net Core的WebApi项目。
Kiba518
2020/02/26
1.5K0
ASP.NET Core 6框架揭秘实例演示[12]:诊断跟踪的进阶用法
一个好的程序员能够在系统出现问题之后马上定位错误的根源并找到正确的解决方案,一个更好的程序员能够根据当前的运行状态预知未来可能发生的问题,并将问题扼杀在摇篮中。诊断跟踪能够帮助我们有效地纠错和排错《几种基本诊断跟踪编程方式》提供了7个实例演示了针对TraceSource、EventSource和DiagnosticSource的基本用法,其实它们还具有一个更“高级”的使用方式。(本篇提供的实例已经汇总到《ASP.NET Core 6框架揭秘-实例演示版》)
蒋金楠
2022/05/09
4440
ASP.NET Core 6框架揭秘实例演示[12]:诊断跟踪的进阶用法
给.Net 5 Api增加JwtBearer认证
JWT是Json Web Token的缩写。JWT, 是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准(RFC 7519)。该token被设计为紧凑且安全的,特别适用于分布式站点的单点登录(SSO)场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息,以便于从资源服务器获取资源,也可以增加一些额外的其它业务逻辑所必须的声明信息,该token也可直接被用于认证,也可被加密。
Mr. Wei
2020/12/27
1.7K0
给.Net 5 Api增加JwtBearer认证
【.NET】通过代码实现导出进程的dump文件和内存分析
因为需要获取进程的processID,所以接着上次写的识别.NET进程的控制台程序【参考检测.NET CORE+和.NET FX进程有关那个文章】,直接在这上面新增功能。
Wesky
2024/08/13
3040
【.NET】通过代码实现导出进程的dump文件和内存分析
.Net Aspire初体验
今天参加了Post Microsoft Build & AI Day深圳的集会,众多大佬分享了非常优质前沿的技术和实践,实在受益良多,为了消化吸收关于张队分享的.Net Aspire的内容,特实操一遍小示例并记录如下:
DotNet Whisperer
2024/08/14
2220
.Net Aspire初体验
.NET Core 中的日志与分布式链路追踪
程序记录的日志一般有两种作用,故障排查、显式程序运行状态,当程序发生故障时,我们可以通过日志定位问题,日志可以给我们留下排查故障的依据。很多时候,往往会认为日志记录非常简单,例如很多程序只是 try-catch{},直接输出到 .txt,但是这些日志往往无法起到帮助定位问题的作用,甚至日志充斥了大量垃圾内容;日志内容全靠人眼一行行扫描,或者 Ctrl+F 搜索,无法高效率审查日志;日志单纯输出到文本文件中,没有很好地管理日志。
痴者工良
2021/04/26
1.6K0
asp.net core 3.1/swagger
安装nuget包:Swashbuckle.AspNetCore.SwaggerUI和Swashbuckle.AspNetCore.Annotations,配置swagger:
雪飞鸿
2020/05/25
6160
不安装运行时运行 .NET 程序 - NativeAOT
大家好,先祝大家国庆快乐。不过大家看到这篇文章的时候估计已经过完国庆了 😃。 上一篇我们写了如何通过 SelfContained 模式发布程序(不安装运行时运行.NET程序)达到不需要在目标机器上安装 runtime 就可以运行 .NET 程序的目标。其实除了标准的 self-contained 微软还给我们带来了 Native AOT 发布模式。是的你没看错,通过该技术我们的 .NET 程序会直接编译为 Native 代码而不再是 IL ,程序运行的时候直接就是机器码,不再需要 JIT 编译。通过 AO
MJ.Zhou
2022/10/27
1.4K0
不安装运行时运行 .NET 程序 - NativeAOT
使用.Net Core编写命令行工具(CLI)
  命令行工具(CLI)是在图形用户界面得到普及之前使用最为广泛的用户界面,它通常不支持鼠标,用户通过键盘输入指令,计算机接收到指令后,予以执行。
leon公众号精选
2022/04/27
1K0
使用.Net Core编写命令行工具(CLI)
当 .NET 5 遇上OpenTelemetry,会碰撞出怎样的火花?
OpenTelemetry是谷歌和微软共同推进的云原生监控的新规范, 兼容OpenTracing和OpenCensus
全球技术精选
2021/02/19
5980
当 .NET 5 遇上OpenTelemetry,会碰撞出怎样的火花?
ASP.NET Core分布式项目实战(第三方ClientCredential模式调用)--学习笔记
先启动 IdentityServerCenter,ClientCredentialApi
郑子铭
2021/01/13
3320
诊断日志知多少 | DiagnosticSource 在.NET上的应用
最近为了解决ABP集成CAP时无法通过拦截器启用工作单元的问题,从小伙伴那里学了一招。借助DiagnossticSource,可以最小改动完成需求。关于DiagnosticSource晓东大佬18年在文章 在 .NET Core 中使用 Diagnostics (Diagnostic Source) 记录跟踪信息就有介绍,文章开头就说明了Diagnostics 一直是一个被大多数开发者忽视的东西。是的,我也忽略了,这个好东西,有必要学习一下,下面就和大家简单聊一聊System.Diagnostics.DiagnosticSource在.NET上的应用。
圣杰
2020/10/16
1.2K0
诊断日志知多少 | DiagnosticSource 在.NET上的应用
ASP.NET Core分布式项目实战(oauth密码模式identity server4实现)--学习笔记
在 IdentityServerCenter 的 Config 中引入测试命名空间
郑子铭
2021/01/13
5110
ASP.NET Core分布式项目实战(oauth密码模式identity server4实现)--学习笔记
.NET 5.0正式发布,新功能特性(翻译)
  我们很高兴今天.NET5.0正式发布。这是一个重要的版本—其中也包括了C# 9和F# 5大量新特性和优秀的改进。微软和其他公司的团队已经在生产和性能测试环境中开始使用了。这些团队向我们反馈的结果比较令人满意,它证明了对性能提升及降低Web应用托管成本的机会有积极的表现。从预览版1开始,我们一直在5.0上运行我们自己的网站。从我们目前的所见所闻来看,.NET5.0无需在升级上花费太多的精力就能带来巨大的价值。对于你的下一个应用来说,这是一个很好的选择,而且可以直接从早期的.NET Core版本升级。我们希望您在台式机、笔记本电脑和云实例上正式开始使用它。
张传宁IT讲堂
2020/11/13
2.5K0
.NET 5.0正式发布,新功能特性(翻译)
使用Azure DevOps Pipeline实现.Net Core程序的CI
上次介绍了Azure Application Insights,实现了.net core程序的监控功能。这次让我们来看看Azure DevOps Pipeline功能。Azure DevOps Pipeline 是Azure DevOps里面的一个组件,对于12个月试用账号同样永久免费。
MJ.Zhou
2020/07/21
7820
使用Azure DevOps Pipeline实现.Net Core程序的CI
推荐阅读
相关推荐
C# 11:接口中的静态抽象成员
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档