前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >原来Stable Diffusion是这样工作的

原来Stable Diffusion是这样工作的

原创
作者头像
程序那些事
发布于 2024-06-06 09:36:50
发布于 2024-06-06 09:36:50
3230
举报
文章被收录于专栏:程序那些事程序那些事

stable diffusion是一种潜在扩散模型,可以从文本生成人工智能图像。为什么叫做潜在扩散模型呢?这是因为与在高维图像空间中操作不同,它首先将图像压缩到潜在空间中,然后再进行操作。

在这篇文章中,我们将深入了解它到底是如何工作的,还能够知道文生图的工作方式与图生图的的工作方式有何不同?CFG scale是什么?去噪强度是什么?

了解stable diffusion工作原理的好处: 可以更加正确的使用这个工具,从而实现更加可控的结果。

stable diffusion有什么用处?

简单来说,稳定扩散是一种文本到图像的模型。给它一个文本提示,它会返回一个与文本匹配的AI图像。

image-20240422121545313
image-20240422121545313

stable diffusion模型

稳定扩散属于一类称为扩散模型的深度学习模型。它们是生成模型,意味着它们被设计用来生成类似于训练数据的新数据。而在stable diffusion中下,这些数据就是图像。

那么为什么它被称为扩散模型?

因为它的实现原理看起来非常像物理学中的扩散。接下来让我们看看他的底层原理实现。这里我以最常见的1girl作为例子来说明。

正向扩散

正向扩散过程中,会向训练图像添加噪音,逐渐将其转化为不具有特征的噪音图像。正向过程会将任何1girl的图像转变为噪音图像。最终,你将无法判断它们最初到底是什么。(这很重要)

就像一滴墨水落入了一杯水中。墨水滴在水中扩散开来。几分钟后,它会随机分布在整个水中。你再也无法判断它最初是落在中心还是靠近边缘。

下面是一个图像经历正向扩散的示例。1girl的图像变成了随机噪音。

image-20240422123002139
image-20240422123002139

逆向扩散

正向扩展很好理解,那么接下来就是神奇的部分,如果我们能够逆向扩散呢?就像倒放视频一样,倒退时间。

从一个嘈杂、毫无意义的图像开始,逆向扩散可以恢复出一张原始的1girl的图像。这就是主要的想法。

训练过程

逆扩散的概念肯定是有创意的。但是,现在的问题是,“怎样才能实现逆扩散呢?”

为了逆转扩散,最根本的是我们需要知道图像添加了多少噪音。

diffusion中使用了一个神经网络模型来预测添加的噪音。这就是稳定扩散中的噪音预测器。它是一个U-Net模型。训练过程如下。

  • 选择一张训练图像,比如1girl的照片。
  • 生成一个随机的噪音图像。
  • 通过在训练的不同步数中添加一定的噪音图像来破坏训练图像。
  • 通过调整噪音预测器的权重,来训练噪音预测器,从而告诉他,我们添加了多少噪音。
image-20240422154548041
image-20240422154548041

训练后,我们有了一个能够预估图像添加的噪音的噪音预测器。

逆扩散

现在我们有了噪声预测器。如何使用它呢?

首先,我们生成一个完全随机的图像,并要求噪声预测器告诉我们噪声。然后我们从原始图像中减去这个估计的噪声。重复这个过程几次。最终你会得到一张1girl的图像。

image-20240422160214496
image-20240422160214496

当然现在我们还无法控制生成的图像,现在这个过程完全是随机的。

稳定扩散模型Stable Diffusion model

上面讲了那么多原理,但是其实那并不是stable diffusion的工作原理!

原因是上述扩散过程是在图像空间进行的。因为图像空间非常的大,所以计算速度非常的慢。

举个例子:一个512×512像素的图像有三个颜色通道(红色、绿色和蓝色),就是一个786,432维的空间!(你需要为一个图像指定那么多数值。)这是一个非常大的数字,在现有的GPU硬件条件下,很难快速的生成需要的图片。

所以很多公司对这个像素空间的扩散模型做了优化,比如谷歌的Imagen和Open AI的DALL-E,它们使用了一些技巧来加快模型速度,但这样还是不够的。

潜在扩散模型Latent diffusion model

Stable diffuion中引入了一个叫做潜在扩散空间的概念,从而解决在像素空间的扩散模型计算速度慢的问题。下面是它的工作原理。

稳定扩散是一种潜在扩散模型。它不是在高维图像空间中运行,而是首先将图像压缩到潜在空间中。

以上面的512×512像素的图像为例,稳定扩散模型的潜在空间是4x64x64,这个潜在空间是原图像像素空间的1/48。

因为潜在空间只有之前的1/48,因此它能够在计算更少的数字的情况下获得结果。这就是为什么它更快的原因。

变分自动编码器VAE

从像素空间到潜在空间的变化,是通过一种称为变分自动编码器(variational autoencoder)的技术来实现的。是的,这就是我们经常看到的VAE。

变分自动编码器(VAE)是由两部分组成:(1)编码器和(2)解码器。编码器将图像压缩到潜在空间,解码器从潜在空间恢复图像。

image-20240422172146404
image-20240422172146404

我们所说的所有前向和反向扩散实际上都是在潜在空间中进行的。因此,在训练过程中,它不是生成一个嘈杂的图像,而是在潜在空间中生成一个随机张量(潜在噪声)。它不是用噪音损坏图像,而是用潜在噪声损坏图像在潜在空间中的表示。这样做的原因是潜在空间较小,因此速度更快。

图像分辨率

图像分辨率反映在潜在图像张量的大小上。对于仅有512×512像素的图像,潜在图像的大小为4x64x64。对于768×512像素的肖像图像,潜在图像的大小为4x96x64。

这就是为什么生成更大的图像需要更长的时间和更多的VRAM。

这里想解释一下为什么我们在使用stable diffusion的时候,如果生成大于512×512像素的图像,有时候会出现双头的问题。

这是因为Stable Diffusion v1是在512×512像素图像上进行训练的。

图像放大

那么我们怎么才能生成分辨率更大的图片呢?最好的办法是保证图像至少有一边达到512像素,然后使用AI放大器或img2img的功能进行图像放大。

另外,可以使用SDXL模型。它具有更大的默认尺寸,为1024 x 1024像素。

为什么潜在空间可以工作?

你可能会想知道为什么变分自动编码器(VAE)可以将图像压缩成一个更小的潜在空间而不丢失信息。

原因是,自然图像并不是随机的,它们具有很高的规律性:一张脸遵循着眼睛、鼻子、脸颊和嘴巴之间特定的空间关系。一只狗有四条腿并且具有特定的形状。

换句话说,图像的高维度是人为的。自然图像可以很容易地压缩到更小的潜在空间而不丢失任何信息。这在机器学习中被称为流形假设。

潜在空间中的反向扩散

以下是stable diffusion中潜在空间反向扩散的工作原理。

  1. 生成一个随机潜在空间矩阵。
  2. 噪声预测器预测潜在矩阵的噪声。
  3. 然后从潜在矩阵中减去预测的噪声。
  4. 根据特定的采样步数,重复2,3这两步。
  5. VAE的解码器将潜在矩阵转换为最终图像。

什么是VAE文件?

VAE文件是在Stable Diffusion v1中用于改进眼睛和脸部的生成效果。它们是我们刚刚谈到的自动编码器的解码器。通过进一步微调解码器,模型可以绘制出更精细的细节。

之前提到自然图像并不是随机的,它们具有很高的规律性,虽然是这样,但是将图像压缩到潜在空间确实会丢失信息,因为原始的VAE没有恢复细节。而这个VAE文件或者VAE解码器的作用就是负责绘制细节。

条件控制

到这里基本上运行流程已经差不多了,但是我们还缺了一部分:我们写的文本prompt是在哪里发挥作用的呢?

这些prompt实际上就是条件控制。条件控制的目的是引导噪声预测器,使得预测的噪声在从图像中减去后能够给我们想要的结果

txt2img(文本到图像)

以下是对txt2img如何被处理并输入到噪声预测器的说明。

首先,分词器(Tokenizer)将提示中的每个单词转换为一个称为标记的数字。然后,每个标记被转换为一个名为嵌入embedding的768值向量。这些嵌入然后被文本变换器(text transformer)处理,并准备好被噪声预测器使用。

image-20240422203502407
image-20240422203502407

接下来,让我们详细介绍每一部分的含义。

分词器Tokenizer
image-20240422184029011
image-20240422184029011

首先,文本提示被 CLIP 分词器进行分词。CLIP 是由 Open AI 开发的深度学习模型,用于生成任何图像的文本描述。Stable Diffusion v1 使用了 CLIP 的分词器。

分词是计算机理解单词的方法。我们人类可以读单词,但计算机只能读数字。这就是为什么文本提示中的单词首先被转换为数字的原因。分词器只能分词它在训练过程中见过的单词。例如,CLIP 模型中有“butter”和“fly”,但没有“butterfly”。分词器会将单词“butterfly”分解为两个标记“butter”和“fly”。所以一个单词并不总是意味着一个标记

另一个细节是空格字符也是标记的一部分。在上面的情况中,短语“butter fly”产生了两个标记“butter”和“spacefly”。这些标记与“butterfly”产生的不同,“butterfly”的标记是“butter”和“fly”(在“fly”之前没有空格)。

Stable Diffusion 模型在提示中仅限于使用75个标记。(这并不等同于75个单词)

嵌入embedding

Stable diffusion v1采用了Open AI的ViT-L/14 Clip模型。embedding嵌入是一个768值的向量。每个标记都有自己独特的嵌入向量。嵌入是由CLIP模型决定的,在训练过程中学习的。

为什么我们需要嵌入?因为一些词是密切相关的,我们希望能够充分利用这些信息。例如,mangentlemanguy的嵌入几乎相同,因为它们可以互换使用。克劳德·莫奈、皮埃尔·奥古斯特·雷诺阿和爱德华·马奈都是印象派风格绘画的代表,但方式各有不同。所以这些名字在embedding中具有接近但不完全相同的值。

这就是我们讨论的用于通过关键词触发样式的嵌入。找到合适的嵌入可以触发任意对象和风格,这是一种称为文本反演(textual inversion)的微调技术。

embedding to noise predictor
image-20240422203533236
image-20240422203533236

在发送到噪声预测器之前,嵌入需要通过文本转换器进行处理处理。

转换器就像一个通用适配器,用于条件处理。在这种情况下,它的输入是文本嵌入向量,但它也可以是其他东西,比如标签、图像和深度图。

注意力机制

在Stable Diffusion AI和类似的文本到图像生成模型中,U-Net是一个关键的组件,它负责将文本提示转换成图像。U-Net是一个深度学习模型,通常用于图像到图像的任务,如图像分割。在Stable Diffusion中,U-Net利用了一种称为“注意力机制”的技术来理解和处理文本提示。

  1. 自注意力 (Self-Attention)
    • 自注意力允许模型在处理提示时识别单词之间的关系。比如一个蓝色眼睛的男人,“蓝”和“眼睛”通过自注意力机制被关联起来,这样模型就知道用户想要生成的是一个拥有蓝色眼睛的男人,而不是一个穿着蓝色衬衫的男人。
  2. 交叉注意力 (Cross-Attention)
    • 交叉注意力是文本和图像之间的桥梁。在生成图像的过程中,U-Net使用交叉注意力机制来确保生成的图像与文本提示保持一致。这意味着模型会根据文本提示中的关键词生成相应的图像特征。

超网络是一种调整稳定扩散模型的技术,它利用交叉注意力网络来插入风格。

LoRA模型修改交叉注意力模块的权重来改变风格。

仅仅修改这个模块就能调整稳定扩散模型的结果,可见这个模块是多么重要。

还有其他控制条件吗?

稳定扩散模型可以被修改和设置的方式不止文本提示一种。

除了文本提示,深度图像也可以被用来设置图像模型。

比如ControlNet就可以使用检测到的轮廓、人体姿势等来设置噪声预测器,并实现对图像生成的出色控制。

Stable difussion逐步解析

现在你已经了解了稳定扩散的所有内部机制,让我们通过一些例子来看看它在幕后到底发生了什么。

文字转图像

在文字转图像中,你输入文字,模型会返回一个生成好的AI图片。

步骤1。稳定扩散在潜在空间中生成一个随机张量。你可以通过设置随机数生成器的种子来控制这个张量。

如果你把种子设置为固定的值,那么你将始终得到相同的随机张量。

最开始的图像只是一片噪音。

步骤2。噪声预测器 U-Net 将潜在的嘈杂图像和文本提示作为输入,并在潜在空间中预测噪音。

image-20240422204010632
image-20240422204010632

步骤3。从潜在图像中减去潜在噪声。这就成为了您的新潜在图像

image-20240422204531142
image-20240422204531142

步骤2和步骤3会重复一定数量的采样步骤,这个步骤就是你设置的sample steps。

步骤4。最后,VAE 的解码器将潜在图像转换回像素空间。这就是在运行稳定扩散后得到的图像。

image-20240422204647493
image-20240422204647493

噪声调度(Noise schedule)

图片从嘈杂变得清晰。是因为每一步我们都从原始latent space中减去了预测到的噪声。

每步减少多少噪声,这个减去噪声的调度过程,就叫做noise schedule。

下面是一个噪声调度的例子。

noise schedule是通过我们使用的采样器和采样步数来决定的,我们可以在每一步中减去相同量的噪声,也可以在开始阶段减去更多的噪声,就像上面的例子。

采样器在每一步中减去恰好足够的噪声,以便在下一步达到期望的噪声。

图像到图像

图像到图像的意思是使用稳定扩散将一幅图像转换成另一幅图像。

SDEdit是一种图像到图像的编辑方法,它允许用户通过结合输入图像和文本提示来控制图像生成过程。这种方法首次提出时,旨在提高对生成图像的控制能力,使得用户可以更精确地实现他们的创意愿景。SDEdit可以应用于任何扩散模型,包括Stable Diffusion。

图像到图像的输入是一幅图像和一个文本提示。生成的图像将同时受到输入图像和文本提示的影响。

比如我通过这左边的素描图加上提示词:

"photo of young woman,no suit,no shirt,no bar,on the street, rim lighting,studio lighting,looking at the camera,dslr,ultra quality,sharp focus,tack sharp,dof,film grain,Fujifilm XT3,crystal clear,8K UHD,highly detailed glossy eyes,high detailed skin,skin pores,"

就可以把它转换成一张真实的图片:

image-20240422232635503
image-20240422232635503

现在让我们来看看具体的步骤。

步骤1. 将输入图像编码为潜在空间。

image-20240422232959011
image-20240422232959011

步骤2. 将噪声添加到潜在图像。去噪强度控制添加的噪声量。

如果为0,则不添加噪声。如果为1,则添加最大量的噪声,使潜在图像变成完全随机的张量。

image-20240422233409529
image-20240422233409529

步骤3. 噪声预测器U-Net将潜在带噪声图像和文本提示作为输入,并预测潜在空间中的噪声。

image-20240422233517705
image-20240422233517705

步骤4. 从潜在图像中减去潜在噪声。这就成为了你的新潜在图像

image-20240422204531142
image-20240422204531142

步骤3和步骤4会重复一定数量的采样步骤,这个步骤就是你设置的sample steps。

步骤5. 最后,VAE的解码器将潜在图像转换回像素空间。这就是你通过运行图像到图像得到的图像。

image-20240422233755177
image-20240422233755177

所以现在你知道图像到图像是什么了:它只是在初始潜在图像上加入一点噪声和输入图像。

将去噪强度设置为1等同于文本到图像,因为初始潜在图像完全是随机的。

图像修复

图像修复实际上只是图像到图像的特例。在需要修复的图像部分添加了噪音。噪音的数量同样由去噪强度控制。

什么是CFG值?

我们在使用stable diffusion的时候,有一个非常重要的参数叫做CFG。

在理解CFG之前,我们首先需要了解它的前身,分类器指导Classifier guidance

分类器指导Classifier guidance

分类器指导是在扩散模型中图像标签的一种整合方式。你可以使用标签来指导扩散过程。例如,标签“1girl”可以引导逆扩散过程生成女性的照片。

分类器指导比例(classifier guidance scale)是一个参数,用于控制扩散过程在多大程度上遵守这个分类标签。

假设我们有三组图像,分别带有“猫”、“狗”和“人类”的标签。如果扩散过程不受任何指导,模型可能会从每个类别中随机抽取样本。这可能导致生成的图像同时符合两个标签的特征,比如一个男孩正在抚摸一只狗的场景。

classifier guidance scale指导的条件下,扩散模型产出的图像往往会倾向于典型或明确的样本。比如,当你要求模型生成一只猫的图片时,它将提供一张清晰无疑的猫的图像,而非其他任何生物。

分类器指导比例classifier guidance scale)调节着模型遵循标签指导的严格程度,更高的值,意味着在生成图像时,模型更加严格地依据所给标签进行选择。在实际操作中,这个比例的值实际上是一个乘数,它决定了模型在生成过程中向具有特定标签的数据集偏移的程度。

无分类器引导Classifier-free guidance(CFG)

分类器引导虽然功能强大,但它需要额外的模型来提供指导,这给训练过程带来了一些挑战。

无分类器引导是一种创新的方法,它允许实现“无需分类器的分类器引导”。通过使用图像的标题来训练一个有条件的扩散模型,将分类器的功能整合为噪声预测器U-Net的一个条件,从而实现了一种无需单独图像分类器的图像生成引导。

另外,文本提示为文本到图像的生成提供了一种引导机制,使得模型能够根据文本描述生成相应的图像。

无分类器引导规模(CFG scale)

现在,我们有一个使用条件控制的无分类器扩散过程。我们如何控制AI生成的图像应该多大程度上遵循引导?

无分类器引导规模(CFG scale)是一个控制文本提示如何引导扩散过程的值。当CFG规模设置为0时,AI图像生成是无条件的(即忽略提示)。较高的CFG规模会将扩散引导到提示方向。

稳定扩散 v1.5 与 v2 比较

模型差异

SD v2使用OpenClip进行文本嵌入。SD v1使用Open AI的CLIP ViT-L/14进行文本嵌入。这一变化的原因是:

  • OpenClip比原先的模型大了多达五倍。更大的文本编码器模型可以提高图像质量。
  • 虽然Open AI的CLIP模型是开源的,但这些模型是使用专有数据进行训练的。转换到OpenClip模型能够让研究人员在研究和优化模型时更加透明。这对于长期发展是更有利的。

v2模型有两种版本。

  • 512版本生成512×512像素的图像
  • 768版本生成768×768像素的图像训练数据差异

SD v1.4 是在名为 laion2B-en 的数据集上,以 256×256 的分辨率进行了 237,000 次训练迭代。

接着,在 laion-high-resolution 数据集上,以 512×512 的分辨率进行了 194,000 次训练迭代。

在“laion-aesthetics v2 5+”数据集上,同样以 512×512 的分辨率,进行了 225,000 次训练迭代,同时在文本条件中降低了 10% 的权重。

SD v2 则是在 LAION-5B 数据集的子集上,经过去除了显式NSFW内容的筛选,并应用了 LAION-NSFW 分类器,以 punsafe=0.1 的参数和 aesthetic score >=4.5 的条件下,进行了 550,000 次训练迭代。

此外,该模型还在相同数据集上以 256x256 的分辨率进行了 850,000 次训练迭代,但这次只包括图片分辨率大于或等于 512x512 的样本。

之后,模型使用了 v-objective 目标函数,在相同数据集上进行了额外的 150,000 次训练迭代。

最后,在 768x768 的图片上继续进行了 140,000 次训练迭代。

SD v2.1 是在 v2.0 的基础上进行了微调,先是以 punsafe=0.1 的参数额外训练了 55,000 步,然后又以 punsafe=0.98 的参数额外训练了 155,000 步。

值得注意的是,在最终的训练阶段,NSFW的过滤器被关闭了

输出表现的差异

人们在使用SD v2 来控制风格和生成名人图像时,会更加的困难。因为虽然 Stability AI 并没有明确排除艺术家和名人的名字,但在 v2 版本中,这些名字的效果要弱得多。这很可能是因为训练数据的差异所致。Open AI 的专有数据可能包含更多的艺术作品和名人照片,而且这些数据很可能经过了高度筛选,以确保每件作品和每位人物都看起来都非常美观。

因为这种原因,SD V2 和v2.1并没有流行起来,用户们更倾向于使用经过精细调整的 v1.5 和 SDXL 模型。

SDXL model

作为一个规模更大的模型,在人工智能领域,人们普遍认为其性能会更为出色。SDXL 模型的参数总数达到了惊人的 66 亿,而相比之下,v1.5 模型的参数总数则为 9.8 亿。

SDXL model pipeline
SDXL model pipeline
  • 实际上,SDXL 模型由两个模型组成:基础模型细化模型。基础模型负责构建整体构图,而细化模型则在此基础上添加更精细的细节。

基础模型可以独立运行,不依赖细化模型。

SDXL 基础模型的改进包括:

  • 文本编码器结合了最大的 OpenClip 模型(ViT-G/14)和 OpenAI 的专有 CLIP ViT-L。这样的选择让 SDXL 更易于引导,同时保持了强大的性能,并且能够使用 OpenClip 进行训练。
  • 新的图像尺寸调节旨在使用小于 256×256 的训练图像。这通过不丢弃 39% 的图像,显著增加了训练数据量。
  • U-Net 的规模是 v1.5 模型的三倍
  • 默认的图像尺寸为 1024×1024,是 v1.5 模型 512×512 的四倍。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
TextScanner:旷视新作文字识别新突破,确保字符阅读顺序
由于深度学习和海量数据的涌现,场景文字识别技术获得飞速发展。但是先前同类方法存在种种缺点,为此,本文提出 TextScanner,一种鲁棒的基于分割的场景文字识别方法,可以正确读取字符数据,并在一系列相关的文字基准数据集上,取得了当前最佳的性能。本文是旷视研究院与华中科技大学的联合研究成果,已收录于 AAAI 2020。
CV君
2020/02/21
1.5K0
数平精准推荐 | OCR技术之数据篇
深度学习在OCR领域的成功应用需要大量数据,数平精准推荐团队利用图像增强,语义理解,生成对抗网络等技术生成高质足量的数据,为算法模型提供燃料,帮助OCR技术服务在多种业务场景中快速迭代,提升效果。
腾讯技术工程官方号
2018/04/23
12.1K10
数平精准推荐 | OCR技术之数据篇
ICCV 2019丨CharNet:卷积字符网络
自然场景下的文字检测与识别是近年来的热点研究方向之一,也是很多计算机视觉技术实现应用时的重要步骤。相较于技术已经相对成熟的打印文档文字识别,自然场景中的文本识别仍具困难,比如文字的呈现可以有多种方向、多样的颜色和字体等,这些情况都为文字检测与识别技术在现实生活中的应用带来了挑战。
小白学视觉
2019/11/27
9540
场景文字识别技术,过滤黄赌毒
作者介绍: 数据平台部OCR+团队负责人。2008年毕业于中国科学院研究生院,主攻模式识别、计算机视觉、图像处理、以及深度学习等方向。读研期间曾在模式识别顶级期刊PAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence)发表指纹识别相关论文。此前在腾讯优图团队从事图像处理(人脸识别)相关工作,现在属于腾讯技术工程事业群\数据平台部\OCR+团队,主要从事文字识别、图像语义理解等相关工作。 引言 OCR技术,通俗来讲就是从图像中
腾讯技术工程官方号
2018/01/29
4.6K0
场景文字识别技术,过滤黄赌毒
深度学习碰上古文献,西南大学提出基于CNN的古彝文识别方法
摘要:作为世界六大古文字之一的古彝文记录下几千年来人类发展历史。针对古彝文的识别能够将这些珍贵文献材料转换为电子文档,便于保存和传播。由于历史发展,区域限制等多方面原因,针对古彝文识别的研究鲜有成果。本文把当前新颖的深度学习技术,应用到古老的文字识别中去。在四层卷积神经网络(Convolutional Neural Network, CNN)的基础上扩展出 5 个模型,然后再利用 Alpha-Beta 散度作为惩罚项对 5 个模型的输出神经元重新进行自编码,接着用两个全连接层完成特征压缩,最后在 softmax 层对古彝文字符特征进行重新评分,得到其概率分布,选择对应的最高概率作为识别的字符。实验表明本文所提方法相对于传统 CNN 模型而言对古彝文手写体的识别具有较高的精度。
机器之心
2018/12/18
1.8K0
文档解析技术发展回顾与路径思考
随着全球数字化进程的加速,非结构化数据量呈现爆炸式增长,从纸质文档到电子文件的转变不仅意味着信息存储方式的革新,更标志着旧数据被赋予了新的生命力。文档智能技术的发展使得大量以传统形式保存的信息资源能够“活化”再利用,这些技术将图像、手写笔记等非结构化数据转化为计算机可处理和理解的结构化格式,从而极大地拓展了数据的应用场景。得益于深度学习算法的进步,文档解析技术在文档数字化、票据自动化处理、笔迹录入等多个领域取得了显著成就。例如,在金融行业,智能文档处理系统可以快速准确地识别并提取票据中的关键信息,大大提高了工作效率;在历史文献保护方面,先进的文档分析工具能够帮助学者们解读古老文本,为文化传承贡献力量。文档智能技术正以其高效便捷的特点,成为推动各行业数字化转型的重要力量。
合合技术团队
2024/12/25
2270
文档解析技术发展回顾与路径思考
自然场景文本检测识别技术综述
白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模糊字、形似字、残缺字、光影遮蔽、多语言混合文本等应用落地面临的技术难题还没被彻底解决。
SIGAI学习与实践平台
2018/08/07
3.8K0
自然场景文本检测识别技术综述
一文全览,深度学习时代下,复杂场景下的 OCR 如何实现?
文本是人类最重要的信息来源之一,自然场景中充满了形形色色的文字符号。在过去的十几年中,研究人员一直在探索如何能够快速准确的从图像中读取文本信息,也就是现在OCR技术。
AI科技评论
2020/02/21
1.9K0
OCR技术简介
光学字符识别(Optical Character Recognition, OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
SIGAI学习与实践平台
2018/09/26
17.1K0
OCR技术简介
ICDAR 2019表格识别论文与竞赛综述(下)
在表格识别领域,数据集规模一直是一个有待解决的问题。此前在表格识别或版面分析领域中,规模较大的数据集包括Marmot和ICDAR2017 POD竞赛数据集,也仅仅包含数千张文档页面图像而已,这对于数据驱动的深度学习方法来说是不够的,导致训练出的模型并没有有足够说服力的泛化能力和鲁棒性。所以在最近的工作中,也有不少学者针对表格识别领域发布了一些数据集,此次ICDAR2019会议中也不例外。
AI算法与图像处理
2019/11/29
4.2K0
ICDAR 2019论文:自然场景文字定位技术详解
自然场景图像中的文字识别应用广泛,其中文字定位是最重要的一步,但技术上极具挑战。本文提出了一个高效的场景文本检测框架,取得了明显的效果提升。
美团技术团队
2019/09/29
1.3K0
ICDAR 2019论文:自然场景文字定位技术详解
自然场景文本检测识别技术综述
0629封面.jpg 番外 青蛇: 姐, 图像文本检测和识别领域现在的研究热点是什么? 白蛇: 白纸黑字的扫描文档识别技术已经很成熟,而自然场景图像文本识别的效果还不理想。倾斜字、艺术字、变形字、模
SIGAI学习与实践平台
2018/06/30
7.9K1
自然场景文本检测识别技术综述
三维点云分割综述(中)
在上篇文章中,我们介绍了关于点云的获取方式上的区别,点云的密度,以及各种场景下应用的区别,本篇文章将更加具体的介绍点云分割相关技术。
点云PCL博主
2020/08/10
3.5K0
三维点云分割综述(中)
车牌识别综述阅读笔记
目前车牌识别所遇到的难点主要体现在三个方面,主要体现在:车牌倾斜,图像噪声,还有车牌模糊。
润森
2022/08/18
2.5K0
车牌识别综述阅读笔记
飞桨文字识别模型套件PaddleOCR首次开源,带来8.6M超轻量中英文OCR模型!
OCR技术有着丰富的应用场景,包括已经在日常生活中广泛应用的面向垂类的结构化文本识别,如车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等等,此外,通用OCR技术也有广泛的应用,如在视频场景中,经常使用OCR技术进行字幕自动翻译、内容安全监控等等,或者与视觉特征相结合,完成视频理解、视频搜索等任务。
用户1386409
2020/06/04
3.2K0
飞桨文字识别模型套件PaddleOCR首次开源,带来8.6M超轻量中英文OCR模型!
【Image++团队】鲁棒阅读和离线手写体实现模式识别突破
随着信息碎片化时代的来临,人们每天不得不被迫接受处理生活各种场景中无限砸向面前的信息,被各种终端图像、文字数据搞得力倦神疲。而针对大数据的处理,人工能力显然已经无法应对,人工智能与机器学习或将成为劳动力转移和工业革命的切口。过去一年来,研究人员和开发者在人工智能各领域取得多个重要突破。北京旷视科技旗下的 Megvii Image++团队近日刷新了2015 ICDAR 鲁棒阅读竞赛(Robust Reading Competition)和离线手写体汉字单字识别(公开测试集)双项赛事记录,实现了图像识别技术的又
新智元
2018/03/14
1.7K0
【Image++团队】鲁棒阅读和离线手写体实现模式识别突破
综述系列 | 多模态深度学习中的网络结构设计和模态融合方法汇总
多模态深度学习主要包含三个方面:多模态学习表征,多模态信号融合以及多模态应用,而本文主要关注计算机视觉和自然语言处理的相关融合方法,包括网络结构设计和模态融合方法(对于特定任务而言)。本文讲述了三种融合文本和图像的方法:基于简单操作的,基于注意力的,基于张量的方法。
guichen1013
2020/12/23
4.9K0
综述系列 | 多模态深度学习中的网络结构设计和模态融合方法汇总
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
点击上方↑↑↑“OpenCV学堂”关注我来源:公众号 机器之心 授权 本文对最近被 TPAMI 接收的一篇综述文章 Human Action Recognition from Various Data Modalities: A Review(基于不同数据模态的人类动作识别综述)进行解读。 原综述文章地址:https:arxiv.org/pdf/2012.11866.pdf 1 概述 人类动作识别(Human Action Recognition, HAR)旨在理解人类的行为,并为每个行为分配一个标签。多
OpenCV学堂
2022/09/19
1.6K0
TPAMI 2022 | 不同数据模态的人类动作识别综述,涵盖500篇文章精华
ICDAR 2019表格识别论文与竞赛综述(上)
表格作为一种有效的数据组织与展现方法被广泛应用,也成为各类文档中常见的页面对象。随着文档数目的爆炸性增长,如何高效地从文档中找到表格并获取内容与结构信息即表格识别,成为了一个亟待解决的问题。ICDAR是一个专注于文档分析与识别问题的国际学术会议,已经连续多届设置了表格识别专题。在今年的ICDAR 2019会议上,有不少研究者在表格检测与结构识别等领域做出了新的贡献,使其有了新的进展。本课题组梳理了该会议中有关表格识别的16篇论文,总结该领域当前的研究进展与挑战。同时,值得注意的是,该会议也举办了关于表格检测与结构识别的比赛,我们对参赛队伍使用的方法与结果进行了一些讨论。
AI算法与图像处理
2019/11/29
6.8K0
【系列文章】面向自动驾驶的三维点云处理与学习(5)
这篇文章在可以说是很完整的介绍了点云在自动驾驶中各个模块的角色,从宏观的分模块的介绍了点云在自动驾驶中的作用与应用,看完整篇文章,将不仅对自动驾驶技术有了更为全面的理解,并理解点云在自动驾驶中的重要性,这里介绍的高精地图的创建以及定位感知等模块介绍是自动驾驶领域的核心技术,比如在介绍的定位模块的两种定位方式的时候就介绍了不同场景下的使用语义的几何信息以及点云强度信息进行定位的方法时,完全对得上apollo自动驾驶方案,让读者收获颇多。这里博主决定将其完整的翻译过来分享给更多感兴趣的朋友。
点云PCL博主
2021/03/08
7110
【系列文章】面向自动驾驶的三维点云处理与学习(5)
推荐阅读
相关推荐
TextScanner:旷视新作文字识别新突破,确保字符阅读顺序
更多 >
LV.4
这个人很懒,什么都没有留下~
目录
  • stable diffusion有什么用处?
  • stable diffusion模型
    • 正向扩散
    • 逆向扩散
  • 训练过程
    • 逆扩散
  • 稳定扩散模型Stable Diffusion model
    • 潜在扩散模型Latent diffusion model
    • 变分自动编码器VAE
    • 图像分辨率
    • 图像放大
    • 为什么潜在空间可以工作?
    • 潜在空间中的反向扩散
    • 什么是VAE文件?
  • 条件控制
    • txt2img(文本到图像)
      • 分词器Tokenizer
      • 嵌入embedding
      • embedding to noise predictor
      • 注意力机制
    • 还有其他控制条件吗?
  • Stable difussion逐步解析
    • 文字转图像
    • 噪声调度(Noise schedule)
    • 图像到图像
    • 图像修复
  • 什么是CFG值?
    • 分类器指导Classifier guidance
    • 无分类器引导Classifier-free guidance(CFG)
      • 无分类器引导规模(CFG scale)
  • 稳定扩散 v1.5 与 v2 比较
    • 模型差异
    • 输出表现的差异
  • SDXL model
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档