前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视频编解码学习分享

视频编解码学习分享

作者头像
MelonTeam
发布于 2018-01-04 09:23:34
发布于 2018-01-04 09:23:34
5.6K0
举报
文章被收录于专栏:MelonTeam专栏MelonTeam专栏

目录

  1. 视频为什么要编解码
  2. 视频是否可以压缩
  3. 编解码实现原理
  4. 编解码标准和国际组织
  5. 视频文件封装(容器
  6. 视频质量评价体系

1.为什么视频要编解码?

未经过压缩的视频数据量非常大,存储困难,同时也不便于在网络中传输。

以数字电视一秒钟的数据量为例,观看一秒钟数字电视需要等待9秒钟。

数据量约1113KB,如果按照1M传输带宽计算,比特率是9123840,大约需要9秒钟

FPS

Size

Bits/pixel

Bit-rate(bps)

File Size(KB)

30

176 * 144

12

9,123,840

1113

IPhone6 16G手机,最多只能存储50秒视频。

拍摄10秒钟视频,未经压缩的数据量是2.4G,16G的IPhone6除去系统占用的部分,剩下的存储空间最多是12G

FPS

Size

Bits/pixel

Bit-rate(Mbps)

File Size(MB)

Compressed Size(MB)

Compress-rate(H.264)

30

1920 * 1080

32

1990

2488

25

100:1

要解决视频存储难、传输难的问题,综合考虑软硬件成本,最有效的办法应该是压缩视频体积!

2.视频是否可以压缩?

答案是肯定的,因为原始视频包含大量的冗余信息,比如:人的视觉系统有一些先天的特性,对某些细节不敏感。所以从理论上分析,基于人的视觉特性去掉视频冗余信息既可以保证视频质量又可以压缩视频体积。除此之外视频还有很多其他冗余信息可以去除,接下来我们详细介绍一下视频冗余信息。

视频冗余信息

原始视频至少存在5个方面的信息冗余:空间冗余、时间冗余、编码冗余、视觉冗余、知识冗余,接下来详细讲解一下这5个方面的冗余。

空间冗余:图像相邻像素之间有较强的相关性

由图可知,在颜色接近的色块区域,相邻像素是非常接近的有较强的相关性,这部分信息其实是冗余的,下文将的条、块编码就是去除这种空间冗余数据。

时间冗余:视频序列的相邻图像之间内容相似

视频一般由时间轴区间内一组连续画面组成,其中的相邻帧往往包含相同的背景和移动物体,只不过移动物体所在的空间位置略有不同,所以后一帧的数据与前一帧的数据有许多共同的地方,这就称为时间冗余。 如下图所示,或许只有人的嘴巴和手在动,其他大部分的像素都是没有变化的。

编码冗余:不同像素值出现的概率不同

先介绍一下等长编码和变长编码的概念

等长码:在一组码字集合C中的所有码字cm (m = 1,2, …,M),其码长都相同,则称这组码C为等长码。

变长码:若码字集合C中的所有码字cm (m = 1,2, …,M),其码长不都相同,称码C为变长码。

【例】设待压缩的数据文件共有100个字符,这些字符均取自字符集C={a,b,c,d,e,f},分别使用等长、变长编码方案对比优劣。

等长编码方案

等长编码需要三位二进制数字来表示六个字符,因此,整个文件的编码长度为300bits。

变长编码方案

变长编码方案将采用Huffman编码,通过码字出现的频率高低构造一个Huffman树,频度高的字符编码设置短,将频度低的字符编码设置较长。

字符

a

b

c

d

e

f

频率(次)

45

13

12

16

9

5

概率

0.45

0.13

0.12

0.16

0.09

0.05

变长码字

0

101

100

111

1101

1100

定长码字

000

001

010

011

100

101

根据计算公式:451+133+123+163+9*4+584=224 整个文件被编码为224bits,比定长编码方式节约了约25%的存储空间。

由此可知,在图像编码中,不同的像素值出现的概率不同,采用定长编码相对变长编码需要更多的存储空间,这一部分冗余就称之为编码冗余。

了解更多Huffman编码

视觉冗余:人的视觉系统对某些细节不敏感

在介绍视觉冗余之前先来介绍一下人类视觉系统(Human Visual System,简称HVS)的几个特性:

  1. 对亮度的变化敏感,对色度的变化相对不敏感。
  2. 对静止图像敏感,对运动图像相对不敏感。
  3. 对图像的水平线条和竖直线条敏感,对斜线相对不敏感。
  4. 对整体结构敏感,对内部细节相对不敏感。
  5. 对低频信号敏感,对高频信号相对不敏感(如:对边沿或者突变附近的细节不敏感)。

由于人类视觉系统的先天特性,原始图像中有一些数据是人眼感知不到的,在图像压缩过程中可以去掉,在图像恢复后不会影响图像的主观质量,这部分数据就是视觉冗余。例如,人类视觉的一般分辨能力为2的6次方(64)灰度等级,而一般的图像的量化采用的是2的8次方(256)灰度等级,即存在视觉冗余。

了解更多人类视觉系统

知识冗余:规律性的结构可由先验知识和背景知识得到

有许多图像的理解与某些基础知识有相当大的相关性。 例如:人脸的图像有固定的结构,嘴的上方有鼻子。鼻子的上方有眼睛,鼻子位于正脸图像的中线上等等。这类规律 性的结构可由先验知识相背景知识得到,我们称此类冗余为知识冗余。

3.编解码实现原理

PBI帧

视频中每帧代表一幅静止的图像,而在实际压缩时,会采取各种算法减少数据的容量,其中IPB就是最常见的。简单地说,I帧是关键帧,属于帧内压缩。就是和AVI的压缩是一样的。 P是向前搜索的意思。B是双向搜索。他们都是基于I帧来压缩数据。

I帧

I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成,因为包含完整画面。

P帧

P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据。

B帧

B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累。

码流层次结构

视频的二进制码流有一个固定的组织结构,从上到下层依次是:序列层、图像组层、图像层、条带层、宏块层、块层。

序列编码

序列:一段连续编码的并具有相同参数的视频图像。 序列起始码:专有的一段比特串,标识一个序列的压缩数据的开始MPEG-2的序列起始码为十六进制数000001(B3)。 序列头:记录序列信息档次(Profile),级别(Level),宽度,高度,是否是逐行序列,帧率等。 序列结束码:专有的一段比特串,标识该序列的压缩数据的结束,MPEG-2的序列结束码为十六进制数000001(B7)。

图像组编码

图像编码

  • 图像起始码:专有的一段比特串,标识一个图像的压缩数据的开始,MPEG-2
  • 的图像起始码为十六进制数000001(00)。
  • 图像头:记录图像信息
  • 图像编码类型,图像距离,图像编码结构,图像是否为逐行扫描。

图像分块编码

条带编码

宏块编码

  • 宏块:16x16的像素块(对亮度而言)。
  • 宏块内容:宏块编码类型,编码模式,参考帧索引,运动矢量信息,宏块编码系数等。

块编码

  • 8x8或4x4块的变换量化系数的熵编码数据。
  • CBP (Coded Block Patten):用来指示块的变换量化系数是否全为零。
  • 对于YUV(4:2:0)编码,CBP通常6比特长,每个比特对应一个块,当某一块的变换量化系数全为零时,其对应比特位值为0,否则为1。
  • 每个块的变换量化系数的最后用一个EOB (End of Block)符号来标识。
视频编解码主要流程和关键技术
  • 预测:通过帧内预测和帧间预测降低视频图像的空间冗余和时间冗余。
  • 变换:通过从时域到频域的变换,去除相邻数据之间的相关性,即去除空间冗余。
  • 量化:通过用更粗糙的数据表示精细的数据来降低编码的数据量,或者通过去除人眼不敏感的信息来降低编码数据量。
  • 扫描:将二维变换量化数据重新组织成一维的数据序列。
  • 熵编码:根据待编码数据的概率特性减少编码冗余。

预测

通过时间预测、空间预测技术,去除视频中存在的时间冗余和空间冗余,达到压缩的目的。

空间预测

利用图像空间相邻像素的相关性来预测的方法,关键技术是帧内预测技术和Intra图像编码(I帧)

帧内预测:利用当前编码块周围已经重构出来的像素预测当前块

时间预测

利用时间上相邻图像的相关性来预测的方法,关键技术是帧间预测和Inter图像编码。

帧间预测:运动估计(Motion Estimation,ME),运动补偿(Motion Compensation,MC)

运动估计:

  • 为待预测块在参考帧上找到最佳的预测块,并记录预测块在参考帧上的相对位置。
  • 记录运动矢量(Motion Vector,MV),参考帧上的预测块与当前帧上的的待预测块的相对位置
  • 记录预测残差,待预测块的原始图像块减去预测的图像块所得结果。

搜索算法:

  • 三步搜索(Three Step Search,TSS)
  • 二维Log搜索(2D Logarithmic Search,2DLOG)
  • 正交搜索(Orthogonal Search Algorithm,OSA)
  • 十字搜索(Cross Search Algorithm,CSA)
  • 新三步搜索(New Three Step Search,NTSS)
  • 四步搜索(Four Step Search,FSS)
  • 共轭方向搜索(Conjugate Direction Search,CDS)
  • 梯度下降搜索(Gradient Descent Search,GDS)
  • 层次块搜索(Hierarchical Block Matching Algorithm,HBMA)

运动补偿:

  • 根据运动矢量获取预测块
  • 根据预测残差计算重构块

Inter图像编码:

前向预测编码图像(P帧)

双向预测编码图像(B帧)

变换

变换编码的目的
  • 去除空间信号的相关性
  • 将空间信号的能力集中到频域的一小部分低频系数上
  • 能量小的系数可通过量化去除,而不会严重影响重构图像的质量

视频编码中常见的变换类型有:K-L变换、傅里叶变换、余弦变换、小波变换。

变换原理

我们以傅立叶变换为例子来讲述一下变换的实现原理。关于傅立叶变换,可以用果汁牛奶打一个比方:

  • 什么是傅立叶变换:对于一杯果汁牛奶,能分析出其食谱(recipe)
  • 如何进行傅立* 叶变换:运行果汁牛奶的过滤器(filters),将各类成分(ingredient)分离(extract)出来
  • 为什么要进行傅立叶变换:食谱要比果汁牛奶要容易分析、比较、修改得多
  • 如何再变换回去:根据食谱将成分再混合到一起,就又得到果汁牛奶了

所谓“变换”,就是换个领域看问题(A Change Of Perspective),将某种情况下不易分析处理的领域换成易分析处理的领域。

接下来用一张gif图来展示一下傅立叶变换的过程

从上图可以看出:

  • 任何连续周期信号都可以由一组适当的正弦曲线组合而成(这些正弦曲线通过叠加逼近,直至误差可以忽略),其实非周期信号也能通过傅里叶级数展开用正弦曲线叠加组合来无限逼近。
  • 连续周期信号的表象是时域(time domain)波形,从时域上,我们很难进行分析、处理,而傅立叶变换就是将信号从时域(Observations In The Time Domain)转换到频域(Ingredients In The Frequency Domain)。频率只是信号的一个特征,它可以用来识别信号,在频域可以得到信号的成分(ingredients),就像果汁牛奶一样,Recipe比Object本身更容易分析、比较、修改。

傅立叶变换只是分离信号方法中的一种(靠频率分离),由此可以想到傅立叶变换的一些应用有:

  • 滤波:将不需要的频率对应的信号过滤掉,只留下需要的信号
  • 调频:基于滤波,只专注于特定频率的信号进行接受
  • 去噪:通过分离,把噪声对应频率的信号处理掉,增强核心的信号
  • 压缩:将那些不太重要的部分忽略掉,保留主要部分(有损压缩)。例如,JPEG对.bmp压缩,MP3对.wav压缩都是这种方式

了解更多傅里叶变换

DCT变换

DCT(Discrete Cosine Transform),又叫离散余弦变换,是与傅里叶变换相关的一种变换,类似于离散傅里叶变换,但是只使用实数,经常用于信号和图像数据的压缩。经过DCT变换后的数据能量非常集中,一般只有左上角的数值是非零的,也就是能量都集中在离散余弦变换后的直流和低频部分。能量集中是DCT最显著的特征,如下图:

接下来我们看一组用MATLAB进行DCT变换的实验数据

将图像整分成8*8的块进行DCT变换,其中一个小分块变换后的系数分布。

整个图像的DCT系数

保留左上三个单位系数,还原图像。

mask1=

[1 1 0 0 0 0 0 0

1 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0

0 0 0 0 0 0 0 0];%保留3个

量化

量化的基本思想:

  • 映射一个输入间隔到一个整数
  • 将含有大量的数据集合映射到含有少量的数据集合中,减少信源编码的bit
  • 一般情况重构值与输入值不同

量化的策略和模型直接影响图像还原后的质量,举例说明:

采用两个量化区间用1bit表示

采用四个量化区间用2bit表示

扫描

将二维数据转换为一维的数据序列

**编码 用一句话概括就是,把信源用二进制表示。** 在视频编解码领域用到比较多的有:Huffman编码、行程编码、游程编码、二值算术编码、字典编码、等等…..

以大名鼎鼎的Huffman编码为例:

4.编解码标准和国际组织

国际标准组织
  1. ITU (International Telecommunications Union):国际电信联盟
  2. ISO (International Standardization Organization):国际标准化组织
  3. IEC (International Electrotechnical Commission):国际电工委员会
视频编码专家组(Video Coding Experts Group—VCEG)

VCEG (Video Coding Experts Group):视频编码专家组,属于ITU-T (Telecommunication)即电信标准化部门的Study Group 16/Question 6 (ITU-T SG16/Q.6)

VCEG制订标准:

  1. H.261:第一个视频编码标准,用于ISDN(px64Kbps)传输的视频会议,主要采用了基于整象素的运动补偿
  2. H.262 (MPE-2):与MPEG合作制定的标准
  3. H.263 (H.263+, H.263++):用于低码率的视频编码,主要用于PSDN低于54Kbps的视频会议和视频电话,采用了1/2象素运动补偿,考虑了数据损失和错误鲁棒性的需要
  4. H.26L: H.264的前身标准
  5. H.264 (MPEG-4 AVC):目前编码效率最高的标准
动态图像专家组(Moving Picture Experts Group—MPEG)

MPEG(Moving Picture Experts Group,动态图像专家组)是ISO(International Standardization Organization,国际标准化组织)与IEC(International Electrotechnical Commission,国际电工委员会)于1988年成立的专门针对运动图像和语音压缩制定国际标准的组织。

MPEG制订标准:

  1. MPEG-1 : H.261+半象素运动补偿+双向预测+条带结构编码,用于VCD,LAN视频(最大1.5Mbps)
  2. MPE-2: MPEG-1+隔行视频编码+缩放功能,用于HDTV(18Mbps) 、SDTV (2-5Mbps)数字信号传输和DVD(6-8Mbps)存储,兼容MPEG-1标准
  3. MPEG-4 ASP (P-2) :从H.263标准发展而来,基于视频对象平面编码,能在解码端控制视频对象,合成场景,并有音视频交互功能
  4. MPEG-4 AVC (P-10)(H.264/AVC):与VCEG合作制定的标准

了解更多MPEG-4 AVC (P-10)

免费下载MPEG-4 AVC

视频编码标准发展历程
视频编码标准的应用场景

5.视频文件封装(容器)

封装格式

所谓封装格式就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中,这个文件也就相当于一个容器。采用不同的方式把视频编码和音频编码打包成一个完整的多媒体文件,也就出现了不同的后缀。

常见的封装格式:

  1. AVI:微软在90年代初创立的封装标准,是当时为对抗quicktime格式(mov)而推出的,只能支持固定CBR恒定比特率编码的声音文件。
  2. ts和ps:PS封装只能在HDDVD原版,
  3. mov: MOV是Quicktime封装
  4. WMV:微软推出的,作为市场竞争
  5. mkv:MKV是Matroska的简称,万能封装器,有良好的兼容和跨平台性、纠错性,可带外挂字幕。
  6. flv: 这种封装方式可以很好的保护原始地址,不容易被下载到,目前一些视频分享网站都采用这种封装方式
  7. rmvb/rm:Real Video,由RealNetworks开发的应用于rmvb和rm的不同封装方式。rm是固定码率,rmvb是动态码率(就是静态画面采用用低码率,动态采用高码率)
  8. MP4:主要应用于mpeg4的封装,主要在手机上使用。
  9. 3GP:目前主要应用于H.263的封装,主要在3G手机上使用

常见的音视频组合方式:

封装容器 视频编码格式 音频编码格式

封装容器

视频编码格式

音频编码格式

AVI

Xvid

MP3

AVI

Divx

MP3

MKV

Xvid

MP3

MKV

Xvid

AAC

MKV

H264

AAC

MP4

Xvid

MP3

MP4

H264

AAC

3GP

H.263

AAC

了解更多视频文件封装

6.视频质量评价体系

客观评价方法
主观评价方法
基于视觉的视频质量客观评价方法

将人的视觉特性用数学方法描述并用于视频质量评价的方式,结合了主观质量评价和客观质量评价两方面优点。

常用方法:结构相似度(Structural SIMilarity,SSIM)方法,是一种用以衡量两张数字影像相似程度的指标。当两张影像其中一张为无失真影像,另一张为失真后的影像,二者的结构相似性可以看成是失真影像的影像品质衡量指标。

参考文献

视频编解码学习

理解傅里叶变换

An Intuitive Guide To The Fourier Transform

如何直观形象、生动有趣地给文科学生介绍傅立叶变换?

傅里叶变换有哪些具体的应用?

DCT变换在图像压缩中的实现

关于离散余弦变换(DCT)

信号频域和时域的关系

图像压缩中,为什么要将图像从空间域转换到频率域

霍夫曼编码

人类视觉系统(Human Visual System,HVS)

MPEG-4 AVC (P-10)

视频文件封装

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017-03-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【白话科普】10分钟从零看懂AI绘画原理
👉腾小云导读 计算机如何生成和真实图片相似的图画?模型是如何听懂我们想要它生成什么并给出对应结果?AIGC 热潮中的 Stable Diffusion、NovelAI、Latent upscale、ControlNet、LoRA等等是什么以及有什么亮点?本篇不涉及任何一个数学公式、不涉及晦涩文献解析,而是通过尽可能直白的解释,让没有太多AIGC背景知识的人也可以快速理解 AI 画画背后的技术原理和发展历史。欢迎阅读和分享。 👉看目录点收藏,随时涨技术 1. 计算机如何生成图画? 2. 如何控制画面内容?  
腾讯云开发者
2023/04/13
4.4K0
【白话科普】10分钟从零看懂AI绘画原理
读了那么多GANs的原理,还是不懂怎么用!两个案例教教你
编译|AI科技大本营(rgznai100) 参与 | 尚岩奇、周翔 生成式对抗网络(GANs)是一类用于解决无监督学习问题的神经网络,它们可以完成各种任务,例如通过描述生成图像,利用低分辨率图像还原出
AI科技大本营
2018/04/26
1K0
读了那么多GANs的原理,还是不懂怎么用!两个案例教教你
生成对抗网络(GAN)的18个绝妙应用
生成模型指在现存样本的基础上,使用模型来生成新案例,比如,基于现存的照片集生成一组与其相似却有细微差异的新照片。
昱良
2019/10/28
19.8K0
生成对抗网络(GAN)的18个绝妙应用
深度神经网络生成模型:从 GAN VAE 到 CVAE-GAN
作者 | Blink·禀临科技 联合创始人·彭博 整理 | AI科技大本营(rgznai100) 在几年前,深度神经网络的热门话题是分类问题: 给定一张图 x,神经网络可以告诉你其中是什么内容,或者说属于什么类别 c。 而近年来,深度神经网络的热门话题是生成模型,它想做的事情相反: 给定一个类别 c,神经网络就可以无穷无尽地自动生成真实而多变的此类别的图像 x。 这无疑听上去更神奇,也更困难。 这里介绍的 CVAE-GAN 方法,其论文是 Fine-Grained Image Generation th
AI科技大本营
2018/04/28
1.9K0
深度神经网络生成模型:从 GAN VAE 到 CVAE-GAN
基于微软开源深度学习算法,用 Python 实现图像和视频修复
‍‍ 作者 | 李秋键 编辑 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 图像修复是计算机视觉领域的一个重要任务,在数字艺术品修复、公安刑侦面部修复等种种实际场景中被广泛应用。图像修复的核心挑战在于为缺失区域合成视觉逼真和语义合理的像素,要求合成的像素与原像素具有一致性。 传统的图像修复技术有基于结构和纹理两种方法。基于结构的图像修复算法具有代表性的是 Bertalmio 等提出的BSCB模型和 Shen 等提出的基于曲率扩散的修复模型 CDD。基于纹理的修复算法中具有代表性的有
AI科技大本营
2023/05/08
5720
基于微软开源深度学习算法,用 Python 实现图像和视频修复
GAN应用情况调研
在此之前呢,先推荐大家去读一下一篇新的文章LS-GAN(Loss-sensitive GAN)[1]。
CreateAMind
2018/07/24
6710
GAN应用情况调研
提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服
作者:達聞西 量子位 已获授权编辑发布 作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能: 1) 去除(爱情)动作片中的马赛克 2)
量子位
2018/03/29
1.5K0
提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服
不可错过的 GAN 资源:教程、视频、代码实现、89 篇论文下载
【新智元导读】这是一份生成对抗(神经)网络的重要论文以及其他资源的列表,由 Holger Caesar 整理,包括重要的 workshops,教程和博客,按主题分类的重要论文,视频,代码等,值得收藏学习。 目录 Workshops 教程 & 博客 论文 理论 & 机器学习 视觉应用 其他应用 幽默 视频 代码 Workshops NIP 2016 对抗训练 Workshop 【网页】https://sites.google.com/site/nips2016adversari
新智元
2018/03/28
2.4K0
没钱买华为P30?这个图像超分辨率项目帮你「拍」出高清照片
相机不够算法凑,拥有超级拍照能力的手机也离不开算法的加持。本文介绍的图像超分辨率项目可以帮你补齐相机镜头的短板。
机器之心
2019/04/29
9070
没钱买华为P30?这个图像超分辨率项目帮你「拍」出高清照片
开发 | 提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服
作为一名久经片场的老司机,早就想写一些探讨驾驶技术的文章。这篇就介绍利用生成式对抗网络(GAN)的两个基本驾驶技能: 1) 去除(爱情)动作片中的马赛克 2) 给(爱情)动作片中的女孩穿(tuo)衣服 生成式模型 上一篇《用GAN生成二维样本的小例子》中已经简单介绍了GAN,这篇再简要回顾一下生成式模型,算是补全一个来龙去脉。 生成模型就是能够产生指定分布数据的模型,常见的生成式模型一般都会有一个用于产生样本的简单分布。例如一个均匀分布,根据要生成分布的概率密度函数,进行建模,让均匀分布中的样本经过变换得到
AI科技评论
2018/03/13
1.4K0
开发 | 提高驾驶技术:用GAN去除(爱情)动作片中的马赛克和衣服
基于Python的卷积神经网络和特征提取
作者:Christian S.Peron 译者:刘帝伟 摘要:本文展示了如何基于nolearn使用一些卷积层和池化层来建立一个简单的ConvNet体系结构,以及如何使用ConvNet去训练一个特征提取器,然后在使用如SVM、Logistic回归等不同的模型之前使用它来进行特征提取。 卷积神经网络(ConvNets)是受生物启发的MLPs(多层感知器),它们有着不同类别的层,并且每层的工作方式与普通的MLP层也有所差异。如果你对ConvNets感兴趣,这里有个很好的教程CS231n – Convolution
用户1737318
2018/06/05
1.3K0
【干货】神经增强:用 Python 实现深度学习超分辨率处理
【新智元导读】神经网络基于样本图像的训练为模糊图像补充细节,从而把模糊图像变高清。它不能把你的照片重建成一模一样的高清版。这只有好莱坞大片才有可能做到——但使用深度学习和神经增强(Neural Enhance)实现的“创造性 AI”作品同样很酷! 想得到如《犯罪现场调查》中CSI实验室那种提高照片清晰度的技术吗?感谢深度学习和神经增强(#NeuralEnhance)技术,现在已经能够训练一个神经网络把照片放大 2 倍,甚至 4 倍。通过增加神经元数目或使用与你的低分辨率图像相似的数据集进行训练,甚至能得到更
新智元
2018/03/26
4.1K0
【干货】神经增强:用 Python 实现深度学习超分辨率处理
无监督学习︱GAN 在 NLP 中遇到瓶颈+稀疏编码自学习+对偶学习
一年前,网友在 reddit 上提问道,生成式对抗网络 GAN 是否可以应用到自然语言处理上。GAN 理论的提出者,OpenAI 的科学家,深度学习理论奠基人之一 Yoshua Bengio 的得意门生 Ian Goodfellow 博士回答了这个问题:
悟乙己
2019/05/26
1.4K0
火热的生成对抗网络(GAN),你究竟好在哪里
自2014年Ian Goodfellow提出生成对抗网络(GAN)的概念后,生成对抗网络变成为了学术界的一个火热的研究热点,Yann LeCun更是称之为”过去十年间机器学习领域最让人激动的点子”.生成对抗网络的简单介绍如下,训练一个生成器(Generator,简称G),从随机噪声或者潜在变量(Latent Variable)中生成逼真的的样本,同时训练一个鉴别器(Discriminator,简称D)来鉴别真实数据和生成数据,两者同时训练,直到达到一个纳什均衡,生成器生成的数据与真实样本无差别,鉴别器也无法正确的区分生成数据和真实数据.GAN的结构如图1所示.
CreateAMind
2018/07/24
1K0
火热的生成对抗网络(GAN),你究竟好在哪里
基于CPPN与GAN+VAE生成高分辨率图像
来源:otoro 编译:weakish 在之前的文章中,hardmaru讨论了一种生成算法,可以在诸如MNIST或CIFAR-10这样的低分辨率图像上训练,以任意高的分辨率生成数字图像。这篇文章探索了之前模型的一些变化,以生成更有趣的结果。 具体来说,我们删除了在变分自编码器中使用的像素到像素的重构损失函数。我们用一个分类网络取代了用于检测虚假图像的判别网络。之前使用的生成网络是一个相对较大的网络,包含由128个全连接节点组成的4层网络,我们尝试用一个更深的网络来取代之前的生成网络,新网络有96层,但每层只
企鹅号小编
2018/01/16
8540
基于CPPN与GAN+VAE生成高分辨率图像
【新手必备】GAN生成对抗网络论文阅读路线图(附论文下载链接)
作者:İdil Sülo, Middle East Technical University
新智元
2018/12/06
9380
大会 | 腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读
AI 科技评论按:CVPR 2018 将在美国盐湖城举行。腾讯优图实验室继在 ICCV 有 12 篇论文被收录(含 3 篇口头报告)后,在今年的 CVPR 2018 上有多篇论文被录用,也凭借这一点在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应展示。
AI科技评论
2018/07/26
6100
大会 | 腾讯优图CVPR 2018论文:图片去模糊及快速肖像处理等多项技术解读
生成对抗网络(GANs )诞生以来的主要技术进展
关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第二 【Python】:排名第三 【算法】:排名第四 来源:雷锋网 两年前,蒙特利尔大学 Ian Goodfellow 等学者提出“生成对抗网络”(Generative Adversarial Networks,GANs)的概念,并逐渐引起 AI 业内人士的注意。其实,直到 2015 年,生成对抗网络还称不上是炙手可热。但自今年以来,学界、业界对 GANs 的兴趣出现“井喷”: 多篇重磅论文陆续发表; Facebook、Open AI 等
昱良
2018/04/08
7790
生成对抗网络(GANs )诞生以来的主要技术进展
TensorFlow 卷积神经网络实用指南:6~10
本章将介绍一种与到目前为止所看到的模型稍有不同的模型。 到目前为止提供的所有模型都属于一种称为判别模型的模型。 判别模型旨在找到不同类别之间的界限。 他们对找到P(Y|X)-给定某些输入X的输出Y的概率感兴趣。 这是用于分类的自然概率分布,因为您通常要在给定一些输入X的情况下找到标签Y。
ApacheCN_飞龙
2023/04/23
6930
资料 | 生成对抗网络(GAN)论文阅读路线图【打包下载】
为了帮助其他想要了解更多关于GAN技术的人,我想按照我阅读的顺序分享一些我读过的文章。在阅读这些论文之前,如果您不熟悉这些论文,我建议您学习一些深度学习的基础知识。 我也相信其中一些论文背后的数学可能非常困难,所以如果你觉得不舒服,你可以跳过这些部分。
昱良
2018/12/06
4980
推荐阅读
相关推荐
【白话科普】10分钟从零看懂AI绘画原理
更多 >
LV.0
这个人很懒,什么都没有留下~
目录
  • 1.为什么视频要编解码?
  • 2.视频是否可以压缩?
    • 视频冗余信息
  • 3.编解码实现原理
    • PBI帧
    • I帧
    • P帧
    • B帧
    • 码流层次结构
    • 视频编解码主要流程和关键技术
  • 4.编解码标准和国际组织
    • 国际标准组织
    • 视频编码专家组(Video Coding Experts Group—VCEG)
    • 动态图像专家组(Moving Picture Experts Group—MPEG)
    • 视频编码标准发展历程
    • 视频编码标准的应用场景
  • 5.视频文件封装(容器)
    • 封装格式
  • 6.视频质量评价体系
    • 客观评价方法
    • 主观评价方法
    • 基于视觉的视频质量客观评价方法
  • 参考文献
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档