各位同学,今天有三来发布新书了,本次新书为生成对抗网络方向,名为《生成对抗网络GAN:原理与实践》,本次书籍为我与师弟郭晓洲共同写作,也是第一本有三与人合著的书籍。
前言
这不是笔者写的第一本书,也不会是最后一本书,但可能是笔者创作时间最长的一本书,之前写过几本书后就变得特别忙碌,以至于本书的写作时间超过了一年。以前写的几本书,都是笔者一个人写的,工作量特别大,而本书是我和实验室的博士师弟一起完成的。师弟本科是物理专业,数学基础比我好,读博时做了GAN以及语音处理方面的工作,所以主要负责本书基础部分和语音应用部分的撰写,而我则负责GAN在计算机视觉领域中的各类典型框架和应用部分。
说起和GAN的结缘,要回溯到2015年。那时候我在360人工智能研究院做算法工程师,刚接触深度学习不久,处于快速学习的阶段,有一天翻到了关于GAN的内容,觉得特别新奇。但在360工作的时候特别忙,没有机会去深入研究和持续关注GAN,而且那时候的GAN离应用落地确实还有很大的距离。
2017年,我换工作到了陌陌深度学习实验室,其早期落地的产品关于GAN的内容其实不多,但是产品对GAN的需求越来越大,比如超分辨率、人像美颜与美妆,所以我开始真正重视起GAN,有时间都会关注下GAN的工作,慢慢地整理和输出了一些GAN相关的内容,包括博客和视频课程。那两年,每年都有上千篇与GAN相关的文章出现,要挖掘出好的工作其实很头疼。一方面研究GAN理论的文章特别多,看起来很费脑力。另一方面,千奇百怪的应用都开始出现,好像每一个领域GAN都能插一脚,给人一种一天看1篇论文都不够的感觉。
就这样,我大概在焦虑中追踪了两年GAN相关的内容,直到2019年左右,我发现GAN在业界突然开始大规模商业化。诸如人脸技术中的美妆、风格化、换脸,到图像质量提升技术中的超分辨,GAN已经不再是“玩具式“算法,而是真正成为很多领域的基础技术。在这段时间,我也同时在创作《深度学习之人脸图像处理》和《深度学习之摄影图像处理》书籍,其中也穿插了许多GAN的内容。但因为不是专注于讲解GAN,所以许多基础知识只能略讲,基础不好的读者不太容易掌握。
后来,杨福川编辑邀请我写一本关于GAN的书,正好师弟郭晓洲在我们平台创作了一些GAN的理论基础文章,所以我就邀请师弟扬长补短,一起开始了本书的创作。在创作完这本书之后(其实内容已经不少了),我仍然觉得意犹未尽,因为GAN可以输出的内容真的是太多了。本书权当是一个开篇,它适合所有对GAN技术感兴趣的朋友阅读。后续我们应该还会创作更多相关图书,敬请大家期待。
By 言有三
2017年,我在研究生进修期间首次接触到了GAN,那段时间正是GAN研究热度高涨之时。可能是由于物理学本科出身,我对相关的模型、理论有一些“执念”,总希望把它每个细节、每个设计逻辑都理解透彻。在学习过程中,我发现GAN的涉及面非常宽泛,因而做了大量的学习记录。彼时,龙鹏师兄(即言有三)正在做AI知识公众号,我觉得非常有趣,便顺带将自己积累的一部分内容分享到了公众号。之后,龙鹏师兄收到杨福川编辑的GAN图书写作邀请,我恰好对GAN的理论部分比较熟悉,就自然而然地参与其中。通过本书,我希望能帮助更多的人认识GAN。另外,由于笔者自身水平的限制,书中难免存在疏漏,敬请广大读者批评指正。
By 郭晓洲
Generative Adversarial Networks(中文名生成对抗网络,简称GAN)自从被提出来后,其发展就非常迅猛,几乎已经被应用于所有CNN可以使用的领域,应用涉及图像与视频生成,数据仿真与增强,各种各样的图像风格化任务,人脸与人体图像编辑,图像质量提升。
学好GAN算法,对于计算机视觉领域从业,完全是有必要的。我们公众号输出过非常多的GAN相关资源,包括几十篇理论与实战技术文章,免费与付费的视频课,知识星球中的GAN模型原理解读专题。本次书籍出版,可作为我们最系统的一个总结。
本书内容
这是我今年唯一会出版的一本书,如书名《生成对抗网络GAN:原理与实践》,这是一本系统性地讲解GAN理论、模型、常见问题,并为视觉和语音领域的大部分应用场景提供GAN解决方案和综合实践的书,下面是两位作者的简单介绍。
全书正文约340页,共计12章,目录如下:
第1章 生成模型
本章介绍了无监督生成模型的基本理论,包括无监督生成模型的研究范畴和常用的生成模型原理,其中包括以完全可见置信网络、流模型、变分自编码器、玻尔兹曼机为代表的显式生成模型和以GAN为代表的隐式生成模型。
第2章 目标函数优化
本章介绍了GAN中目标函数及其数学原理,包括原始GAN,LSGAN,EBGAN,fGAN,WGAN,LS-GAN,WGAN-GP,IPM,相对GAN以及BEGAN等内容。
第3章 训练技巧
本章介绍GAN在训练中的常见问题和相应解决方案,其中常见问题包括梯度消失问题,目标函数不稳定问题以及模式崩溃问题,解决方案包括退火噪声,谱正则化,一致优化,unrolledGAN,DRAGAN,MADGAN等内容。
第4章 评价指标与可视化
本章介绍了GAN的评价指标和可视化,其中评价指标包括IS,FID,MMD,Wasserstein距离,最邻近分类器,NRDS等内容,可视化部分介绍了GAN Lab工具。
第5章 图像生成
本章介绍了图像生成GAN的各类模型与应用,包括全卷积GAN,条件GAN,多尺度GAN,属性GAN,多判别器与生成器GAN,数据增强与仿真GAN,并进行了DCGAN与StyleGAN图像生成任务的实践。
第6章 图像翻译
本章介绍了图像翻译GAN的各类模型与应用,包括有监督图像翻译GAN,无监督图像翻译GAN,多域图像翻译GAN等,并进行了Pix2Pix图像上色任务的实践。
第7章 人脸图像编辑
本章介绍了人脸图像编辑GAN的各类模型与应用,包括人脸表情编辑GAN、人脸年龄编辑GAN、人脸姿态编辑GAN、人脸风格化编辑GAN、人脸换脸编辑GAN等,并进行了基于StyleGAN的人脸图像重建与属性编辑任务的实践。
第8章 图像质量增强
本章介绍了图像质量增强GAN的各类模型与应用,包括图像去噪GAN,图像去模糊GAN,图像色调映射GAN,图像超分辨GAN,图像修复GAN等,并进行了基于SRGAN的人脸图像超分辨任务的实践。
第9章 三维图片与视频生成
本章介绍了三维图片与视频生成GAN的各类模型与应用,包括三维图片生成GAN,视频生成与预测GAN等。
第10章 通用图像编辑
本章介绍了更通用的图像编辑GAN框架,包括深度编辑GAN,图像融合GAN,交互式图像编辑GAN等。
第11章 对抗攻击
本章介绍了对抗攻击以及GAN在其中的应用,包括对抗攻击的常见范式,用于攻击的Perceptual-Sensitive GAN,Natural GAN,AdvGAN等,用于防御的APEGAN,DefenseGAN等,并进行了对抗工具包AdvBox的实战。
第12章 语音信号处理
本章介绍了GAN在语音信号处理中的实战应用,包括用于语音增强的SEGAN,用于语音风格转换的CycleGAN-VC,用于语音生成的WaveGAN。
本书内容主体使用黑白印刷,部分图片使用彩图印刷,部分彩图如下:
详细内容请大家直接阅读书籍,本书是业界系统性地讲解生成对抗网络原理与实践的书籍,与其他同类书籍相比,本书内容更加深入与充分。
本书有非常全面的理论讲解与非常丰富的应用实战,前面4章介绍理论,后8章讲解应用,循序渐进,内容篇幅安排充实。理论部分有助于作者夯实基础,应用部分介绍大量经典的模型与典型案例,既有深度,又非常实用。本书所有实战代码统一使用Pytorch框架,适合新手使用学习。
本书内容邀请了业内资深专家进行阅读,并获得了推荐,推荐语如下:
IEEE Fellow 前阿里巴巴达摩院城市大脑实验室主任 华先胜
作者对生成对抗网络的原理和实践做了非常详细的介绍和解读,不仅仅介绍了已有的、常见的GAN模型在图像、视频、语音、深度学习的对抗攻击和防御等领域解决实际问题的实践,还花不少笔墨介绍了生成对抗网络框架的一些理论基础,可以帮助学习者不仅知其然还能知其所以然;不仅能了解常见GAN算法的设计思路和方法,还有望能举一反三,设计出自己的GAN,解决众多领域中尚未解决的问题。
中国科学院自动化研究所模式识别国家重点实验室主任/研究员 刘成林
生成对抗网络(GAN)是近年来深度学习领域研究和应用的最大热点之一,刚出现时即以其构思新颖奇妙而受到广泛关注,其后模型和算法创新成果大量涌现,在图像生成和风格转换等应用中不断取得惊艳的效果,并扩展到多模态数据应用,甚至上升到艺术创作的层次。然而,GAN的实现和应用、创新对研究开发者而言并不容易,需要对原理、算法有深入理解并掌握一些实现技巧。本书正好满足了深度学习研究开发者在这方面的需求。该书以由浅入深的原理算法介绍和程序代码、丰富的应用例子为读者学习、掌握、应用、创新GAN提供了有益指导。
中国科学院半导体研究所高速电路神经网络实验室研究员 鲁华祥
生成对抗网络(GAN)是学术界和工业界都广泛重视的一类神经网络,言有三和郭晓洲在GAN的理论及应用研究方面有扎实的基础和丰富的经验,他们在本书中系统地总结了GAN的知识体系,透彻地介绍了典型应用案例。本书兼备理论和实践价值,其内容完整、丰富、专业,值得相关从业人员学习和参考。
华中科技大学人工智能与自动化学院教授/博士生导师 谭毅华
生成对抗网络已经成为深度学习领域非常重要的内容,在数据增强、图像翻译和视频生成等得到了广泛的应用,并产生了实际应用价值。本书深入剖析了生成对抗网络的基本原理,详细阐述了优化和训练技巧,全面介绍了生成对抗网络的应用,配以大量的应用实例和代码以加深对知识的理解。全书理论分析透彻、应用知识浅显易懂,适合人工智能从业人员阅读了解生成对抗网络理论及其工程实践。
更多GAN的拓展学习资料
由于作者的水平和时间有限,书籍出版的时间滞后,以及GAN技术发展非常迅速,本书无法囊括所有最新内容,因此在我们公众号还有许多拓展的GAN学习资料。
1、相关技术文章,包括GAN的理论,模型,论文推荐,下面是其中部分节选内容
【GAN优化】长文综述解读如何定量评价生成对抗网络(GAN)
【每周CV论文推荐】GAN与VAE的结合,有哪些必读的论文?
【每周CV论文推荐】初学视频分类与行为识别有哪些值得阅读的论文?
【每周CV论文推荐】初学视觉注意力机制有哪些值得阅读的论文?
【每周CV论文推荐】StyleGAN人脸属性编辑有哪些经典论文需要阅读
【每周CV论文推荐】初学基于GAN的视频生成有哪些经典论文需要阅读
【每周CV论文推荐】初学基于GAN的三维图像生成有哪些经典论文需要阅读
【每周CV论文推荐】基于GAN的图像数据增强有哪些经典论文值得阅读
【每周CV论文推荐】初学基于GAN的图像语义编辑,需要阅读哪些论文?
【每周CV论文推荐】基于GAN的对抗攻击,适合阅读那些文章入门?
【每周CV论文推荐】基于GAN的图像对比度与色调映射增强值得阅读的文章
2、视频课程,包括GAN理论讲解,图像生成GAN原理与实战,图像翻译GAN原理与实战,图像增强GAN原理与实战,人脸属性编辑原理与实战,以及其他各类GAN项目实战,下面是部分节选
【视频课】永久免费课程!如何掌握好深度生成模型与GAN的基础理论知识
【视频课】CV必学,超6小时,2大模块,循序渐进地搞懂GAN图像生成!
【视频课】CV必学,超7小时,3大模块,3大案例,掌握图像翻译与风格化GAN核心技术!
【视频课】超8小时,5大模块,掌握基于GAN的图像增强应用(降噪色调映射去模糊超分辨修复)
【视频课】超10小时,3大模块,掌握深度学习人脸属性编辑算法理论与实践
更多学习资料,大家可以关注本公众号进行检索。
如何获得本书
现在是时候来谈谈如何获得本书了,本书定价99元,当前有3种方法可以获得。
(1) 在有三AI小鹅通知识店铺购买【专属签名版书籍】(签章为红黑色,随机发货),购买完成后【凭订单记录联系有三本人微信Longlongtogo】,发送收货地址。默认配套有今年最新的CV修行之路版学习扑克牌1副(只有少量现货,售完后将更改价格),不带则购买后联系有三减免5元。
(2) 在本文下方留言,至本周五早上十点(11月18日10:00),点赞最高的第1到5名,可获赠书【专属签名版书籍】一本+学习扑克牌一副。点赞最高的第6到10名,可获赠学习扑克牌一副。
(3) 书籍也已经在京东等平台进行预售,大家可以点击原文链接进行跳转购买。
小提示:购买与赠送的【专属签名版书籍】预计发货时间为本周末,统一使用京东快递。
致谢
书籍创作需要集齐众人之力,特此集中进行致谢:
感谢机械工业出版社的杨福川编辑的信任,联系我写作了本书,在后续的编辑校稿中完成了巨大的工作量。
感谢有三AI公众号,有三AI付费课程,有三AI知识星球的忠实粉丝们,是你们的阅读和付费支持让我有了坚持继续前行的力量。
感谢本书中若干GitHub开源项目的贡献者,是你们无私的技术分享,让更多人因此受益匪浅,这是这个技术时代里最伟大的事情。感谢前赴后继提出了书中方法的研究人员,因为你们的辛苦原创才有了本书的内容基础。
最后,感谢我的家人的宽容,因为事业,给你们的时间很少,希望以后会做的更好。
转载文章请后台联系
侵权必究