Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >使用 GAN 进行数据增强-AI快速进阶系列

使用 GAN 进行数据增强-AI快速进阶系列

作者头像
jack.yang
发布于 2025-04-05 12:03:14
发布于 2025-04-05 12:03:14
3870
举报

1. 概述

在本教程中,我们将讨论使用生成对抗网络 (GAN) 进行数据增强。首先,我们将介绍数据增强和 GAN,然后我们将介绍一个能够生成非常逼真的样本的 GAN 架构。

2. 数据增强

深度学习彻底改变了许多领域,并已成为许多复杂任务(如文本翻译、图像分割和自动语音识别)的最新方法。大型注释数据集在这一成功中起着至关重要的作用,因为深度学习模型需要大量数据进行训练。但是,注释大量训练数据有时既困难又昂贵。因此,适当的数据增强对于提高模型性能非常有用。

为了更好地通过示例解释这个概念,我们将重点介绍图像的数据增强,但无论域如何,方法都是相同的。通常,数据增强的目标是通过更改现有数据的属性或生成全新的合成数据来增加数据集的大小。

通常,遵循前一种方法,我们翻转、旋转或随机更改图像的色调、饱和度、亮度和对比度。该过程很简单,可以在训练模型时在线完成。使用这些技术的缺点是,我们不会向模型引入新的合成数据,而只是包含处于不同状态的相同样本。因此,模型已经看到了这些样本,并且对泛化性的影响是有限的:

生成新的逼真的合成数据是一项艰巨的任务,包括学习模仿数据集的原始分布。正如我们将看到的,GAN 可以生成真实的样本并提高模型性能。

3. GANs

让我们首先简要介绍一下它们由两部分组成的结构。

学习生成合理数据的生成器。它采用固定长度的随机向量作为输入,并学习生成模拟原始数据集分布的样本。然后,生成的样本成为鉴别器的负示例。

学习将生成器的合成数据与真实数据区分开来的鉴别器。它将样本作为输入,并将其分类为“真实”(来自原始数据集)或“假”(来自生成器)。鉴别器惩罚生成器产生难以置信的样本:

在图像的情况下,生成器和鉴别器都是CNN,生成器的目标是生成非常逼真的图像,以至于鉴别器认为它们是真实的。然后,使用反向传播来随着时间的推移更新这些模型的权重和偏差,生成器将慢慢学习创建模拟原始数据集的物理和数学分布的样本。

这些模型玩一个两人的最小最大值游戏,因此优化鉴别器的目标函数会对生成器的目标函数产生负面影响,反之亦然。具体说来:

1)生成器希望最小化log(1 - D(G(z)))生成器的随机输入位置z。通过最小化此术语,生成器在将假样本分类为真实样本时欺骗了鉴别器。

2)鉴别器希望最大化log(D(x_{d})) + log(1 - D(G(z)))原始数据集中的样本位置。该项对应于为真实样本和来自生成器的样本分配正确标签的概率。

4. 条件性 GAN

在少数样本学习设置中,我们希望根据有限数量的样本训练预测模型。例如,假设我们要创建一个模型,该模型将狗的图像作为输入并预测其品种。我们有庞大的动物数据集,但用狗品种注释的数据量非常有限。在这里,解决方案是使用 GAN 来扩充我们的数据集。

尽管常规 GAN 在大量数据上训练时可以生成非常逼真的样本,但它们无法生成具有特定标签的样本。条件 GAN 通过修改原始生成器网络来控制其输出来处理这个问题。具体来说,网络有两个主要变化。

我们在生成器的输入中添加一个标签Y,并尝试生成相应的数据点。

鉴别器将样本X和相应的标签Y作为输入:

在条件 GAN 中,生成器被教导生成特定类的示例来欺骗鉴别器。这样,条件 GAN 可以从给定类型的域生成样本。在论文中,我们可以看到一些为每行生成数字的示例,条件为一个标签

5. 限制

GAN 的功能在数据增强方面令人印象深刻,因为它们可以有效地学习输入数据的基础分布并生成非常真实的样本。但是,存在一些限制:

  1. 我们没有用于评估生成样本质量的内在指标。已经提出了一些实验指标,但需要朝着这个方向做更多的研究。
  2. GAN的训练通常是不稳定的,需要大量的计算资源。

6. 结论

在本文中,我们讨论了如何使用 GAN 进行数据增强。首先,我们介绍了数据增强和生成模型的主题,然后我们介绍了可用于生成非常现实样本的条件 GAN。最后,我们强调了GAN的一些局限性。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
获取Bigone交易深度数据
Bigone当前只支持币币交易,币币行情在API里称为Market(市场),比如eosDAC/BTC的最新价格为0.00001,意思是1个eosDAC可以换0.00001个BTC,折算为人民币大约0.39元。
申龙斌
2018/07/27
7980
获取Bigone交易深度数据
用API在Bigone上提交一笔订单
想写一个交易所的量化程序,第一步得利用API建立一笔订单,比如,我想在EOS-BTC市场中创建一笔卖单,价格为0.002985,数量为1个EOS。
申龙斌
2018/07/27
9320
用API在Bigone上提交一笔订单
调用API取消Bigone上的一笔订单
上一篇文章《在Bigone上创建一笔订单》已经调用API创建了一个订单,如何取消该订单?Bigone官方提供了相应的接口:
申龙斌
2018/07/27
6830
调用API取消Bigone上的一笔订单
访问Bigone API获取数字资产的余额
昨天写了一篇文章《Bigone API 升级到v2,害死程序员》,有人反映API文档无法打开,请自备梯子访问https://open.big.one。
申龙斌
2018/07/27
8960
Bigone API 升级到v2,害死程序员
最近调动到北京工作,以前开发的三角套利程序竟然不能正常运行了,真是币圈一天,人间一年。最近稍微有一点点空闲时间,重拾搬砖程序,却发现Bigone的API已经发生了重大变化,非常非常大的变化,不只是外界看到的ONE交易挖矿(API的开发者文档地址: https://open.big.one/,请自备VPN)。
申龙斌
2018/07/27
8450
我所喜欢的Big.One应该是这样的
我从2016年8月从Okcoin买入了人生的第一笔比特币,当时的价格不到4000元。由于学习了区块链生存知识,深知私钥的重要性,所以我把币一直存在自己的Bitcoin Core钱包里,一方面防止交易所
申龙斌
2018/03/06
1.1K0
我所喜欢的Big.One应该是这样的
三角套利分析
搬砖是币圈中一种常见的套利方式,主要利用两个交易所之间的币币交易对的价格差,低买高卖来获利,随着参与人数的增多,现在市面上的手工搬砖基本上没有机会了,全是搬砖机器人程序在多个交易所之间频繁操作。
申龙斌
2018/07/27
1.9K0
三角套利分析
IBO的金融原理和应用方向分析1 EOS RAM 扩容代码更新细节2 BM:EOSIO RAM Market & BancorAlgorithm3 EOSPark杂谈:RAM篇——基本概念4 EOS
导读:关于IBO市场的各种分析如天花烂坠,但大都如耍流氓般只给结论,让阅读者怀疑人生,信也不是不信也不是。而本文作者从经济学、金融学基础原理出发,将IBO市场的金融特性、应用前景,事无巨细整理进统一的论述体系中,一步步推导至结论。朴素扎实的论证方法让人眼前一亮,不由让人赞叹:明白觉厉。
辉哥
2018/10/22
9600
IBO的金融原理和应用方向分析1 EOS RAM 扩容代码更新细节2 BM:EOSIO RAM Market & BancorAlgorithm3 EOSPark杂谈:RAM篇——基本概念4 EOS
区块链专业术语、币圈常见名词整理
所谓的币圈,即数字货币玩家天然形成的圈子。币圈不大,但是人数也不算少,而且在人群中基本上属于小众异类,但林林总总算是一个圈子,赚钱的人不多,形形色色的赚钱方式也都被迅速地拷贝过来,ICO、炒币、挖矿等。
广州闪链科技
2018/11/20
6.2K0
理解去中心化 稳定币 DAI
随着摩根大通推出JPM Coin 稳定币,可以预见稳定币将成为区块链落地的一大助推器。 坦白来讲,对于一个程序员的我来讲(不懂一点专业经济和金融),理解DAI的机制,真的有一点复杂。耐心看完,必有收获。
Tiny熊
2019/04/28
1.5K0
理解去中心化 稳定币 DAI
FCoin交易所API文档
通过了解以下信息,您可以方便的使用 FCoin 提供的 API 来接入 FCoin 交易平台。
全栈程序员站长
2022/07/22
1.7K0
提醒!比特币千万不要碰!?
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 2017年的12月,对币圈来说是一个疯狂的月份,对比特币,疯狂更甚。 结束了11月8千美金的长期横盘,12月份的比特币,就犹如搭上了直
IT派
2018/03/28
1.8K0
提醒!比特币千万不要碰!?
区块链小白投资入门操作指南(上)
区块链从入门到精通,看我就够了 导读:想要在大热的区块链投资中分一杯羹,首先、也是最重要的就是弄清楚投资流程。如下图所示,就是一个完整的投资流程。简单来说,我们可以归纳为【选币】-【选时】-【法币兑换】-【选所交易】-【保管】或【卖出提现】这六大步骤。 具体来说,就是要先做功课,了解哪些数字货币适合自己投资(选币);关注行情确认合适的投资价位(选时)。由于目前主流交易所主要支持的是币币交易,所以正式交易前,需要先将人民币(图中的法币指的是政府发行的货币,如人民币、美元等)换为数字货币(主要是比特币BTC
企鹅号小编
2018/01/16
2K0
区块链小白投资入门操作指南(上)
数据可视化为你解读数字货币的那些事儿
“近年来,数字货币发展迅速却又蒙着神秘面纱。连菜市场的大妈大爷也能唠一唠的区块链、比特币、以太坊,你又了解多少呢?法定货币与数字货币存在怎么样的关系?数字货币的交易网络如何用可视化手法巧妙呈现?DT君上周请到了数据侠周宁奕,他用数据分析及可视化,带领大家了解了数字交易市场背后的那些事儿。本文为嘉宾的直播实录整理,感兴趣的朋友不要错过哦~
DT数据侠
2018/08/23
1.1K0
交易所撮合引擎原理及实现代码
交易撮合引擎(Matching/Trading Engine),顾名思义是用来撮合交易的软件,广泛地应用在金融、证券、加密货币交易等领域。交易引擎负责管理加密资产市场中所有的开口订单(Open Orders),并在发现匹配的订单对(Trading Pair)时自动执行交易。本文将首先介绍有关加密资产交易撮合引擎的基本概念,例如委托单、交易委托账本等,然后使用Golang实现一个原理性的撮合引擎。如果你正在考虑实现类似交易所(Exchange)这样的产品,相信本文会对你有很大的帮助。
用户1408045
2019/07/24
12.6K0
USDT PHP开发包OmniTool简介
OmniTool开发包适用于为PHP应用快速增加对Omni Layer/USDT数字资产的支持能力,即支持使用自有Omni Layer节点的应用场景,也支持基于第三方API服务和离线裸交易的轻量级部署场景。下载地址:omni/usdt php开发包 。
用户1408045
2019/06/11
2.4K0
USDT PHP开发包OmniTool简介
交易平台搅局者“Uniswap之父”,不会编程的“失业青年”,出手即巅峰
来源 | 白话区块链 据The Block Research统计,去中心化交易协议 Uniswap 在7月份新增 57976 名用户,环比增加132%,其网站访问量也从6月的约9万人次增加到7月的约 142 万次,同比增加 15倍左右。 与此同时,Uniswap 的流动性及交易量更是一骑绝尘,根据coingecko数据,截至8月11日,UniswapV1、V2总流动性超过2亿美元,24小时交易量已经超过2.5亿美元,几乎平分了DEX世界的一半天下。 “天下DEX共一石,Uniswap独得五斗,Curve
区块链大本营
2023/03/31
4260
交易平台搅局者“Uniswap之父”,不会编程的“失业青年”,出手即巅峰
以太币:不值钱的垃圾币
这一切都始于 2017年2月泰国南部的一个海滩上。泰国国王几个月前过世了,所以派对的举办有些低调。在我的两位好朋友陪同下,其中一个是最好垃圾币交易员之一,我们沿着海滩寻找着派对。
海豚区块链
2018/08/30
1.8K0
以太币:不值钱的垃圾币
普通人参与区块链的几种方式
最近几天比特币行情太猛,让我有点怀疑人生了。 有人总结了这样几排字: 从 $0 到 $1,000: 1789 天 从$1,000到 $2,000:1271天 从$6,000 到 $7,000: 13天 从$7,000 到 $8,000: 14天 从$8,000 到 $9,000: 9天 从$9,000 到 $10,000: 2 天 从$11,000 到 $12,000: 6 天 从$12,000 到 $13,000: 17小时 从$13,000 到 $14,000: 4小时 从$14,000 到 $15
申龙斌
2018/03/06
1.5K0
普通人参与区块链的几种方式
如何从5000美金到20万美金?手把手构建一只机器学习交易系统
不仅有人这么做了,还做得挺好!tradientblog有人就构建了这么一个交易系统,该系统能够在一年内利用5000美金的投资产生20万美金的税前收益,并且大部分收益是在市场中性产生,即不依赖于市场的涨跌。
大数据文摘
2019/12/21
8370
相关推荐
获取Bigone交易深度数据
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档