前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生成式对抗网络GAN在语音自然语言处理中的应用|

生成式对抗网络GAN在语音自然语言处理中的应用|

作者头像
新智元
发布2019-09-25 16:51:53
4.2K0
发布2019-09-25 16:51:53
举报
文章被收录于专栏:新智元


新智元推荐

来源:专知(LiteProgrammer)

【新智元导读】InterSpeech是语音处理领域的顶级会议,于9月15日-9月20日在奥地利格拉茨召开,国立中国台湾大学李宏毅老师在会上作了题为“Generative Adversarial Network and its Application to Speech Processing and Natural Learuage Processing”的报告,本文整理了报告的主要内容,并分享了报告PPT。

生成对抗网络(GAN)是训练模型的新思想,生成器和鉴别器相互对抗以提高生成质量。最近,GAN在图像生成方面取得了惊人的成果,并在此基础上迸发了大量新的思想,技术和应用。虽然只有少数成功的案例,但GAN在文本和语音领域具有很大的潜力,以克服传统方法的局限性。

内容简介

本教程分为三个部分。在第一部分中,我们将介绍生成对抗网络(GAN)并提供有关此技术的全面介绍。在第二部分中,我们将重点介绍GAN在语音信号处理中的应用,包括语音增强,语音转换,语音合成,以及域对抗训练在说话人识别和唇读等方面的应用。在第三部分中,我们将描述GAN生成句子的主要挑战,并回顾一系列应对挑战的方法。同时,我们将提出使用GAN实现文本样式转换,机器翻译和抽象摘要的算法,而无需配对数据。

讲者简介

李宏毅教授分别于2010年和2012年在国立中国台湾大学获得了硕士与博士学位。2012年9月至2013年8月,他是中国科学院信息技术创新研究中心的博士后。2013年9月至2014年7月,他是麻省理工学院计算机科学与人工智能实验室(CSAIL)语言系统组的访问科学家。现任国立中国台湾大学电气工程系助理教授,并任职于该大学计算机科学与信息工程系。他的研究重点是机器学习(尤其是深度学习),口语理解和语音识别。

曹昱副研究员分别于1999年和2001年获得中国台湾大学电子工程学士学位和硕士学位。他于2008年获得佐治亚理工学院电气与计算机工程博士学位. 2009至2011年,曹博士是日本国家信息与通信技术研究所(NICT)的研究员,从事自动语音研究和产品开发,识别多语言语音到语音翻译。目前,他是中国台湾台北中央研究院信息技术创新研究中心(CITI)的副研究员。他于2017年获得了中央研究院职业发展奖。曹博士的研究兴趣包括语音和说话人识别,声学和语言建模,音频编码和生物信号处理。

目录

GAN的基本思想及一些基础的理论知识

- GAN的三种类别

- GAN的基本理论

- 一些有用的技巧

- 如何评估GAN

- 与强化学习的关系

GAN在语音方面的应用

- 语音信号生成

- 语音信号识别

- 结论

GAN在自然语言处理方面的应用

- GAN序列生成

- 无监督条件序列生成

原文链接:

https://interspeech2019.org/program/tutorials/

附部分PDF预览:

GAN的三个类别

GAN的基本思想

GAN从2014年发展至今,有了很大进步

条件GAN

条件GAN中,可由图片生成图片,声音生成图片,图片生成标签等应用

无监督条件GAN生成有两种方法:

  1. Cycle-GAN
  2. 共享一个隐空间

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-09-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【新智元导读】InterSpeech是语音处理领域的顶级会议,于9月15日-9月20日在奥地利格拉茨召开,国立中国台湾大学李宏毅老师在会上作了题为“Generative Adversarial Network and its Application to Speech Processing and Natural Learuage Processing”的报告,本文整理了报告的主要内容,并分享了报告PPT。
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档