首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【MIT博士论文】控制神经语言生成

【MIT博士论文】控制神经语言生成

作者头像
数据派THU
发布于 2022-09-08 05:40:48
发布于 2022-09-08 05:40:48
18700
代码可运行
举报
文章被收录于专栏:数据派THU数据派THU
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
来源:专知本文为论文介绍,建议阅读5分钟本文探讨了柔性序列模型和弱监督方法来执行各种控制生成任务。

大规模的神经语言模型在自然语言生成方面取得了令人印象深刻的进展。然而,典型的模型以一种从左到右的、不受约束的方式运行,对生成的内容的控制有限。本文探讨了柔性序列模型和弱监督方法来执行各种控制生成任务。我们预计这些技术将广泛应用于其他领域,如图像、分子和生物序列的生成。

我们首先介绍了一类称为空白语言模型(BLMs)的序列模型,它通过动态创建和填充空白来生成序列。给定带有一个或多个空格的部分指定文本,BLM将使用与上下文一致的可变数量的标记来填充这些空格。我们的模型非常适合各种文本编辑和重写任务,并在文本填充、古代文本恢复和情感迁移方面证明了有效性。

接下来,我们研究文本自动编码器及其通过潜在空间操作控制生成的用途。我们建立了一个理论,如何塑造一个有意义的潜在空间几何离散文本数据。在此基础上,我们开发了一系列去噪文本自动编码器,通过简单的矢量算法展示了属性修改(例如,时态,情感等)的潜力。

最后两章讨论了在没有监督数据的情况下的语言风格迁移。我们首先将非并行风格迁移的任务形式化,并讨论学习问题的可行性。我们提出了一种利用潜在表示的分布对齐来执行样式传输的方法。然后,我们研究了混杂因素,并表明通过将数据分为两组不同的风格,每组中的集合说明了我们不希望改变的变化,我们可以利用不变性来隔离混杂因素,并向所需的方向转移文本。

https://dspace.mit.edu/handle/1721.1/144561

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【MIT博士论文】因果推论在社会和工程系统应用
来源:专知本文为论文推荐,建议阅读5分钟我们介绍的关键框架是将因果推理与张量补全联系起来。 如果我们做A, Y会怎样? 许多有意义的社会和工程问题可以这样表述:如果病人接受一种新的疗法,他们的健康会发
数据派THU
2022/09/20
2630
【MIT博士论文】因果推论在社会和工程系统应用
【MIT博士论文】数据高效强化学习
来源:专知本文为论文介绍,建议阅读5分钟本周重要论文包括:CVPR 2022各种获奖论文。 强化学习(Reinforcement learning, RL)是一种学习复杂决策策略的通用而强大的解决方案,为游戏和机器人等多个领域的近期成功提供了关键的基础。然而,许多最先进的算法需要大量的数据,计算成本很高,需要大量的数据才能成功。虽然这在某些情况下是可能的,例如在可用数据稀少的社会科学和医疗健康应用程序中,这自然会昂贵或不可行的。随着人们对将RL应用到更广泛的领域的兴趣的激增,对其算法设计中涉及的数据的使用
数据派THU
2022/07/13
2780
【MIT博士论文】数据高效强化学习
【MIT博士论文】利用临床和生物医学表征学习的结构和知识
来源:专知本文为论文介绍,建议阅读5分钟在本文中,我将探索新的生物医学数据预训练和表示学习策略,这些策略利用外部结构或知识来为局部和全局尺度的学习提供信息。 用于健康和生物医学领域的机器学习的数据集通常是有噪声的,采样不规律,只有稀疏的标记,相对于数据和任务的维度都很小。这些问题推动了表示学习在这个领域的应用,它包含了各种技术,旨在产生适合下游建模任务的数据集表示。该领域的表示学习还可以利用生物医学领域的重要外部知识。在本文中,我将探索新的生物医学数据预训练和表示学习策略,这些策略利用外部结构或知识来为局
数据派THU
2022/09/14
3880
【MIT博士论文】利用临床和生物医学表征学习的结构和知识
GNN如何发现新药?MIT博士论文《分子图表示学习与生成的药物发现》
来源:专知本文为论文介绍,建议阅读5分钟我们探索了一种用于分子表示的Transformer式架构,提供了将这些模型应用于图形结构对象的新工具。 机器学习方法已经广泛应用于药物发现领域,使得更强大和高效的模型成为可能。在深度模型出现之前,建模分子在很大程度上是由专家知识驱动的;为了表现分子结构的复杂性,这些手工设计的规则被证明是不够的。深度学习模型是强大的,因为它们可以学习问题的重要统计特征——但只有正确的归纳偏差。我们在两个分子问题的背景下解决这个重要的问题:表征和生成。深度学习的典型成功在于它能够将输入
数据派THU
2022/07/04
6330
GNN如何发现新药?MIT博士论文《分子图表示学习与生成的药物发现》
【MIT博士论文】自监督学习语音处理
来源:专知本文约3000字,建议阅读5分钟在这篇论文中,我们探索使用自我监督学习。 在大量标记语音数据上使用监督学习算法训练的深度神经网络在各种语音处理应用中取得了显著的性能,往往在相应的排行榜上处于领先地位。然而,训练这些系统依赖于大量带注释的语音这一事实,为继续发展最先进的性能造成了可扩展性瓶颈,而且对在语音领域部署深度神经网络构成了更根本的障碍,因为标记数据本质上是罕见的,昂贵的,或耗时的收集。 与带注释的语音相比,未转录的音频通常积累起来要便宜得多。在这篇论文中,我们探索使用自我监督学习——一种学
数据派THU
2022/09/07
5780
【MIT博士论文】自监督学习语音处理
这 7 篇论文影响巨大,却并不属于任何顶会!
最近一阵子,NeurIPS 2019 放榜了、ICLR 2020 截稿了,为论文没中而闷闷不乐、为投稿(或者改稿重投)而郁闷头大的同学肯定不少。不过,在乎真正的学术贡献的同学也不用着急,论文中了顶会最主要还是说明符合流行风向+运气好,就像每年顶会的最佳论文过十年再来看往往并不是真正推动领域进步的论文一样。
AI科技评论
2019/10/10
4760
这 7 篇论文影响巨大,却并不属于任何顶会!
【论文解读】用于代码处理的语言模型综述
在这项工作中,论文系统地回顾了在代码处理方面的最新进展,包括50个+模型,30个+评估任务和500个相关工作。论文将代码处理模型分解为由GPT家族表示的通用语言模型和专门预训练的代码模型,通常具有定制的目标。论文讨论了这些模型之间的关系和差异,并强调了代码建模从统计模型和rnn到预训练的transformer和LLM的历史转变,这与NLP所采取的过程完全相同。还讨论了特定于代码的特性,如AST、CFG和单元测试,以及它们在训练代码语言模型中的应用,并确定了该领域的关键挑战和潜在的未来方向。
合合技术团队
2024/01/18
5670
【论文解读】用于代码处理的语言模型综述
ICML 2019 | 序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS
编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向。借助于BERT和GPT等预训练模型,人类在多个自然语言理解任务中取得了重大突破。然而,在序列到序列的自然语言生成任务中,目前主流预训练模型并没有取得显著效果。为此,微软亚洲研究院的研究员在ICML 2019上提出了一个全新的通用预训练方法MASS,在序列到序列的自然语言生成任务中全面超越BERT和GPT。在微软参加的WMT19机器翻译比赛中,MASS帮助中-英、英-立陶宛两个语言对取得了第一名的成绩。
AI科技评论
2019/05/17
9470
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
这项工作提出一种新的“基于编辑”的方法,即属性组编辑(Attribute Group Editing,AGE),用于少样本图像生成。思路是任何图像都是属性的集合,并且特定属性的编辑方向在所有类别中共享。AGE 检查在 GAN 中学习的内部表示并识别语义上有意义的方向。
公众号机器学习与AI生成创作
2022/05/27
9370
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总
【AAAI 2020】微软亚洲研究院6篇精选论文在家必看!
编者按:AAAI 2020 明天将在纽约开幕,然而这次的情况有些许不同,许多国内的小伙伴因疫情影响无法到现场参加会议。各位小伙伴在家中做好日常防护的同时,是时候开启“云参会”模式啦。本届 AAAI 中微软亚洲研究院有29篇论文入选,本文为大家介绍的6篇精选论文涵盖多维数据普适分析、文本风格迁移、句子改写、集成学习、实体链接任务等多个前沿主题,如果你不能去到大会现场,先来看看这些精选论文吧。
zenRRan
2020/02/20
7420
论文解读 - 统一的多模态理解和生成模型综述(上)
近年来,多模态理解模型和图像生成模型都取得了显著的进步。尽管各自取得了成功,这两个领域却独立发展,形成了独特的架构范式:基于自回归的架构主导了多模态理解,而基于扩散的模型则成为图像生成的基石。最近,人们越来越关注开发能够整合这些任务的统一框架。GPT-4的新能力正是这一趋势的体现,突显了统一的可 能性。然而,两个领域的架构差异带来了重大挑战。为了清晰地概述当前的统一努力,论文提供了一份全面的综述,旨在指导未来的研 究。首先,论文介绍多模态理解和文本到图像生成模型的基础概念和最新进展。接下来,论文回顾现有的统一模型,将其分为三大架构 范式:基于扩散、基于自回归以及融合自回归和扩散机制的混合方法。对于每一类,论文分析了相关工作引入的结构设计和创新。此 外,论文还编制了针对统一模型的数据集和基准测试,为未来的探索提供资源。最后,论文讨论了这一新兴领域面临的关键挑战,包括 令牌策略、跨模态注意力和数据问题。由于该领域仍处于早期阶段,论文预计会迅速取得进展,并将定期更新此综述。论文的目标是激 发进一步的研究,并为社区提供有价值的参考。
合合技术团队
2025/05/29
2460
论文解读 - 统一的多模态理解和生成模型综述(上)
每周AI论文速递(250707-250711)
我们提出一个端到端框架,通过强化学习将视觉语言模型(VLMs)的推理能力扩展至长视频领域。针对长视频推理的独特挑战,我们整合了三个关键组件:(1) 大规模数据集LongVideo-Reason,包含52K个长视频问答对,涵盖体育、游戏和视频博客等多个领域的高质量推理标注;(2) 两阶段训练流程,通过思维链监督微调(CoT-SFT)和强化学习(RL)扩展VLMs能力;(3) 专为长视频RL设计的训练基础设施Multi-modal Reinforcement Sequence Parallelism (MR-SP),结合序列并行技术和基于vLLM的定制引擎,利用缓存视频嵌入实现高效rollout和prefilling。实验中,LongVILA-R1-7B在VideoMME等长视频QA基准表现优异,并在我们开发的LongVideo-Reason-eval基准上,在时序推理、目标、意图推理、空间推理和情节推理方面超越Video-R1-7B,甚至媲美Gemini-1.5-Pro。值得注意的是,我们的MR-SP系统在长视频RL训练中实现了最高2.1倍的训练加速。随着输入视频帧数增加,LongVILA-R1展现出持续的性能提升。LongVILA-R1标志着VLMs在长视频推理领域迈出坚实一步。此外,我们公开了训练系统,支持多种模态(视频、文本、音频)、多种模型(VILA和Qwen系列)乃至图像/视频生成模型的RL训练。在单台A100节点(8块GPU)上,可支持时长达1小时的视频RL训练(例如3,600帧/约256k tokens)。
叶子的技术碎碎念
2025/07/14
280
每周AI论文速递(250707-250711)
每周AI论文速递(250310-250314)
随着先进的大语言模型的兴起,生成文本检测变得越来越重要。尽管有许多努力,但没有单一算法在不同类型的未见文本上表现一致,或保证对新的大语言模型的有效泛化。可解释性在实现这一目标中起着关键作用。在本研究中,我们通过使用稀疏自编码器从 Gemma-2-2b 残差流中提取特征来增强生成文本检测的可解释性。我们识别了具有可解释性和高效性的特征,通过领域和模型特定的统计、引导方法以及手动或基于大语言模型的解释来分析它们的语义和相关性。我们的方法提供了关于来自各种模型的文本与人类撰写内容如何不同的宝贵洞察。我们展示了现代大语言模型具有独特的写作风格,尤其是在信息密集的领域中,尽管它们可以通过个性化提示生成类似人类的输出。
叶子的技术碎碎念
2025/04/08
1170
每周AI论文速递(250310-250314)
【ICML2023】基于自然语言指令的受控文本生成
来源:专知本文为论文介绍,建议阅读5分钟在这项工作中,我们提出了INSTRUCTCTG,这是一个受控文本生成框架。 大型语言模型可以生成流畅的文本,并可以按照自然语言指令解决各种任务,而无需特定任务的训练。然而,要控制它们的生成以满足不同应用所需的各种约束条件是非常困难的。在这项工作中,我们提出了INSTRUCTCTG,这是一个受控文本生成框架,它通过依据约束条件的自然语言描述和演示来结合不同的约束条件。特别地,我们首先通过一组现成的自然语言处理工具和简单的启发式方法来提取自然文本中的潜在约束条件。然后,
数据派THU
2023/05/18
5440
【ICML2023】基于自然语言指令的受控文本生成
从图像到语言:图像标题生成与描述
对图像中的视觉内容进行归纳和总结,并使用合适的词汇与合理的语法结构将其重新组织并表达出来,是图像标题生成与描述的主要研究内容。 如图 1 所示,首先对图像中的视觉内容进行解析,将其转换成视觉语义编码,然后根据编码内容进行解码,将其映射到语言空间中,生成相关词汇,并组合成用词准确、结构合理的自然语言。 本节围绕该基本框架,从视觉特征提取、视觉语义选择和模型设计与优化等方面,介绍当前流行的方法和模型架。
苏州程序大白
2021/08/13
2K0
从图像到语言:图像标题生成与描述
每周AI论文速递(240708-240712)
无编码器视觉-语言模型的探索 当前的视觉-语言模型(VLMs)主要依赖视觉编码器提取视觉特征,并结合大语言模型(LLMs)执行视觉-语言任务。然而,视觉编码器在抽象视觉表示时引入的强烈归纳偏差,如分辨率、宽高比和语义先验,可能限制了VLMs的灵活性和效率。训练不包含视觉编码器的纯VLMs,即无缝接受视觉和语言输入,仍面临挑战且研究较少。实证研究表明,不使用编码器直接训练会导致收敛缓慢和性能差距大。本研究旨在弥合基于编码器与无编码器模型之间的差距,并提出一种简单有效的训练方案,以实现纯VLMs。具体而言,我们通过深入实验揭示了高效训练无编码器VLMs的关键要素:(1)在统一解码器内融合视觉-语言表示;(2)通过额外监督提升视觉识别能力。基于这些策略,我们开发了EVE,一种高效训练和前向传播的无编码器视觉-语言模型。值得注意的是,仅利用3500万公开数据,EVE在多个视觉-语言基准上与类似容量的基于编码器VLMs表现相当。它显著超越了训练过程神秘且数据未公开的Fuyu-8B模型。我们相信,EVE为跨模态开发纯解码器架构提供了一条透明且高效的路径。相关代码和模型已在以下公开发布:https://github.com/baaivision/EVE。
叶子的技术碎碎念
2025/04/08
1110
每周AI论文速递(240708-240712)
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
超110篇!CVPR 2021最全GAN论文汇总梳理!
一、年龄迁移 1,Continuous Face Aging via Self-estimated Residual Age Embedding 人脸合成,尤其是年龄迁移,一直是生成对抗网络 (GAN) 的重要应用之一。大多数现有的人脸年龄迁移方法会将数据集分为几个年龄组并利用基于组的训练策略,这在本质上缺乏提供精细控制的连续年龄合成的能力。 这项工作提出统一的网络结构,将线性年龄估计器嵌入到基于 GAN 的模型中,年龄估计器与编码器和解码器联合训练以估计人脸图像的年龄并提供个性化的目标年龄特征嵌入。
公众号机器学习与AI生成创作
2021/12/09
3.1K0
超110篇!CVPR 2021最全GAN论文汇总梳理!
训练语言模型何需文本?Facebook发布GSLM:无需标签,从语音直接训!
基于文本的语言模型如BERT、RoBERTa和GPT-3,借助Transformer的春风,近年来取得了巨大的进步。
新智元
2021/10/12
1.4K0
每日论文速递 | MIT新作:使用多个大模型协作decode
摘要:我们提出了一种方法,通过在token level交错使用多个大语言模型(LLM),让它们学会协作。我们将由哪个 LLM 生成下一个token的决定建模为一个潜变量。通过在我们的潜变量模型下优化训练集的边际可能性,base LLM 会自动学习何时自行生成,何时调用其中一个 "辅助 "语言模型生成,所有这一切都无需直接监督。解码过程中的token level协作可以根据手头的具体任务融合每个模型的专长。我们的协作解码尤其适用于跨领域环境,在这种环境中,通用base LLM 会学习调用领域专家模型。在指令遵循、特定领域质量保证和推理任务中,我们证明联合系统的性能超过了单个模型。通过对所学潜在决策的定性分析,我们发现用我们的方法训练出来的模型表现出几种有趣的协作模式,例如模板填充。
zenRRan
2024/03/15
4630
每日论文速递 | MIT新作:使用多个大模型协作decode
推荐阅读
相关推荐
【MIT博士论文】因果推论在社会和工程系统应用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档