Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何让机器获得幽默感——Google图学习技术揭秘

如何让机器获得幽默感——Google图学习技术揭秘

作者头像
用户1737318
发布于 2018-06-06 07:02:18
发布于 2018-06-06 07:02:18
6050
举报
文章被收录于专栏:人工智能头条人工智能头条

原文: Graph-powered Machine Learning at Google 作者: Sujith Ravi 译者: KK4SBB 责编:何永灿,关注人工智能,投稿请联系heyc@csdn.net或微信号289416419

近些年来,机器学习技术取得了巨大的进步,使得计算机系统能够解决复杂的现实问题。其中一项先进技术就是由Google研究院的Expander组开发的大规模、基于图的机器学习平台。基于图的机器学习是一款功能强大的工具,被广泛用于我们日常接触到的Google产品和功能,比如用于收件箱的提醒功能和Allo的智能消息,或是用于深度神经网络来支持Google Photos的最新图像识别系统。

最少监督的学习

近期大多数在深度学习和机器学习领域取得的进展,都可以归因于较好预测能力的模型,这些模型是在大量有标记数据集上训练得到,通常有上百万的训练样本。由于需要监督式的训练机器学习模型,即用人工标记过的训练数据,因此这种方法也被称为“监督式学习”。(相反的,有些机器学习方法直接处理原始数据,不存在监督,它们被称为非监督式学习。)

然而,待完成的任务越复杂,则越难获取足够多的高质量标记数据。每遇到一个新问题,往往需要投入大量的人力和时间来标记数据。这促使了Expander团队投入研发新的技术来驱动大规模的机器学习应用,以尽可能减少人工监督。

Expander团队的技术是受到人类概况和推演的启发,将已知的知识(已标记数据)与新鲜的、不熟知的观察内容(未标记数据)相联系。这个强大的技术称作“半监督式学习”,它可以让我们利用稀疏的训练数据搭建系统。基于图的半监督式学习的主要优势之一就是(a)它可以在学习阶段对已标记的数据和未标记的数据共同建模,利用数据的底层结构,(b)可以便捷地组合多类信号(例如原始特征与知识图谱的关系信息相结合)形成一个独立的图表示,基于此来学习。这有别于与其它的传统机器学习方法,比如神经网络方法,后者是先用标记的训练数据和特征训练得到一个模型,然后将模型用于预测未标记的数据。

图学习的原理

在其核心部分,Expander的平台构建了数据的一个多图表达,各个节点对应于物体和概念,相似的概念节点之间有边相连,因此它将半监督式学习与大规模基于图的学习结合在一起。图往往包含了标记数据(输出类别或标签已知的节点)和未标记数据(没有标签的节点)。接着,Expander的框架在图上传播标签信息,用半监督式的学习方法给所有节点打上标记。

然而,说起来容易做起来难!我们需要:

  1. 用最少的监督来有效率地学习(即极少量的标记数据);
  2. 处理多种形态的数据(即数据的异形表达和多种数据源);
  3. 解决高维数据的预测难题(高维、复杂的输出空间),数据可能还含有噪音。

整个学习过程中的关键成分就是图与节点的连接方式。图的形状、尺寸千变万化。我们注意到,用多种数据源的不同表达形式组合而成的信息构建多图结构,这样的效果比较好(比如,Allo的PhotoReply采用了图片像素、物体类别和对话反馈信息等)。Expander团队的图学习平台基于数据间推测或已知的关系直接自动地生成关系图。数据可以是结构化的(如关系型数据)或是非结构化数据(如,从原始数据中提取的稀疏或稠密特征表达)。

为了理解Expander的系统如何学习,我们来看一下下图所示的例子。

图中有两类节点:“灰色”表示未标记数据,彩色的是标记过的数据。节点之间的关系用边来表示,边的粗细表示关系的强弱。我们可以这样来刻画这个半监督式学习问题:预测图中每个节点的颜色(“红色”或“蓝色”)。注意,图的结构和节点颜色需要根据实际任务而定。举个例子,在我们最近发表的一篇文章中,我们为收件箱智能回复功能设计的图的节点是邮件信息,颜色表示用户回复的语义类别(比如,“是的”,“好棒”,“有意思”)。

Expander图学习框架把这类标记问题当做优化问题来处理。在最简单的层面,它学会根据每个节点的周边节点颜色和连接强度来给所有节点指定颜色。一种简单的方法是一次性处理所有的节点数据 —— 这种方法无法扩展到大图上。我们可以对此问题做优化,将已标记节点的颜色信息传播到它们的邻居节点,然后重复这个过程。在每一步中,未标记节点会根据其邻居节点中的颜色标记上颜色。我们可以反复迭代这个过程,直到所有的节点都被打上标记。这个方法的效率非常高,在本例中,迭代的结果最终是收敛的,结果如图所示。

基于图的半监督式学习

实际上,我们基于图结构设计了复杂的优化函数,其中包括了额外的信息和限制,形成了复杂的非凸问题。然而,正在的挑战在于将这种方法高效地推广到包含几十亿节点、几百亿边的大规模图模型中,乃至包含上亿种不同标签的复杂问题。

为了解决这一问题,我们创造了一种分布式流式方法,去年发表了论文Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation。此文介绍的流式算法可以快速处理非常大的图数据。此文,它还解决了其它实际问题,它保证了系统的空间复杂度和内存需求保持恒定,与任务的难度无关,即无论是两个标签还是成千上万个标签,整个系统使用的内存量都不变。它推动了图技术广泛地应用与自然语言理解、机器感知、用户建模,甚至文本、图像、语音糅合的多态学习任务。

言语幽默的图表达

我们举一个基于图的机器学习方法在语言理解方面的应用案例,比如收件箱智能回复功能中的情感识别,它的目标是给文本中的词语标记上细粒度的情感类别。首先,使用神经网络模型在文本集上训练得到词向量表达,即每个词的意思都用一个向量表示。然后,用词向量构建一个稀疏的图,每个节点表示一个词语,边表示词语之间的语义联系。边的权值通过词向量的相似度计算得到 —— 舍弃相似度过低的边。我们先给其中一小部分节点打上情感标记(比如,“笑”被标记为“有趣”),然后在整个图上应用半监督式学习方法,给剩余的词语都标记上合适的类别(ROTFL由于与“笑”语义上比较接近,也被标记为“有趣”的类别)。

用词向量和图结构方法学习词语的情感关系

对于大数据集的应用产品,比如观察到的数据(如图像的像素值)或者通过神经网络学到的表达(如词向量),不可能直接计算图上两两节点之间的相似度。Expander团队采用近似计算的方法来解决这一问题。

基于图方法的实践应用

Expander团队的机器学习系统如今已经被广泛应用于大规模的图数据上(十亿级节点和百亿级边),用于识别和理解自然语言、图像、视频、搜索词等,支持Google的众多产品,比如问答、翻译、物体识别、对话理解等等。

随着最近Allo的版本升级,几百万的聊天用户都能体验到由Expander团队的系统所支持的对话助手功能。而且,这种技术不仅仅用于云端的大规模模型,也能用于安卓系统的智能移动设备。我们期待未来几年内Expander能够解决更多挑战性的问题。

评论

基于图的传播方法早在十多年前就被人广为使用。Google的贡献在于将这一的方法推广到海量数据集,使得用有限的空间和计算资源能够处理几十亿节点和几百亿关联的巨型图。而且,半监督式的学习方法只需要少量的标记数据,解决了传统机器学习方法面临的人工标注大量数据的问题。因此,我们可以充分利用大数据时代在各个渠道生产的各种结构和类型的数据。

文中介绍了这套系统已经应用于Allo的智能回复功能,它可以自动分析前后对话和对方发送的图片,自动帮用户生成要回复的话语。本人比较好奇的是基于图的方法在个性化回复方面有什么改进,系统如何针对用户的聊天习惯生产回复内容,在庞大数据的前提下它能多像使用者。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2016-10-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
重磅 | 谷歌发布Graph Learning平台,解密图像识别核心技术(附论文)
近来机器学习突飞猛进使计算机系统能够解决现实世界中的复杂问题。其中之一便是谷歌的大规模、基于图的机器学习平台,这是由 Google Research 的 Expander 团队制作的。很多你日常使用的
新智元
2018/03/23
1.1K0
《机器学习》笔记-半监督学习(13)
如今机器学习和深度学习如此火热,相信很多像我一样的普通程序猿或者还在大学校园中的同学,一定也想参与其中。不管是出于好奇,还是自身充电,跟上潮流,我觉得都值得试一试。对于自己,经历了一段时间的系统学习,现在计划重新阅读《机器学习》[周志华]和《深度学习》[Goodfellow et al]这两本书,并在阅读的过程中进行记录和总结。这两本是机器学习和深度学习的入门经典。笔记中除了会对书中核心及重点内容进行记录,同时,也会增加自己的理解,包括过程中的疑问,并尽量的和实际的工程应用和现实场景进行结合,使得知识不只是停留在理论层面,而是能够更好的指导实践。记录笔记,一方面,是对自己先前学习过程的总结和补充。 另一方面,相信这个系列学习过程的记录,也能为像我一样入门机器学习和深度学习同学作为学习参考。
机器学习算法工程师
2018/07/27
1.3K0
《机器学习》笔记-半监督学习(13)
系统总结!机器学习的模型!
大家好,我是花哥,前面的文章我们介绍了人工智能、机器学习、深度学习的区别与联系,指出了如今的人工智能技术基本上就是指机器学习。
算法进阶
2024/02/18
1.2K0
系统总结!机器学习的模型!
业界 | 谷歌发布全新轻型机器学习架构:可直接载于设备端的AI系统
AI科技评论按:谷歌近日发布了全新应用于可穿戴设备的Android Wear 2.0系统和相关设备,而这一批系统和设备,将具有一项新技能:运行谷歌全新的“设备端”机器学习技术。下面是对该项技术的介绍,原文载于Googleblog,由AI科技评论编译整理。 设备端的机器智能 为了打造会话理解和图像识别领域领先的技术,我们通常将多种先进的机器学习技术(比如深度神经网络和基于图的机器学习)结合起来使用。然而,以上提到的机器学习系统往往需要大量的计算能力和存储空间。可是,如果想要在不论是否连接到的云端的情况下,
AI科技评论
2018/03/09
6730
业界 | 谷歌发布全新轻型机器学习架构:可直接载于设备端的AI系统
【arXiv】2015 深度学习年度十大论文
由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了学术界当前的整体趋势,我们看到,近来发布
新智元
2018/03/14
7020
【arXiv】2015 深度学习年度十大论文
干货分享|达观数据情感分析架构演进
在互联网日益发达的今天,许多消费者不管是通过线上电商网站或者线下门店购买商品后,包括买车、买手机等,都会到品牌官网或者一些专业网站甚至社交媒体去发表对产品的评价。对于买家来说,买前查看评论是了解一款产品真实情况的重要途径。对于商家而言,研读评论则是了解客户反馈、了解产品优势和潜在问题的第一手渠道。但对于评论数据的挖掘并不是简单到可以信手拈来,首先一个产品往往会有非常大量的评论,买家和卖家都不可能仔细阅读每一条评论从而得到对于一个产品的整体认知。 利用计算机,利用算法自动对评论进行分析挖掘,是解决这个问题的
达观数据
2018/03/30
1.6K0
《机器学习》-- 第十三章 半监督学习
监督学习指的是训练样本包含标记信息的学习任务,例如:常见的分类与回归算法;无监督学习则是训练样本不包含标记信息的学习任务,例如:聚类算法。在实际生活中,常常会出现一部分样本有标记 (labeled) 和较多(通常认为远多于)样本无标记 (unlabeled) 的情形,例如:做网页推荐时需要让用户标记出感兴趣的网页,但是少有用户愿意花时间来提供标记。若直接丢弃掉无标记样本集,使用传统的监督学习方法,常常会由于训练样本的不充足,使得其刻画总体分布的能力减弱,从而影响了学习器泛化性能。
fireWang
2021/04/08
1.8K0
【干货】NLP中的迁移学习教程来啦!(238页PPT下载)
经典的监督机器学习范式是基于对使用单个数据集的任务的单个预测模型的孤立学习。这种方法需要大量的训练示例,并且对于定义明确、范围狭窄的任务效果最好。迁移学习指的是一组方法,这些方法通过利用来自其他域或任务的数据来训练具有更好泛化特性的模型来扩展此方法。
新智元
2019/06/10
1.2K0
【干货】NLP中的迁移学习教程来啦!(238页PPT下载)
NLP学习路线总结
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究人与计算机之间用自然语言进行有效通信的理论和方法。融语言学、计算机科学、数学等于一体的科学。旨在从文本数据中提取信息。目的是让计算机处理或“理解”自然语言,以执行自动翻译、文本分类和情感分析等。自然语言处理是人工智能中最为困难的问题之一。
全栈程序员站长
2022/11/10
1.3K0
NLP学习路线总结
基于LSTM的情感识别在鹅漫评论分析中的应用与实践
深度学习(深度神经网络)作为机器学习的一个重要分支,持续推动了很多领域的研究和应用取得新的进展,其中包括文本处理领域的情感分类问题。由于可以对文本进行更有效的编码及表达,基于深度学习的情感分类对比传统的浅层机器学习和统计学方法,可以取得更高的分类准确率。当前,情感分析在互联网业务中已经具有比较广泛的应用场景,成为了一个重要的业务支持能力。本文结合腾讯鹅漫U品业务在中文文本情感分类上的应用和实践经验,与读者一起学习及探讨。
小时光
2019/01/16
2.2K1
基于LSTM的情感识别在鹅漫评论分析中的应用与实践
基于机器学习的文本分类算法的研究[通俗易懂]
文本分类的方法属于有监督的学习方法,分类过程包括文本预处理、特征抽取、降维、分类和模型评价。本文首先研究了文本分类的背景,中文分词算法。然后是对各种各样的特征抽取进行研究,包括词项频率-逆文档频率和word2vec,降维方法有主成分分析法和潜在索引分析,最后是对分类算法进行研究,包括朴素贝叶斯的多变量贝努利模型和多项式模型,支持向量机和深度学习方法。深度学习方法包括多层感知机,卷积神经网络和循环神经网络。
全栈程序员站长
2022/06/27
8750
基于机器学习的文本分类算法的研究[通俗易懂]
【一文读懂】机器学习最新主战场迁移学习,从原理、方法到应用
【新智元导读】吴恩达在他的 NIPS 2016 tutorial 中曾说,迁移学习将是监督学习之后的,在ML 的商业应用中得到成功的下一波动力。现实世界是混乱的,包含无数新的场景。迁移学习可以帮助我们处理这些新遇到的场景。本文从迁移学习的定义、意义、应用、方法、相关研究等方面为读者展示了迁移学习令人激动的全景。 近年来,深度神经网络的进展很快,训练神经网络从大量有标记数据中学习输入和输出的映射变得非常准确,无论这些映射是图像、句子、还是标签预测,等等。 这些模型仍然不足的是将其泛化到与训练时不同的条件的
新智元
2018/03/27
1.1K0
【一文读懂】机器学习最新主战场迁移学习,从原理、方法到应用
Python 数据科学手册 5.1 什么是机器学习
在我们查看机器学习方法的各种细节之前,先了解什么是机器学习,什么不是。机器学习通常被归类为人工智能的一个子领域,但是我发现分类往往会首先产生误导。机器学习的研究肯定来自于这一背景下的研究,但在机器学习方法的数据科学应用中,将机器学习视为构建数据模型的手段更有帮助。
ApacheCN_飞龙
2022/12/01
2770
通透!!机器学习、深度学习、人工智能的区别与联系!!
没有接触过机器学习的同学,往往对机器学习、深度学习、甚至是人工智能有着模糊的概念。
Python编程爱好者
2024/01/05
7580
通透!!机器学习、深度学习、人工智能的区别与联系!!
达观数据NLP技术的应用实践和案例分析
达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。 篇章级应用有六个方面,已经有成熟的产品支持企业在不同方面的文本挖掘需求: 垃圾评论:精准识别广告、不文明用语及低质量文本。 黄反识别:准确定位文本中所含涉黄、涉政及反动内容。 标签提取:提取文本中的核心词语生成标签。 文章分类:依据预设分类体系对文本进行自动归类。 情感分析:准确分析用户透过文本表达出的情感倾向。 文章主题模型:抽取出文章的隐
机器学习AI算法工程
2018/03/15
1.6K0
达观数据NLP技术的应用实践和案例分析
机器学习:开启智能未来的钥匙
机器学习作为人工智能的核心方法,通过分析数据中的隐藏规律,让计算机从中获取新的经验和知识,不断提升和改善自身性能,从而像人一样根据所学知识做出决策。
正在走向自律
2024/12/18
3240
机器学习:开启智能未来的钥匙
一文读懂“生成式 AI”
本文基于谷歌的:《Introduction to Generative AI》 并且借助 ChatGPT 整理而成,帮助大家理解生成式 AI 这个概念。
明明如月学长
2023/05/15
5.7K0
一文读懂“生成式 AI”
CMU邢波教授:基于双向语言模型的生物医学命名实体识别,无标签数据提升NER效果
【导读】生物医学文本挖掘领域近年来受到越来越多的关注,这得益于,科学文章,报告,医疗记录的电子化,使医疗数据更容易得到。这些生物医学数据包含许多生物和医学实体,如化学成分,基因,蛋白质,药物,疾病,症状等。在文本集合中准确识别这些实体是生物医学文本挖掘领域信息抽取系统的一个非常重要的任务,因为它有助于将文本中的非结构化信息转换为结构化数据。搜索引擎可以使用这种识别的实体来索引,组织和链接医学文档,这可以改善医疗信息检索效率。 实体的标识也可以用于数据挖掘和从医学研究文献中提取。例如,可以提取存储在关系数据库
WZEARW
2018/04/11
2.1K0
CMU邢波教授:基于双向语言模型的生物医学命名实体识别,无标签数据提升NER效果
深度半监督学习方法总结
深度神经网络已被证明在对大量标记数据进行监督学习的训练中是非常有效的。但是大多数现实世界的数据并没有被标记,并且进行全部标记也是不太现实的(需要大量的资源、时间和精力)。为了解决这个问题半监督学习 ( semi-supervised learning) 具有巨大实用价值。SSL 是监督学习和无监督学习的结合,它使用一小部分标记示例和大量未标记数据,模型必须从中学习并对新示例进行预测。基本过程涉及使用现有的标记数据来标记剩余的未标记数据,从而有效地帮助增加训练数据。图 1 显示了 SSL 的一般过程。
deephub
2021/12/01
1.9K0
深度半监督学习方法总结
周志华:弱监督学习的综述
在《国家科学评论》(National Science Review, NSR) 的机器学习专题期刊中,介绍了南京大学周志华教授发表的一篇论文《A brief introduction to weakly supervised learning》,本文对此做编译介绍,希望这篇文章能对你有所帮助,让你在学习和应用AI技术的道路上更进一步!
算法进阶
2023/08/28
8770
周志华:弱监督学习的综述
推荐阅读
相关推荐
重磅 | 谷歌发布Graph Learning平台,解密图像识别核心技术(附论文)
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档