前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >阿里团队最新实践:如何解决大规模分类问题?

阿里团队最新实践:如何解决大规模分类问题?

作者头像
AI科技大本营
发布于 2018-07-23 09:49:32
发布于 2018-07-23 09:49:32
9440
举报

翻译 | 林椿眄

编辑 | 阿司匹林

出品 | AI科技大本营

【AI科技大本营导读】近年来,深度学习已成为机器学习社区的一个主要研究领域。其中一个主要挑战是这种深层网络模型的结构通常很复杂。对于一般的多类别分类任务,所需的深度网络参数通常随着类别数量的增加而呈现超线性增长。如果类别的数量很大,多类别的分类问题将变得不可行,因为模型所需的计算资源和内存存储将是巨大的。然而,如今的很多应用程序需要解决庞大数量的多分类问题,如词级别的语言模型,电子商务中购物项目的图像识别(如现在淘宝和亚马逊上数百万的购物项),以及 10K 中文手写汉字的识别等。

为此,来自阿里巴巴的团队提出了一种称为标签映射(LM)的方法:通过将原始的分类任务分解成几个理论上可解决的子分类任务,来解决这个问题。

据介绍,这种方法类似纠错输出代码(ECOC) 一样的集成方法,但它还允许base learner 不同标签数量的多类别分类器。该团队提出了LM 的两种设计原则,一个是最大化基本分类器(可以对两个不同类别进行分类)的数量,另一个是尽可能地保证所有base learner 之间的独立性以便减少冗余信息。由于每个base learner 可以独立地进行训练,因此很容易能将该方法扩展到一个大规模的训练体系。实验表明,他们所提出的方法在准确性和模型复杂性方面,显著优于标准的独热编码和 ECOC 方法。

▌简介

事实上,用于处理 N 类的深度神经网络分类器通常可以被看作是将欧式空间中一些复杂的嵌入表示连接到最后一层的 softmax 分类器上。复杂的嵌入表示可以被解释为是一种聚类过程,即根据类别的标签将数据进行聚类并在最后一层将分离数据。聚类过程会根据类别标签对数据进行聚类,并在最后一层尝试将它们分开。如果欧式空间最后一层的维度大于或等于 N-1,那么将存在一个 softmax 分类器分离那些概率1的聚类。但是,如果欧式空间的维度小于 N-1,那么将不存在一个 softmax 分类器能够将一个聚类从中分离出来并使其聚类中心位于其他聚类中心所构成的凸集平面内,因为凸集上的线性函数总是能够在顶点处取得最大值。

解决这种 N 类别的分类问题,要么固定最后一层的维度,这将导致分类的性能变得很差;或者让最后一层的维度随着 N 的增长而增长,但这会导致最后两层的模型参数随着 N 的增加而呈现超线性增长。网络大小的超线性增长将显著增加训练的时间和内存的使用量,这将严重限制模型在许多现实的多类别问题中的应用。

本文我们提出了一种称为标签映射(LM)的方法来解决这个矛盾。我们的想法是将一个多类别的分类问题,变成多个小类别的分类问题,并平行地训练这些小类别的分类问题。分布式训练将放缓计算量和内存的增加,同时不需要机器之间的通信。

▌方法(标签映射)

如上所述,通常 N 类的深度神经网络分类器通常可以被看作是将欧式空间中一些列复杂的嵌入表示连接到最后一层的 softmax 分类器上。在本文中,我们进行了如下的一些定义:

我们把欧式空间 V 中 N 个点的集合称为 X,满足凸集的性质,并保证当且仅当凸集 X 的闭合具有确切的 N 个顶点。换句话说,softmax 分类器能够在欧式空间 V 中分离所有的 N 个聚类,并使得聚类中心落在凸集的内部。

对于一个多类别的分类问题,我们引入一种标签映射的方法,将大规模的多类别分类问题转化为一些子分类问题。一个映射序列的标签映射定义如下:

其中,每个 fi 都代表一个地点位置函数 (site-position function),n表示标签映射的长度,N表示类别数量。如果每个每个类别都相等的话,我们称之为单一的标签映射,否则则定义为混合的标签映射。

一般来说,N 是一个很大的数字,而Ni 是中等大小的一些数字。 我们可以通过标签映射将一个 N 类别的分类问题减小为 n 的中等尺寸的分类问题。假设训练数据集是{xk, yk},其中 xk 表示特征,而 yk 表示标签,有两种方法可以在深度神经网络模型中使用标签映射。一种是使用一个具有 n 个输出的网络 (如图1)。另一种是使用 n 个网络,每个网络都被训练成数据集中的base learner (如图2)。

图1: n 个输出的网络

图2:n 个网络,每个网络有 n 个输出

考虑到分布式训练的便捷性,这里我们使用图2中的方法。此外,我们还规定标签映射应满足如下性质:

  1. 类别的高度分离性:对于两种不同的标签,尽可能保证二者高度分离,这里我们通过一个地点位置函数 fi 来衡量。
  2. 基础学习器的独立性:类别的高度分离性保证了每个基础学习器都能够通过训练将不同类别分离,而基础学习器的独立性保证了相同的信息能够被尽可能少的学习器所学习。
  3. 与 ECOC 的差异性:我们的标签映射方法不需要将多分类问题转化成二分类问题 (如 ECOC 方法),也不需要转化为相同类别数量的分类问题。

▌实验过程

我们在 Cifar-100,CJK 字符和 Republic 三个数据集上测试了标签映射的性能。

CIFAR-100 数据集由60000张100个类别的32x32彩色图像构成,每个类别有500张训练图像和100张测试图像。我们使用一个简单的 CNN 网络,其结构示意图如下图3,最后一层的维度是128,每个类别的标签都是一个独热编码。

图3:CNN 的模型结构示意图

CJK 字符数据集由20901张139×139的灰度字符图像构成。我们使用 Inception V3 模型,其最后一层的维度为2048,并使用独热编码对应数据集中每个字符类别的标签。

Republic 数据集由一个含118684个词的文本构成,其中7409个词是独一无二的。我们使用一个 RNN 模型,其最后一层的维度为100,其结构示意图如图4所示。同样,我们对类别标签进行独热编码。

图4:RNN 模型结构示意图

▌结果分析

我们分别对三个数据集进行对比实验,评估单一标签映射、混合标签映射及标签映射与 ECOC 方法之间的优劣性。实验结果表明,标签映射的准确性将随着数据集长度的增大而升高。在 Cifar-100 数据集上,使用独热编码的标签会给标签映射的准确性带来更大的提高,而对于其他两个数据集的提升却不是很明显。这是因为独热编码的引入能够充分发挥简单 CNN 结构的优势,而对于 Inception V3 模型而言,其最后一层的维度小于 CJK 数据集的类别数量,因而独热编码的作用没能发挥出来。同样地,对于最后一层的维度小于 Republic 数据集类别数的 RNN 模型,独热编码的强大性也无法充分体现。

Cifar-100 数据集

下图5、图6、图7分别表示单一标签映射、混合标签映射作用下的精度及标签映射方法与 ECOC 方法的对比结果。

图5:单一标签映射下的精度

图6:混合标签映射下的精度

图7:标签映射与 ECOC 方法的对比结果

CJK 数据集

下表1、表2、表3分别表示单一标签映射、混合标签映射作用下的精度及标签映射方法与 ECOC 方法的对比结果。

表1 单一标签映射作用下的性能

表2 混合标签映射作用下的性能

表3 标签映射与 ECOC 方法的对比结果

Republic 数据集

表4显示标签映射方法在 Republic 数据集上的性能。

表4 标签映射作用下的性能

▌结论

我们提出了一种方法称为标签映射(LM),能够将大规模的多类别分类问题到分解成多个小规模的子分类问题,并为每个子分类问题训练base learner。而所需的base learner 数量随着类别数量的增加而增加。此外,我们提出两个设计原则,即类别高可分离性和base learner 的独立性,并提出两类满足该原则的标签映射,即单一标签映射和混合标签映射。我们分别在 Cifar-100、CJK 和 Republic 三个数据集上展示了标签映射的性能。实验结果表明,标签映射的性能随长度的增加而增加。当类别数量很大时(如 CJK 字符数据集和 Republic 数据集),特别当数量远大于模型最后一层的维度时,标签映射的性能更佳。此外,我们还对比了标签映射与 ECOC 方法的性能,发现在更少参数量的情况下,我们的方法还远远优于 ECOC 方法。

相关链接:https://arxiv.org/abs/1806.02507

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-07-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
论文: Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
VincentLee
2024/03/29
1980
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
反向传播、前向传播都不要,这种无梯度学习方法是Hinton想要的吗?
「我们应该抛弃反向传播并重新开始。」早在几年前,使反向传播成为深度学习核心技术之一的 Geoffrey Hinton 就发表过这样一个观点。
机器之心
2025/04/09
1540
反向传播、前向传播都不要,这种无梯度学习方法是Hinton想要的吗?
CVPR 提前看:视觉常识的最新研究进展
1、What it Thinks is Important is Important: Robustness Transfers through Input Gradients
机器之心
2020/04/14
4830
CVPR 提前看:视觉常识的最新研究进展
非监督学习
想比于监督学习,非监督学习的输入数据没有标签信息,需要通过算法模型来挖掘数据内在的结构和模式。非监督学习主要包含两大类学习方法:数据聚类和特征变量关联。其中,聚类算法往往是通过多次迭代来找到数据的最优分割,而特征变量关联则是利用各种相关性分析来找到变量之间的关系。
全栈程序员站长
2022/06/29
4730
学界 | 牛津大学提出神经网络新训练法:用低秩结构增强网络压缩和对抗稳健性
选自arXiv 作者:Amartya Sanyal、Varun Kanade、Philip H.S. Torr 机器之心编译 参与:刘天赐、刘晓坤 和目前普遍的稀疏性诱导、结构化限制相似,神经网络的低秩结构也具有压缩的性质,并在对抗攻击中具备稳健性。在本文中,来自牛津大学计算科学部和阿兰图灵机构的研究者开发了一种新方法,通过在训练过程中引入修正,增强神经网络表征的低秩属性。 引言 深度(卷积)神经网络已经取得了许多重大成果,「表征学习」就是其中非常迷人的一个方面:深度网络能够从原始数据中生成可以用于多个任
机器之心
2018/06/08
4380
五行代码实现千万类别分类网络,飞桨大规模分类库揭秘
春天来了,经过一个冬天的“窖藏”,按耐不住的小伙伴纷纷行动了起来,踏一踏满园的春色,赶一趟娇艳的花丛。
用户1386409
2020/04/01
7250
五行代码实现千万类别分类网络,飞桨大规模分类库揭秘
一文概述联邦持续学习最新研究进展
由于数据隐私限制,多个中心之间的数据共享受到限制,这就影响了联邦学习架构下多中心合作开发高性能深度学习模型的效果。持续学习(Continual Learning)作为点对点联合学习的一种方法,可以通过共享中间模型而不是训练数据来绕过数据隐私的限制,从而促进多中心协作开发深度学习算法。近期不断有研究人员探索联邦持续学习方法(Federated Continual Learning,FCL),即,研究持续学习在联邦学习架构下多中心协作的可行性。
机器之心
2023/08/07
1.5K0
一文概述联邦持续学习最新研究进展
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?
作者 | Rafael Müller , Simon Kornblith, Geoffrey Hinton
AI科技大本营
2019/07/11
7200
Hinton等人最新研究:大幅提升模型准确率,标签平滑技术到底怎么用?
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
自监督学习(SSL)在最近几年取得了很大的进展,在许多下游任务上几乎已经达到监督学习方法的水平。但是,由于模型的复杂性以及缺乏有标注训练数据集,我们还一直难以理解学习到的表征及其底层的工作机制。此外,自监督学习中使用的 pretext 任务通常与特定下游任务的直接关系不大,这就进一步增大了解释所学习到的表征的复杂性。而在监督式分类中,所学到的表征的结构往往很简单。
机器之心
2023/08/07
2130
Yann LeCun团队新研究成果:对自监督学习逆向工程,原来聚类是这样实现的
【机器学习】基于机器学习的分类算法对比实验
本论文旨在对常见的分类算法进行综合比较和评估,并探索它们在机器学习分类领域的应用。实验结果显示,随机森林模型在CIFAR-10数据集上的精确度为0.4654,CatBoost模型为0.4916,XGBoost模型为0.5425,LightGBM模型为0.5311,BP神经网络模型为0.4907,而经过100次迭代的深度学习模型达到了0.6308的精确度。相对于随机森林模型,CatBoost和XGBoost模型表现出更好的性能,而深度学习模型在CIFAR-10数据集上展现出卓越的性能。
SarPro
2024/03/24
4480
【机器学习】基于机器学习的分类算法对比实验
AAAI|MetaDelta:一种少样本图像分类的元学习系统AAAI|MetaDelta:一种少样本图像分类的元学习系统
今天给大家介绍清华大学YudongChen等人发表在AAAI上的一篇文章 “MetaDelta:AMeta-LearningSystemforFew-shotImageClassifification” 。现有的元学习算法很少考虑未知数据集的时间和资源效率或泛化能力,这限制了它们在实际场景中的适用性。在这篇文章中,作者提出了一种新的实用的元学习系统MetaDelta,用于小镜头图像分类。MetaDelta由两个核心组件组成:(1)由中央控制器监督的多个meta-learners以确保效率,(2)一个元集成模块负责集成推理和更好的泛化。MetaDelta的每个meta-learner都由一个经过批量训练的预训练编码器和用于预测的无参数解码器组成。
智能生信
2021/04/13
1.2K0
AAAI|MetaDelta:一种少样本图像分类的元学习系统AAAI|MetaDelta:一种少样本图像分类的元学习系统
阿里巴巴超大规模知识图谱预训练实践:商品分类
👆点击“博文视点Broadview”,获取更多书讯 基于电子商务平台上亿级的庞大商品库,电子商务交易得以不断增长。 为了更好地支持日常业务,需要将这些海量的商品以一种更优的方式进行描述、存储和计算,并且需要支持融合不同来源的数据,建立实体之间的语义连接,因此采用了知识图谱这种数据构架。 阿里巴巴积累了上千亿规模的商品数据作为商品知识图谱,这些数据来源于淘宝、天猫、阿里巴巴等在内的多个阿里旗下平台,囊括了品牌制造商、消费者、国家机构、物流提供商等多方利益相关者的数据。 从知识产权保护或购物体验的角度来看,商
博文视点Broadview
2023/05/06
9300
阿里巴巴超大规模知识图谱预训练实践:商品分类
ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数,干翻 MobileNet/EfficientNe!
Vision Transformer, 图像级特征嵌入, 水平扩展, 卷积神经网络, 计算机视觉需要对ViTs进行预训练,因为它们缺乏与卷积神经网络(CNNs)中存在的类似的归纳偏置。特别是,CNNs内在地结合了多种归纳偏置,使它们适合于计算机视觉(CV)任务,如平移不变性、空间局部性和层次化特征学习。
集智书童公众号
2024/04/12
7040
ViT终于有挑战 MobileNet 的勇气了 | HSViT用更少的参数,干翻 MobileNet/EfficientNe!
解读 | 如何用进化方法优化大规模图像分类神经网络?
机器之心原创 作者:Angulia Chao 参与:Joni、侯韵楚、高振 让机器具备生物一样的进化能力一直是计算机科学的一个热门研究领域,今年三月份,谷歌的多位研究者提出了一种图像分类器的大规模进化方法,机器之心也曾报道过这项研究,参阅:《深度 | 谷歌和 OpenAI 新研究:如何使用达尔文进化论辅助设计人工智能算法?》。研究发布之后,机器之心的技术分析师又对这项重要研究进行了更加深度细致的解读。 论文:图像分类器的大规模进化(Large-Scale Evolution of Image Classi
机器之心
2018/05/08
1.3K0
解读 | 如何用进化方法优化大规模图像分类神经网络?
52道机器学习常见面试题目
有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。
1480
2019/11/07
1.9K0
52道机器学习常见面试题目
小样本学习(Few-shot Learning)综述
笔者所在的阿里巴巴小蜜北京团队就面临这个挑战。我们打造了一个智能对话开发平台——Dialog Studio,以赋能第三方开发者来开发各自业务场景中的任务型对话,其中一个重要功能就是对意图进行分类。大量平台用户在创建一个新对话任务时,并没有大量标注数据,每个意图往往只有几个或十几个样本。
机器之心
2019/04/29
5.9K0
小样本学习(Few-shot Learning)综述
【干货】22道机器学习常见面试题目
有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。
石晓文
2019/11/12
7080
学界 | Yann LeCun新作,中日韩文本分类到底要用哪种编码?
AI科技评论按:前几天,Yann LeCun与其学生 张翔在arXiv上发表了一篇新作「Which Encoding is the Best for Text Classification in Ch
AI科技评论
2018/03/13
1.3K0
学界 | Yann LeCun新作,中日韩文本分类到底要用哪种编码?
TF-char3-分类问题
分类问题典型的应用就是教会机器如何去自动识别图片中物体的种类。本章中主要是介绍了MNIST数据集。
皮大大
2021/03/02
7570
FastAI 之书(面向程序员的 FastAI)(三)
现在您了解了深度学习是什么、它的用途以及如何创建和部署模型,现在是时候深入了!在理想的世界中,深度学习从业者不必了解每个细节是如何在底层工作的。但事实上,我们还没有生活在理想的世界中。事实是,要使您的模型真正起作用并可靠地工作,您必须正确处理很多细节,并检查很多细节。这个过程需要能够在训练神经网络时查看内部情况,找到可能的问题,并知道如何解决它们。
ApacheCN_飞龙
2024/02/17
4920
FastAI 之书(面向程序员的 FastAI)(三)
推荐阅读
相关推荐
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档