首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

站在巨人的肩膀上,深度学习的9篇开山之作

展开的Inception模块 上图中,底部的绿色框是我们的输入,而顶部的绿色框是模型的输出。(将这张图片右转90度, 与前一张GoogLeNet全景图联系起来一起看,可以看出完整网络的模型。...因为这将导致太多太多的输出,使得我们最终因大输出量而停留在一个非常深的信道(channel)。 为了解决这个问题,作者在3x3和5x5层之前添加1x1卷积操作。...另一个值得注意的点是,这些1x1卷积层之后的ReLU单元 的功能, 不会因降维而受到的损害。...所以,在ResNet中,我们不仅计算这个简单转换(从x到F(x)),还将F(x)加到输入x中。 在下图所示的迷你模块计算中,原输入x被做轻微变化,从而得到一个轻微改变的输出 。...我们先来看一个示例图,再用一个干扰或一个微小的修改使预测误差最大化,预测的对象类别结果因此而改变,尽管扰动后的图像相比愿图像本身看起来相同。

2.1K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据挖掘和机器学习的面试问题

    Max-pooling可以将特征维度变小,使得减小计算时间,同时,不会损失太多重要的信息,因为我们是保存最大值,这个最大值可以理解为该窗口下的最重要信息。...Encoder CNN一般被认为是进行特征提取,而decoder部分则使用提取的特征信息并且通过decoder这些特征和将图像缩放到原始图像大小的方式去进行图像切割。 18....Batch Normalization就是在训练过程,每一层输入加一个标准化处理。 深度神经网络之所以复杂有一个原因就是由于在训练的过程中上一层参数的更新使得每一层的输入一直在改变。...来自网络 神经网络其实就是一系列层组合成的,并且上一层的输出作为下层的输入,这意味着我们可以将神经网络的每一层都看成是以该层作为第一层的小型序列网络。...这样我们在使用激活函数之前归一化该层的输出,然后将其作为下一层的输入,这样就可以解决输入一直改变的问题。 19. 为什么卷积核一般都是3*3而不是更大? 这个问题在VGGNet模型中很好的解释了。

    39630

    你必须知道的CNN在图像分割领域的技术变革史!

    这是该回归模型的输入和输出: 输入:对应物体的图像子区域 输出:针对该物体的新边框系统 概括下来,R-CNN 只是以下这几个步骤: 生成对边框的推荐 在预训练的 AlexNet 上运行方框里的物体。...这是模型整体的输入和输出: 输入:有区域推荐的图像 输出:每个区域的物体识别,收紧的边框 2016:Faster R-CNN 名字很直白,它加速了选区推荐。...这是模型的输入和输出: 输入:图像(选区推荐并不需要) 输出:分类、图中物体的边框坐标。 选区是如何生成的 我们一起多花几分钟,看看 Faster R-CNN 是如何从 CNN 特征里生成选区推荐的。...直觉上,我们知道图像中的物体应该符合特定的常用长宽比例和尺寸,比如类似于人体形状的矩形选框。类似的,我们知道很窄的选框并不会太多。...这是它的输入、输出: 输入:CNN 特征图 输出:矩阵,属于物体的像素在矩阵内用 1 表示,否则用 0 表示(这就是二元 Mask)。

    1.2K70

    开发 | 三年来,CNN在图像分割领域经历了怎样的技术变革?

    这是该回归模型的输入和输出: 输入:对应物体的图像子区域 输出:针对该物体的新边框系统 概括下来,R-CNN 只是以下这几个步骤: 生成对边框的推荐 在预训练的 AlexNet 上运行方框里的物体。...这是模型整体的输入和输出: 输入:有区域推荐的图像 输出:每个区域的物体识别,收紧的边框 2016:Faster R-CNN 名字很直白,它加速了选区推荐。...这是模型的输入和输出: 输入:图像(选区推荐并不需要) 输出:分类、图中物体的边框坐标。 选区是如何生成的 我们一起多花几分钟,看看 Faster R-CNN 是如何从 CNN 特征里生成选区推荐的。...直觉上,我们知道图像中的物体应该符合特定的常用长宽比例和尺寸,比如类似于人体形状的矩形选框。类似的,我们知道很窄的选框并不会太多。...这是它的输入、输出: 输入:CNN 特征图 输出:矩阵,属于物体的像素在矩阵内用 1 表示,否则用 0 表示(这就是二元 Mask)。

    91560

    深度学习面试题及参考答案

    比如一个3×3×1的卷积核,这个卷积核内9个的参数被整张图共享,而不会因为图像内位置的不同而改变卷积核内的权系数。...说的再直白一些,就是用一个卷积核不改变其内权系数的情况下卷积处理整张图片(当然CNN中每一层不会只有一个卷积核的,这样说只是为了方便解释而已)。...最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入。不加也可以。 激活函数的作用 激活函数实现去线性化。...神经元的结构的输出为所有输入的加权和,这导致神经网络是一个线性模型。...卷积层和池化层有什么区别 卷积层有参数,池化层没有参数 经过卷积层节点矩阵深度会改变,池化层不会改变节点矩阵的深度,但是它可以缩小节点矩阵的大小 卷积层参数数量计算方法 假设输入层矩阵维度是96963

    2.7K20

    ·Siamese network 孪生神经网络简介

    1874年恩因肺病去世,另一位不久也去世,两人均于63岁离开人间。两人的肝至今仍保存在费城的马特博物馆内。...其原理很简单,将两个人脸feed进卷积神经网络,输出same or different。 ? image 啥?Siamese network只能做二分类?...其他的距离度量没有太多经验,这里简单说一下cosine和exp在NLP中的区别。 根据实验分析,cosine更适用于词汇级别的语义相似度度量,而exp更适用于句子级别、段落级别的文本相似性度量。...其中的原因可能是cosine仅仅计算两个向量的夹角,exp还能够保存两个向量的长度信息,而句子蕴含更多的信息(当然,没有做实验验证这个事情)。...Triplet在cifar, mnist的数据集上,效果都是很不错的,超过了siamese network。四胞胎,五胞胎会不会更屌?。。。。。目前还没见过。。。。 ? image 6.

    3.8K30

    Siamese network

    1874年恩因肺病去世,另一位不久也去世,两人均于63岁离开人间。两人的肝至今仍保存在费城的马特博物馆内。...其原理很简单,将两个人脸feed进卷积神经网络,输出same or different。啥?Siamese network只能做二分类?不不不,它能做的事情还有很多很多,后面会继续介绍。3....其他的距离度量没有太多经验,这里简单说一下cosine和exp在NLP中的区别。根据实验分析,cosine更适用于词汇级别的语义相似度度量,而exp更适用于句子级别、段落级别的文本相似性度量。...其中的原因可能是cosine仅仅计算两个向量的夹角,exp还能够保存两个向量的长度信息,而句子蕴含更多的信息。...Triplet在cifar, mnist的数据集上,效果都是很不错的,超过了siamese network。四胞胎,五胞胎会不会更屌?。。。。。

    79220

    20道深度学习面试题,有你不知道的吗?

    比如一个3×3×1的卷积核,这个卷积核内9个的参数被整张图共享,而不会因为图像内位置的不同而改变卷积核内的权系数。...说的再直白一些,就是用一个卷积核不改变其内权系数的情况下卷积处理整张图片(当然CNN中每一层不会只有一个卷积核的,这样说只是为了方便解释而已)。...最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入。不加也可以。 (18)激活函数的作用 激活函数实现去线性化。...神经元的结构的输出为所有输入的加权和,这导致神经网络是一个线性模型。...(19)卷积层和池化层有什么区别 卷积层有参数,池化层没有参数 经过卷积层节点矩阵深度会改变,池化层不会改变节点矩阵的深度,但是它可以缩小节点矩阵的大小 (20)卷积层参数数量计算方法 假设输入层矩阵维度是

    2.6K10

    手撕深度学习算法(2):轻撕CNN

    SVM 的部份,我們會再找個時間拍完整的手撕式,时长会是12小时 B.SVM处理大规模数据,如果我们分类效果不好,加入海量训练脚本,能有显著提升吗?会不会加入海量训练脚本只能少量提升?...我們要提升SVM訓練精度有幾種做法: 1.當你的特徵是有效的訓練特徵,可以加入海量資料來讓精度提升 2.當你有足量的資料且1/-1的資料量相差不會太多,可提取更多的有效特徵來提升精度 3.調整既有參數,...老师回答:SVM使用QP(quadratic programming)來解出全域最佳解,因為QP方式是採用二次規劃的方式找出所有特徵中最佳的結果,但是意味著效能消耗十分龐大。...该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。...在CNN中,图像的一小部分(局部感受区域)作为层级结构的最低层的输入,信息再依次传输到不同的层,每层通过一个数字滤波器去获得观测数据的最显著的特征。

    1.1K90

    BN层的作用_bn层加在哪里

    而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入(即当 ),从而保证整个network的capacity。...(有关capacity的解释:实际上BN可以看作是在原模型上加入的“新操作”,这个新操作很大可能会改变某层原来的输入。当然也可能不改变,不改变的时候就是“还原原来输入”。...如此一来,既可以改变同时也可以保持原输入,那么模型的容纳能力(capacity)就提升了。)...大家细想便会发现,的确,对于神经网络的各层输出,由于它们经过了层内操作作用,其分布显然与各层对应的输入信号分布不同,而且差异会随着网络深度增大而增大,可是它们所能“指示”的样本标记(label)仍然是不变的...;而BN中则针对不同神经元输入计算均值和方差,同一个minibatch中的输入拥有相同的均值和方差。

    1.7K21

    Tree-CNN: A Deep Convolutional Neural Network for Lifelong Learning

    图 2 (2) 如果仅按照上面的思路去做识别,其实并没有太大的意义,不仅使识别变得很麻烦,而且在下面的实验中也证明了采用该方法所得到的识别率并不会有所提高。...对于新给的类别,我们将这些类的图像输入到根节点网络中,根节点的输出为OK×M×IOK×M×I,其中K、M、IK、M、I分别为根节点的孩子数、新类别数、每类的图像数。...在网络方面,作者将根节点网络的卷积层改为3,并改变了全连接层的输出数目。 2、实验结果分析 在这部分,作者通过设置两个参数来衡量Tree-CNN的性能。...图7比较了在CIFAR-10上微调网络和Tree-CNN的识别效果对比,可以看出相对于微调策略,Tree-CNN的Training Effort仅比微调全连接层高,而准确率却能超出微调全连接层+conv1...此外,本文搭建的网络实在太多,虽然各个子网络的网络结构比较简单,但是调节网络会很费时。

    65630

    点云深度学习系列二: PointCNN

    请注意,PointCNN分段网络中的“Conv”和“DeConv”都是相同的X-Conv算子。对于“DeConv”图层,与“Conv”图层唯一的区别在于,输出中的点数比输入点中的点数多,但特征通道少。...然而,由于暴露于其输入和输出层的接口X-Conv与Conv非常相似,我们认为许多来自图像CNN的先进神经网络技术可以用于X-Conv,比如说循环PointCNN。...为了提高可推广性,我们提出随机抽样和缩减输入点,使得相邻点集和顺序可能因批次不同而不同。为了训练以N个点为输入的模型,应有N(N,(N/8)2)个点用于训练,其中N表示高斯分布。...在MNIST数据集上,PointCNN达到了所有比较的方法中的最好的效果,而对于没有太多形状信息的CIFAR10数据集上,PointCNN从RGB特征的空间局部相关性中提取特征并且达到了还算不错的效果,...在一般的图像上, CNN仍然是比PointCNN更好的选择。而PointCNN的优势在数据越稀疏的时候越能展现出来。

    2.2K50

    机器学习-4:DeepLN之CNN解析

    今天我开始从头学习CNN,上一篇MachineLN之深度学习入门坑太多了,需要慢慢的填起来。那么我的问题是: (1)为什么要提出cnn? (2)cnn的结构是怎么样子的?...(3)cnn中各层的含义是什么? 看到这里你的答案是什么? 那么下面是我的答案,欢迎批评指正。 (1)为什么要提出cnn? 嫌字太多直接看图,或者简单总结为cnn参数少好学习。...卷积的流程:以一个很简单的图示展示卷积的流程:(下面只是一个简单的演示,真实情况下一般都是m个输入n个输出,对应[m,n,kernel_size,kernel_size]) 2....(3)cnn中各层的含义是什么? 卷积层的作用: 1. 权值共享,减少训练参数;一个卷积核与 输入map的不同区域做卷积时,它的参数是固定不变的。...例如,就用输入到全连接层的前一层conv来说,特征map太大的话,特征数量就不易太多,通过pooling,使得特征map变小,特征map数量就可以更多。     (那么为什么要特征map更多呢?

    42310

    【调研】详解Transformer结构——Attention Is All You Need

    (使用ln而不是bn的原因是,因为输入序列的长度问题,每一个序列的长度不同,虽然会经过padding处理,但是padding的0值其实是无用信息,实际上有用的信息还是序列信息,而不同序列的长度不同,所以这里不能使用...每个子层的残差连接Add可以有效减小因层数加深而导致的梯度消失现象。 解码器可以看做是编码器的逆操作,作用是重新将语义信息转为向量输出。...唯一不同的是第二个子层的Q,K,V矩阵的来源,其Q矩阵来源于下面子模块的输出(对应到图中即为masked多头自注意力模块经过Add & Norm后的输出),而K,V矩阵则来源于整个Encoder端的输出...teacher force指在每一轮预测时,不使用上一轮预测的输出,而强制使用正确的单词。通过这样的方法可以有效的避免因中间预测错误而对后续序列的预测,从而加快训练速度。...而Transformer采用这个方法,为并行化训练提供了可能,因为每个时刻的输入不再依赖上一时刻的输出,而是依赖正确的样本,而正确的样本在训练集中已经全量提供了。

    1.2K31

    深度学习之后会是啥?

    如果你已经投入了多年的时间来发展这些技能的专业知识,你就不会倾向于跳槽。 改变方向,即使你不完全确定应该是什么方向。 ? 有时候我们需要改变方向,即使我们不知道这个新方向到底是什么。...一个胶囊输出一个向量来代表实体的存在。向量的方向代表实体的属性。该向量被发送到神经网络中所有可能的父代。预测向量是基于自身权重和权重矩阵相乘计算的。...此外,模式识别是无监督的,并且可以根据输入的变化来识别和概括模式的变化。这使得系统不仅训练速度非常快,而且具有自学习、自适应性,不会被数据变化或噪声所迷惑。...一些值得注意的渐进式改进 我们开始关注真正的游戏改变者,但至少有两个渐进式改进的例子值得一提。这些显然仍然是经典的CNN和RNNs,具有反向支撑的元素,但它们工作得更好。...CNN比RNN的顺序性要差得多,但在CNN架构中,随着距离的增加,将输入的远端部分的信息组合起来所需的步骤数仍然会增加。

    63620

    胶囊网络升级新版本,推特2000+赞,图灵奖得主Hinton都说好

    这跟幼童的学习过程形成了鲜明的对比,不需要太多指导,孩子们也能学会识别和定位物体。 研究人员认为,自我监督和归纳偏差在更高效的学习中扮演了重要的角色。 于是,无监督胶囊网络诞生了。...集群胶囊用二维点表示零件,并且把它们的坐标作为系统的输入。 ? 零件胶囊(PCAE)先将输入对象整体划分成一个个零件及其姿势;然后,通过仿射变换学习模板,使用姿势来构建新的输入。...由于物体的姿势会随着观察者位置(坐标系)的改变而改变,因此能够正确识别零件姿势的检测器会产生注视点等效的零件表示。对象 - 零件的关系不依赖于特定的位置,因此它们又是注视点不变的。...用 1 × 1 的卷积将CNN的输出投影到 M ×(6 + 1 + 1)个特征图上——这里额外的特征图将作为注意力Mask,通过softmax(归一化指数函数)在空间上对其进行标准化,与其余7个特征图相乘...Set Transformer的每个输出都被喂给一个单独的MLP,MLP会输出对应对象胶囊的所有activations。 此外,研究人员还采用了一些应用于对象存在概率的稀疏损失。

    65520

    超级干货 | 用万字文章总结25种正则化方法(值得收藏)

    例如,一些转换可能会将图像扭曲成分类中的另一个现有类。更直接的例子是MNIST数据集上的基线图像分类:如果旋转太多,输入“6”可能会转换为“9”,导致模型学习错误的信息。...CNN输入中参数和结构的容易改变可以解释如此多的工作量。图像处理和计算机视觉驱动的应用程序在处理深度学习时仍然发挥着重要的作用。 第二种最常见的正则化方法是那些对模型的内部结构进行正则的方法。...然而,该研究缺乏对层间正则化方法的深入评价,如Dropout。 3结构正规化 正则化方法可以以不同的方式工作。在本文中,将结构正则化定义为在训练过程中改变权值而不改变输入kernel值的方法。...为了实现这样的结果,ShakeDrop改变了由Shake-shake提出的配置。这些分支上的Shake组合显示,ShakeDrop有更好的性能,不会被困在局部极小值上。...Manifold Mixup的作用类似于Mixup,然而,它在CNN的任何内部层中运行,而不仅仅是在输入层。

    4.5K30

    卷积神经网络可视化的直观解析

    它使用FFT预处理的语音信号作为输入,它的隐藏层由两个一维卷积核组成,用于提取频域中不变的平移特征[6]。...通常我们需要设置的高级参数包括滤波器的数目、大小和步长。 池化层 池化层也称为特征池或子采样。其主要功能是提取某一区域的主要特征,减少参数个数,防止模型过度耦合。 这里我们不需要学习太多的参数。...通常我们更习惯使用最大值池化层,一般取一个大小为(2,2)、步长为2的滤波器,这样在池化之后,输入的长度和宽度会减少2倍,通道不会改变,如下图所示: ?...全局平均池化和局部平均池化的区别在于池化的窗口。局部平均池包括取特征图中某个子区域的平均值,而全局平均池是取整个特征图的平均值。 ? 使用全局平均池化层而不是完全连接层,可以大大减少参数的数量。...从图中可以看出,通过GAP我们得到最后一个卷积层的每个特征图的平均值,并通过加权求和得到输出。对于每个类别C,每个特征图k的平均值具有相应的权重w。

    1.4K30
    领券