这篇文章为深度学习列出了以下十大挑战。当然,有些人不屑于这些思考,因为以目前的方法论而言,很多问题是无解的(tricky的解法不算),故而人们认为这就是深度学习必要的代价,从而可以忽略其存在。我认为,做研究不仅仅是眼前的论文,更要有诗和远方。推动学科边界的延伸,才是科研根本的意义。
本文介绍了语音识别技术中的端到端模型、基于CTC的序列模型、基于序列学习的注意力机制模型、基于3D卷积神经网络的语音识别系统等。其中,端到端模型可以直接从原始音频数据中学习到针对语音识别的抽象表示,具有较好的可扩展性和鲁棒性;而基于CTC的序列模型则通过连接主义学习的方法,将CTC定义的序列映射问题转化为神经网络中的参数优化问题,进一步提高了语音识别的准确率;基于序列学习的注意力机制模型则借鉴了语言学中的注意力机制,通过对输入序列进行加权处理,进一步提高了模型的识别准确率;基于3D卷积神经网络的语音识别系统则利用3D卷积核对输入序列进行卷积处理,提取出序列中的特征信息,进一步提高了模型的识别准确率。
大家好,我叫张拳石,UCLA博士后。目前在朱松纯老师的实验室,带领一个团队,做explainable AI方向。本文的题目有些大,这篇短文中,我只简单谈谈个人对deep learning发展状况的感受,和我最近的explanatory graph for CNNs和interpretable CNN两个研究课题。希望大家批评指正。 当deep learning刚刚在CV圈子里面兴起的时候,我并没有第一时间给予足够的关注,直到几个月后,变革的巨浪拍下,旧方向消亡的速度和新技术诞生的节奏都大大超过我的预期。相信
来源:知乎 -Qs.Zhang https://zhuanlan.zhihu.com/p/30074544 【导读】大家好,我叫张拳石,UCLA博士后。目前在朱松纯老师的实验室,带领一个团队,做explainable AI方向。本文的题目有些大,这篇短文中,我只简单谈谈个人对deep learning发展状况的感受,和我最近的explanatory graph for CNNs和interpretable CNN两个研究课题。希望大家批评指正。 当deep learning刚刚在CV圈子里面兴起的时候,我并
大家好,我叫张拳石,UCLA博士后。目前在朱松纯老师的实验室,带领一个团队,做explainable AI方向。本文的题目有些大,这篇短文中,我只简单谈谈个人对deep learning发展状况的感受,和我最近的explanatory graph for CNNs和interpretable CNN两个研究课题。希望大家批评指正。
Deep Feature Flow for Video Recognition CVPR2017 Code: https://github.com/msracver/Deep-Feature-Flow
[1] - Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs
作者:我爱机器学习 链接:https://zhuanlan.zhihu.com/p/22094600 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
目标检测和深度学习 Image Classification Microsoft Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, Deep Residual Learning for Image Recognition [http://arxiv.org/pdf/1512.03385v1.pdf] [http://image-net.org/challenges/talks/ilsvrc2015_deep_residual_learning_kaimin
本文回顾一篇CVPR 2018 的论文 Deep Layer Aggregation,一种网络特征融合方法,谷歌学术显示目前该文已有398次引用,希望对研究网络基础结构设计的同学有启发。
则Sc = ∑x,yMc(x,y),所以Mc(x,y)直接表明了把空间网格(x,y)激活对图片划分为类别c的的重要性。
目标检测(物体检测, Object Detection) 专知荟萃 入门学习 进阶文章 综述 Tutorial 视频教程 代码 领域专家 入门学习 图像目标检测(Object Detection)原理与实现 (1-6) [http://www.voidcn.com/article/p-xnjyqlkj-ua.html] [http://www.voidcn.com/article/p-ypylfzuk-ua.html] [http://www.voidcn.com/article/p-pfihszbt-
或许你第一个想弄明白的问题是人工智能(AI),机器学习(ML),深度学习(DL)三者的区别和联系,下图清晰明了地告诉你。 1. 什么是机器学习 从小学开始,我们便一直和「函数」打交道,比如一条直线
当我们听说卷积神经网络(CNN)时,我们通常会想到计算机视觉。从Facebook的自动标记照片到自驾车,CNN使图像分类领域发生重大突破,它是当今大多数计算机视觉系统的核心。
Disclaimer: It is assumed that the reader is familiar with terms such as Multilayer Perceptron, delta errors or backpropagation. If not, it is recommended to read for example a chapter 2 of free online book ‘Neural Networks and Deep Learning’ by Michael N
A Matlab toolbox for Deep Learning Matlab/Octave toolbox for deep learning. Includes Deep Belief Nets, Stacked Autoencoders, Convolutional Neural Nets, Convolutional Autoencoders and vanilla Neural Nets. Each method has examples to get you started. Dee
论文: Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet
本文提出了一种基于深度学习的水体分割方法,该方法利用卷积神经网络(CNN)和分水岭算法对遥感影像进行水体分割。具体来说,该方法包括两个主要步骤:1)利用卷积神经网络(CNN)对遥感影像进行特征提取;2)利用分水岭算法对特征图进行分割。实验结果表明,该方法能够有效地对遥感影像中的水体进行分割,为水体资源的动态监测、评估和开发应用提供了一种有效的方法。
2006年Hinton他们的Science Paper再次引起人工神经网络的热潮,当时提到,2006年虽然Deep Learning的概念被提出来了,但是学术界的大家还是表示不服。当时有流传的段子是Hinton的学生在台上讲paper时,台下的机器学习大牛们不屑一顾,质问你们的东西有理论推导吗?有数学基础吗?搞得过SVM之类吗?回头来看,就算是真的,大牛们也确实不算无理取闹,是骡子是马拉出来遛遛,不要光提个概念。
本文 转自“火光摇曳”博客:语义分析的一些方法(三),主要论述了基于深度学习方法的图像语义分析,包括图片分类、图片搜索、图片标注(image2text、image2sentence),以及训练深度神经网络的一些tricks,并介绍语义分析方法在腾讯广点通上的实际应用。以下为全文内容: 3 图片语义分析 3.1 图片分类 图片分类是一个最基本的图片语义分析方法。 基于深度学习的图片分类 传统的图片分类如下图所示,首先需要先手工提取图片特征,譬如SIFT, GIST,再经由VQ coding和Spatial p
之前通过三篇文章简单介绍了机器学习常用的几种经典算法,当然也包括了目前很火的 CNNs 算法了:
OCR文字,车牌,验证码识别 专知荟萃 入门学习 论文及代码 文字识别 文字检测 验证码破解 手写体识别 车牌识别 实战项目 视频 入门学习 端到端的OCR:基于CNN的实现 blog: [http://blog.xlvector.net/2016-05/mxnet-ocr-cnn/] 如何用卷积神经网络CNN识别手写数字集? blog: [http://www.cnblogs.com/charlotte77/p/5671136.html] OCR文字识别用的是什么算法? [https://www.zh
【导读】本文利用非参数化方法来可视化CNN模型,希望帮助理解CNN。 专知公众号转载已获知乎作者余俊授权。 原文地址: https://zhuanlan.zhihu.com/p/24833574 一.前言 CNN作为一个著名的深度学习领域的“黑盒”模型,已经在计算机视觉的诸多领域取得了极大的成功,但是,至今没有人能够“打开”这个“黑盒”,从数学原理上予以解释。这对理论研究者,尤其是数学家来说当然是不可接受的,但换一个角度来说,我们终于创造出了无法完全解释的事物,这也未尝不是一种进步了! 当然,虽然无法完全“
虽然这里说的都是图像,但其实视频也属于计算机视觉的研究对象,所以还有视频分类、检测、生成,以及追踪,但篇幅的关系,以及目前研究工作方向也集中于图像,暂时就不介绍视频方面应用的内容。
今天为大家介绍的是来自Peter K. Koo的一篇关于基因组表示的论文。深度卷积神经网络(CNN)在对调控基因组序列进行训练时,往往以分布式方式构建表示,这使得提取具有生物学意义的学习特征(如序列模体)成为一项挑战。在这里,作者对合成序列进行了全面分析,以研究CNN激活对模型可解释性的影响。作者表明,在第一层过滤器中使用指数激活与其他常用激活相比,始终导致可解释且鲁棒的模体表示。令人惊讶的是,作者证明了具有更好测试性能的CNN并不一定意味着用属性方法提取出更可解释的表示。具有指数激活的CNN显着提高了用属性方法恢复具有生物学意义的表示的效果。
最近看到一个非常赞的OCR相关资源,收集从2015.10.9到现在的一些OCR文献,github项目和博客资源等
在过去的几年里,深度学习是机器学习和统计学习交叉领域的一个子集,强大的开源工具以及大数据的热潮让其取得了令人惊讶的进展。 本文根据微软学术的引用量作为评价指标,从中选取了10篇引用量最高的论文。希望在今天的读书日,能够给大家带来一份学习的干货。 Deep Learning, by Yann L., Yoshua B. & Geoffrey H. (2015) 引用次数:5716 Deep learning enables computational models that are composed of
今天更新关于常见深度学习模型适合练手的项目。这些项目大部分是我之前整理的,基本上都看过,大概俩特点:代码不长,一般50-200行代码,建议先看懂然后再实现和优化,我看基本上所有的实现都有明显可优化的地方;五脏俱全,虽然代码不长,但是该有的功能都有,该包含的部分也基本都有。所以很适合练手,而且实现后还可保存好,以后很多任务可能就会用到。
图像检索(Image Retrieval)专知荟萃 入门学习 进阶文章 综述 Tutorial 视频教程 代码 领域专家 Datasets 入门学习 相似图片搜索的原理 阮一峰 [http://www.ruanyifeng.com/blog/2011/07/principle_of_similar_image_search.html\] Google 图片搜索的原理是什么? [https://www.zhihu.com/question/19726630] 基于内容的图像检索技(CBIR)术相术介绍
本文提出了一种用于视频动作识别的 Very Deep Two-stream ConvNet,通过使用具有较高 drop out 的卷积神经网络,提高了视频动作识别的准确率。该网络包括一个空间网络和一个时间网络,使用预训练和精细调整后的网络结构,在 UCF101 数据集上取得了不错的成绩。同时,作者还针对数据集过少的问题,提出了多种数据增强技术,进一步提高了网络的性能。
T2T-ViT是纯transformer的形式,先对原始数据做了token编码后,再堆叠Deep-narrow网络结构的transformer模块,实际上T2T也引入了CNN。
本文是《SIFT Meets CNN: A Decade Survey of Instance Retrieval》的下篇。在上 篇中概述了图像检索任务极其发展历程,介绍了图像检索系统的基本架构和设计难点,详细展示了基于图像局部特征(以SIFT为代表)的检索流程以及关键环节的核心算法。
CMU Neural Nets for NLP 2019 (4): Convolutional Neural Networks for Language
自2017年以来,超越SOTA的方法天天有,但往往针对性非常强,不一定是颠覆机器学习圈的重要成果。
作者 | 达闻西 整理 | AI100(rgznai100) 机器学习和优化问题 很多机器学习方法可以归结为优化问题,对于一个参数模型,比如神经网络,用 来表示的话,训练模型其实就是下面的参数优化
以前写过一个“自动驾驶中的目标跟踪”介绍,这次重点放在深度学习和摄像头数据方面吧。
又一篇Transformer来了!本文在ViT方面进行了一次突破性探索,提出了首次全面超越ResNet,甚至轻量化版本优于MobileNet系列的T2T-ViT。 >>加入极市CV技术交流群,走在计算机视觉的最前沿
图像识别 Image Recognition 专知荟萃 入门学习 进阶文章 Imagenet result 2013 2014 2015 2016 2017 综述 Tutorial 视频教程 Datasets 代码 领域专家 入门学习 如何识别图像边缘? 阮一峰 [http://www.ruanyifeng.com/blog/2016/07/edge-recognition.html] CS231n课程笔记翻译:图像分类笔记 [https://zhuanlan.zhihu.com/p/20894041]
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/zhangjunhit/article/details/53261053
导读: 深度学习(DeepLearning)尤其是卷积神经网络(CNN)作为近几年来模式识别中的研究重点,受到人们越来越多的关注,相关的参考文献也是层出不穷,连续几年都占据了CVPR的半壁江山,但是万变不离其宗,那些在深度学习发展过程中起到至关重要的推动作用的经典文献依然值得回味。这里依据时间线索,对CNN发展过程中出现的一些经典文献稍作总结,方便大家在研究CNN时追本溯源,在汲取最新成果的同时不忘经典。
深度学习(DeepLearning)尤其是卷积神经网络(CNN)作为近几年来模式识别中的研究重点,受到人们越来越多的关注,相关的参考文献也是层出不穷,连续几年都占据了CVPR的半壁江山,但是万变不离其宗,那些在深度学习发展过程中起到至关重要的推动作用的经典文献依然值得回味,这里依据时间线索,对CNN发展过程中出现的一些经典文献稍作总结,方便大家在研究CNN时追本溯源,在汲取最新成果的同时不忘经典。
目标检测和深度学习 Segmentation Alexander Kolesnikov, Christoph Lampert, Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation, ECCV, 2016. [http://pub.ist.ac.at/~akolesnikov/files/ECCV2016/main.pdf] [https://github.com/kolesman/SEC]
计算机视觉论文速递系列推文目前是一周一次,因为Amusi说过很多次,这个系列文章整理到公众号上有点"吃"时间。所以暂时将原来的日报形式改成周报的形式。
DeepFace:4.4M训练集,训练6层CNN + 4096特征映射 + 4030类Softmax,综合如3D Aligement, model ensembel等技术,在LFW上达到97.35%。
导读:洛桑理工学院教授Michaël Defferrard在Deep Learning on Graphs at the Graph Signal Processing 研讨会上做了《Advances in Deep Learning on Graphs》的报告。 Michaël Defferrard是最早提出讲卷积网络用于graph数据的研究者之一,他在这次报告中介绍了最新将 Graph Convolutional Network(GCN)用于航空影像的研究并提出一些应用的挑战和机会。
编者按:我们通常都会学习前辈或大牛的经典作品,而引用次数自然也成为了论文的一个重要标杆。在 GitHub 上,大神 @Terryum 整理了一份精心编写的论文推荐列表,其中包含了在深度学习领域中引用次数最多的前100篇论文(自2012年起)。囿于篇幅限制,AI 研习社整理编译了理解/泛化/迁移领域的七篇论文,并增加了论文的概要,方便读者快速了解。 有一些深度学习论文,无论它们属于哪个应用领域,都值得仔细研习。文章在精不在多,AI 研习社提供的这些文章,都被认为是值得一读的优秀论文。 █ 背景 除此列表之
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld。 技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。
深度学习是机器学习和统计学交叉领域的一个子集,在过去的几年里得到快速的发展。强大的开源工具以及大数据爆发使其取得令人惊讶的突破进展。本文根据微软学术(academic.microsoft.com)的引用量作为评价指标,从中选取了20篇顶尖论文。注意,引用量会随着时间发生快速的变化,本文参考的是本文发表时候的引用量。
单目 3D 目标检测使用 RGB 图像来预测目标 3D 边界框。由于 RGB 图像中缺少关键的深度信息,因此该任务从根本上说是不适定的。然而在自动驾驶中,汽车是具有(大部分)已知形状和大小的刚体。那么一个关键的问题是如何有效地利用汽车的强大先验,在传统 2D 对象检测之上来推断其对应的 3D 边界框。
今天继续上期的《人脸关键点检测》,精彩的现在才真正的开始,后文会陆续讲解现在流行的技术,有兴趣的我们一起来学习!
领取专属 10元无门槛券
手把手带您无忧上云