首页
学习
活动
专区
圈层
工具
发布

专访微软研究院俞栋:基于深度学习的语音识别及CNTK的演进

在最近的这一年里,有几项工作让我觉得很有意思。 第一项工作是包括IBM、微软、讯飞、上海交大等研究机构报告的深层卷积网络(deep CNN)在大词汇量语音识别中的成功应用。...拟合能力弱的模型一般有较小的方差引起的错误率,比较不容易过拟合,但有较大的由偏差引起的错误率。而拟合能力强的模型则反之。...我个人做过一些这方面的探索,比如让每个音素学习一个在多种环境下都适用的模板(或mask),但遗憾的是这些尝试并不成功。目前我们还没有发现具有这种强泛化能力的模型。...我个人认为应该让每个技术做它擅长的事,把多种技术有机地结合起来会是解决很多实际问题的最佳方案。...CSDN:CNTK可扩展GPU的能力值得称道,但大规模部署GPU能耗同样不小,现在有不少FPGA、ASIC加速方案的尝试,CNTK会做类似扩展的考虑吗?

62950

使用Keras的深度学习:经验教训

它是用Python编写的高级API,后端支持Tensorflow、CNTK和Theano。 对于那些对Keras不熟悉的人,你可以在Keras阅读更多。...在这篇文章中,我想分享我在一年前用Keras做实验时学到的经验或希望我知道的事情。我正在分享的一些东西可能会被新的方法取代,甚至被先进的机器学习平台自动化。...7、从低时期开始(比如10年,看看模型表现如何) 8、不足拟合:这可以通过添加更多的数据、构建更深的层和减少任何过拟合技术来解决。...9、超拟合:增加一个差值层或正则化参数(L1或L2)是减少超拟合的一种方法。 10、利用损失函数图和历元图来评估模型是否收敛 下图显示了一个模型在epoch ~ 100收敛。...我希望这篇文章对您学习和使用Keras进行深度学习模型实验非常有用。 如果我漏掉了什么重要的东西,或者你发现了与你的实验不同的东西,请在下面评论。

75120
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    探索无限大的神经网络

    https://arxiv.org/abs/1812.11118 )用一种新的双峰曲线描述了这个现象,他们在经典的 U 型曲线的右边继续延伸,描绘出:当模型的复杂度继续增大,越过了「模型复杂度足以完全拟合训练数据...有人怀疑深度学习中使用的优化算法,比如梯度下降、随机梯度下降以及各种变体,其实起到了隐式地限制模型复杂度的效果(也就是说,虽然整个模型中的参数很多,但其中真正独立有效的参数只有一部分),也就避免了过拟合...研究深度神经网络的学者们可能还记得无限宽的神经网络和核方法之间的联系,25 年前 Neal (https://www.cs.toronto.edu/~radford/pin.abstract.html)阐述过,...Li, Ruslan Salakhutdinov and Ruosong Wang 等人最新的论文(https://arxiv.org/abs/1904.11955)中,他们把这个结果做了进一步的改进,让它对非对称环境也适用...而且 CNTK 和正常 CNN 的表现都很接近,也就是说在 CIFAR-10 上超宽(无限宽)的 CNN 是可以取得不错的表现的。

    82820

    深度学习框架哪家强?MXNet称霸CNN、RNN和情感分析,TensorFlow仅擅长推断特征提取

    比如:帮助和支持,自定义图层(可以创建一个胶囊网络吗?),数据加载器,调试,不同的平台支持,分布式训练等等。...你可以在Chainer中进行一些特征提取,然后在CNTK中复制这个操作。...注:CNTK框架是支持动态轴,这意味着我们不需要将输入填充到150个字,就可以按原样输入,但是由于我找不到与其他框架做到这一点的方法,所以我还是采用填充的方法。...对于MXNet和CNTK,我尝试了一个更高级别的API,在这里我使用了框架的训练生成器函数。...由于在目标检测各种图像大小的组合上运行cudnnFind会出现较大的性能下降,所以穷举搜索算法应该是不能在目标检测的任务上使用了。 3、使用Keras时,选择与后端框架相匹配的[NCHW]排序很重要。

    1.4K30

    深度学习哪家强?用数据来一较高下吧

    于是我看了许多比较文章,其中涉及各种层面的比较(数据结构、使用范围、实现细节),让姿势水平还远远不够的我看得眼花缭乱。 作为一个数据玩家,我想到,不妨让它们在大数据的战场上一较高下。...参赛选手 以下是参赛的选手们,是我了解的python上的一些著名深度学习框架: Google支持的tensorflow Facebook支持的pytorch 高层封装,简单易用的Keras 微软加持的CNTK...其中Active PRs可以反映近期开发者的活跃度,而Active Issues可以反映近期的使用者的活跃度(用的人越多问题总会越多吗)。 同样,让我们再为老态龙钟的Theano“把把脉”: ?...剩下keras,mxnet,paddlepaddle的流行度差不多,但还有一位CNTK,流行度与以上完全不在一个数量级上,这是要凉的节奏吗?我不能猜测具体原因。 活力 ?...我也做了一个以上图表的每日更新面板: http://blmoistawinde.pythonanywhere.com/DL_pop 也许框架的更新,会让大牛们现在的基于技术的优劣分析不再适用,但我相信实时的潮流总会有一定的参考价值

    63830

    深度学习哪家强?用数据来一较高下吧

    于是我看了许多比较文章,其中涉及各种层面的比较(数据结构、使用范围、实现细节),让姿势水平还远远不够的我看得眼花缭乱。 作为一个数据玩家,我想到,不妨让它们在大数据的战场上一较高下。...● 微软加持的CNTK ● 亚马逊选择的mxnet ● 百度打造的PaddlePaddle ● 最老牌的Theano 比赛规则 数据来自Github上这些框架的repo。...其中Active PRs可以反映近期开发者的活跃度,而Active Issues可以反映近期的使用者的活跃度(用的人越多问题总会越多吗)。 同样,让我们再为老态龙钟的Theano“把把脉”: ?...剩下keras,mxnet,paddlepaddle的流行度差不多,但还有一位CNTK,流行度与以上完全不在一个数量级上,这是要凉的节奏吗?我不能猜测具体原因。 03 活力 ?...我也做了一个以上图表的每日更新面板: http://blmoistawinde.pythonanywhere.com/DL_pop 也许框架的更新,会让大牛们现在的基于技术的优劣分析不再适用,但我相信实时的潮流总会有一定的参考价值

    35350

    算法工程师的面试难不难,如何准备?-图像处理CVMLDL到HR面总结

    防止过拟合的方法:剪枝(把一些相关的属性归为一个大类,减少决策树的分叉);随机森林 7、 L1正则为什么可以把系数压缩成0,坐标回归的具体实现细节?...28、过拟合和欠拟合 欠拟合(under fitting):参数过少,不足以表达数据的特征 过拟合(over fitting):参数过多,过渡拟合数据,泛化能力差(训练时的准确率很好,但测试的时候就很差...(我顺带回答了一下canny,HR又问opencv里面有c-a-n-n-y有这几个字母的函数吗,尴尬。。。...他在dpm里面怎么设计的,你改过吗?HOG能检测边缘吗?里面的核函数是啥?那hog检测边缘和canny有啥区别? 13、如何求一张图片的均值?(考虑了溢出和分块求解,貌似不满意。。。...(我回答的插值,不太对。。。比如放大两倍可以插值,那放大1.1倍呢,)-->放大1.1倍也可以插值 15、如何遍历一遍求一张图片的方差?(回答的是采用积分图,并让我推导这样为啥可行。

    2.5K50

    深度学习哪家强?用数据来一较高下吧

    于是我看了许多比较文章,其中涉及各种层面的比较(数据结构、使用范围、实现细节),让姿势水平还远远不够的我看得眼花缭乱。 作为一个数据玩家,我想到,不妨让它们在大数据的战场上一较高下。...● 微软加持的CNTK ● 亚马逊选择的mxnet ● 百度打造的PaddlePaddle ● 最老牌的Theano 比赛规则 数据来自Github上这些框架的repo。...其中Active PRs可以反映近期开发者的活跃度,而Active Issues可以反映近期的使用者的活跃度(用的人越多问题总会越多吗)。 同样,让我们再为老态龙钟的Theano“把把脉”: ?...剩下keras,mxnet,paddlepaddle的流行度差不多,但还有一位CNTK,流行度与以上完全不在一个数量级上,这是要凉的节奏吗?我不能猜测具体原因。 03 活力 ?...我也做了一个以上图表的每日更新面板: http://blmoistawinde.pythonanywhere.com/DL_pop 也许框架的更新,会让大牛们现在的基于技术的优劣分析不再适用,但我相信实时的潮流总会有一定的参考价值

    40420

    32页ppt干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

    聚类 异常值/异常现象检测 示例:对聚类流服务用户进行分组,对这些组以及某个视频在这些组中的受欢迎程度进行分析。...等等); 如何防止过拟合? 超参数调优(Hyperparameter tuning) ML模型具有超参数:这些是在训练开始之前就已经固定并且影响训练过程和复杂性的参数。...你希望框架具有监控功能吗?出现问题时能够 fallback 吗? 初步的分析是有必要的,那么下一步该做什么?...只说持久力的话,Theano,Torch / PyTorch,MxNet,TensorFlow / Keras 和 CNTK 应该都会继续增长。...总体上让整个框架更灵活和易于扩展,为将来的发展预留了空间。 3. 计算图和优化 有了张量和基于张量的各种操作之后,下一步就是将各种操作整合起来,输出需要的结果。

    2.2K100

    干货|谷歌大规模机器学习:模型训练、特征工程和算法选择

    聚类 异常值/异常现象检测 示例:对聚类流服务用户进行分组,对这些组以及某个视频在这些组中的受欢迎程度进行分析。...等等); 如何防止过拟合? 超参数调优(Hyperparameter tuning) ML模型具有超参数:这些是在训练开始之前就已经固定并且影响训练过程和复杂性的参数。...你希望框架具有监控功能吗?出现问题时能够 fallback 吗? 初步的分析是有必要的,那么下一步该做什么?...只说持久力的话,Theano,Torch / PyTorch,MxNet,TensorFlow / Keras 和 CNTK 应该都会继续增长。...总体上让整个框架更灵活和易于扩展,为将来的发展预留了空间。 3. 计算图和优化 有了张量和基于张量的各种操作之后,下一步就是将各种操作整合起来,输出需要的结果。

    3.3K50

    神经网络加上注意力机制,精度反而下降,为什么会这样呢?

    为什么我添加了注意力模块以后精度反而下降了? 你添加注意力模块以后有提升吗? 注意力模块的参数如何设置? 添加注意力模块以后如何使用预训练模型?...注意力机制到底work不work,我觉得可以从两个角度来解释。 第一个角度是模型的欠拟合与过拟合 大部分注意力模块是有参数的,添加注意力模块会导致模型的复杂度增加。...如果添加attention前模型处于过拟合状态,那么增加参数可能加剧过拟合问题,性能可能保持不变或者下降。...可以发现一下几个现象: 随着宽度增加,模型过拟合现象会加剧,具体来说是验证集准确率变低。...cbam与norm进行比较可以发现,在8d(可能还处于欠拟合)基础上使用cbam可以取得验证集目前最高的结果,而在64d(可能出现过拟合)基础上使用cbam后准确率几乎持平。

    2.7K20

    顺丰提前批人工智能岗技术面面经

    【每日一语】人们常常会欺骗你,是为了让你明白,有时候,你唯一应该相信的人就是你自己。——《千与千寻》人们常常会欺骗你,是为了让你明白,有时候,你唯一应该相信的人就是你自己。...8点02,面试官准时上线来面试了,不过不是刚才给我打电话那位……上来问我现在在做什么项目,然后我说OCR,然后介绍了一下,然后面试官开始问问题 【关于项目就一点没问了,说好的只问项目呢?】 1....目标检测了解吗,(了解一点)Faster RCNN跟RCNN有什么区别 2. SPP, YOLO了解吗(不了解)(后悔没去看看= =) 3. 梯度消失梯度爆炸怎么解决 4....传统的机器学习算法了解吗(不怎么了解,说了个KMeans) 7. KMeans讲讲,KMeans有什么缺点,K怎么确定(不会) 8. 卷积层和池化层有什么区别(不是很懂这个问题的点) 9....防止过拟合有哪些方法 10. dropout咋回事讲讲 11. 你有什么要问我的吗 然后我一看时间,刚10分钟??

    67510

    深度丨掌握地球?智能机器带来的真正风险

    不过呢,还是下面这个问题令我真正抓狂: 人工智能会掌控整个地球吗? 对于一名从事于机器智能研究的专业人士来说,这个问题太让我恼火了。...或者用专业的话说,过拟合。我说这个专业词的意思是,当一个模型要拟合一个特定的数据集,用以预测新的未知的数据,它可能对于已知数据拟合的过于完美。...有几种方式可以理解过拟合,对于感兴趣的人现实中有很多的关于过拟合的例子。...该图反映了过拟合的情况,即,最后一幅图显然对噪音也进行了拟合 关注过拟合问题的原因是想强调一下机器学习的可解释性的重要性。...如果我们不能理解这些机器学习算法到底学习的是什么,我们并不能判断它们是不是过拟合了。举个例子说,某机器算法是根据上网浏览历史来预测可疑的上网行为。

    39640

    揭穿AI竞赛真实面目!各种冠军模型根本没用,Kaggle受益者挺身反驳

    讨论继续,人们的想法从“但是既然有一个验证集,怎么会过拟合呢?”到“提出的解决方案永远不会被直接应用”(后者来自以前的竞赛获胜者)。...因此,为了定义术语,让我们假设一个好模型是指:一个可以在未见过的数据(模型不知道的情况)上检测脑出血的模型。 相反,一个糟糕的模型是,它不能在未见过的数据中检测出脑出血。 这些定义毫无争议。...让我介绍一下“Epi101”(Epidemiology 101),它声称有一枚神奇的硬币。 ? Epi101让你抛10次硬币。...有趣的是,虽然ML101非常清楚,自己运行100个模型并选择最好的模型将导致过拟合,但他们很少讨论这种“人群的过拟合”。...我无法真正估计这些数字,但是有人真的相信在 2010 年中期的 SOTA 热潮就一定不是众包过度拟合吗? 那么竞赛的目的到底是什么? ? 他们显然不能可靠地找到最好的模型。

    66020

    机器学习面试

    lr的应用场景主要是特征很多的情况 LR用kernel容易过拟合,svm不容易过拟合 为什么LR可以用来做CTR预估?...L2正则化可以防止过拟合?...,并解释我在哪些项目里具体用到了这些方法, 机器学习中使用「正则化来防止过拟合」到底是一个什么原理?...哪个更容易过拟合?为什么? 问了随机森林的损失函数,和lr的优缺点对比, adaboost和随机森林的比较,为了防止随机森林过拟合可以怎么做,是否用过随机森林,怎么用的。 随机森林和GBDT的区别?...让我把一个完整的数据挖掘流程讲一下,从预处理,特征工程,到模型融合。介绍常用的算法,gbdt和xgboost区别,具体怎么做预处理,特征工程,模型融合常用方式,融合一定会提升吗?

    58220

    理解过拟合

    如果一味追求让损失函数达到最小,模型就会面临过拟合问题,导致预测未知数据的效果变差。如何判断自己的模型是否训练正常?怎么解决过拟合问题?大家先来听听我朋友小明的故事。...这就意味着函数在某些小区间里的导数值(绝对值)非常大,但是损失函数附加了参数的平方和,导致整个算法不会让参数变的过大,使得拟合函数波动变小。这个参数的平方和就是一种正则化项,用来解决过拟合问题。...我们用弹道曲线作为预测模型,在给定子弹初速度的前提下,如果知道靶心与枪口的距离,可以通过调整枪口的仰角来让子弹命中靶心。...与L2相比L1正则化能更有效的让参数趋向于0,产生的结果更稀疏。 剪枝 剪枝是决策树类算法防止过拟合的方法。...2.在自然语言处理领域中,可以做同义词替换扩充数据集。 3.语音识别中可以对样本数据添加随机的噪声。 Dropout Dropout是神经网络中防止过拟合的方法。

    91671

    观点 | 图灵奖得主Judea Pearl:机器学习的理论局限性与因果推理的七大特性

    是新的税收优惠导致了销量上升吗? 每年的医疗费用上升是由于肥胖症人数的增多吗? 招聘记录可以证明雇主的性别歧视罪吗? 我应该放弃我的工作吗?...对中间机制的检测是生成解释的基础,且必须应用反事实逻辑帮助进行检测。...我希望从中你可以发现与博客主题相关的问题和回答。...问题 5:深度学习不仅仅是盛赞曲线拟合?毕竟,曲线拟合的目标是最大化拟合,同时深度学习中很多努力也在最小化过拟合。...回答:在你的学习策略中不管你使用何种技巧来最小化过拟合或其他问题,你依然在优化已观察数据的一些属性,同时不涉及数据之外的世界。

    2.5K61
    领券