首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

今日 Paper | 深度循环神经网络;PoseNet3D;AET vs. AED;光场视差估计等

AED:无监督表示学习通过自编码变换而不是自编码数据 基于注意力的视点选择网络用于光场视差估计 基于CNN的中文lexicon rethinking NER模型 使用混合精度的方法在GPU集群上进行深度循环神经网络的训练...作者的方法在Human3.6M数据集上相比之前无监督的方法,3D关节点预测误差减少了18%。在自然数据集上,文章方法恢复的人体姿态和网格也是较为自然、真实的,在连续帧上预测结果也比较连续。 ?...具体来说,是借鉴双目深度估计的PSMNet网络结构,在匹配代价体(cost volume)之后插入一个基于注意力的视角选择网络。...基于CNN的中文lexicon rethinking NER模型 论文名称:CNN-Based Chinese NER with Lexicon Rethinking 作者:Tao Gui 发表时间:2019...,会出现GPU在并行性计算的时候会和候选词之间发生冲突的问题,针对这一问题,作者建议采用更快卷积神经网络CNN重新构建模型,因为LSTM是一种时序网络不能够进行并行化计算,而CNN是可以进行并行化计算。

75830

预训练后性能反而变差,自训练要取代预训练了吗?

但是有足够数量的标记数据时,从头开始训练也不会得到很差的结果。作者发现了相同的结论,这一观点与FAIR的论文《Rethinking ImageNet Pre-training》相一致。 ?...预训练并不能理解当下的任务,并可能无法适应。 分类问题比目标检测问题容易得多。在分类任务上预训练的网络是否可以获得目标检测任务所需要的所有信息?...用我喜欢的表达方式来说:即使这些任务只是彼此的子集,不同的任务也需要不同级别的粒度。...同时,作者指出了另外两个有趣的现象: 1)ImageNet的预训练模型,即使带有额外的人工标签,其效果也比自训练差。...自训练并不能完全替代迁移学习和微调,这两种技术将来也会被大量使用。

1.2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    NYU副教授发文炮轰NeurIPS等大型会议,网友:会议初衷不是这样的

    近年来,机器学习领域的学术会议层出不穷,NeurIPS、CVPR 等大型顶会每年的投稿数量也在逐年激增。这些大型会议在机器学习社区和业内一直具有举足轻重的地位。...图源:https://github.com/lixin4ever/Conference-Acceptance-Rate 在聘用研究人员时,我会需要代理人,否则要真正深刻理解他人的研究是非常困难的,除非从事的工作完全一样...我们需要停止依靠大型会议的接收情况来判断研究质量,因为被接收并不能说明研究质量,并且较低的接收率正在降低这些 学术会议的质量。...但在目前的情况下,即使是最优秀的研究者提交他们精通的工作,也有可能因为一些审稿人不喜欢或者不认可而被拒稿。这听起来简直匪夷所思。...即使是我这种已经在 AI 领域工作了很多年的人也很难做到这一点。如果你是刚刚接触领域社区的人,较小型的会议似乎能让你拥有更多交流机会。一般来说,有成千上万参与者的会议并不会设立专门的交流社区。

    57810

    贝叶斯神书《统计反思》推出第二版,视频课程同步上线,作者亲自在线答疑

    在这本书的内容方面,作者已经把书中原始R代码案例发在了GitHub上,用户需要先安装rethking R包。 如果读者吃不惯R语言口味的《统计反思》,也可以参考其他语言的版本。...其中R + Tidyverse + ggplot2 + brms和Python/PyMC3的转换已经相当完整,Julia/Turing版本也在进行中。...并且也有不少这本书的粉丝尝试做了一些翻译工作: 例如加州大学戴维斯分校的研究生Anna B. Kawiecki,就把第二版的作业用R-INLA重新编码了一遍。...目前理查德已经在Youtube上更新了四节课程: 有了课程之后,作业练习也不能落下。...△图注:第1周作业 目前作业的进度也已经更新到了第二周,有兴趣学习《统计反思》的同学可要抓紧时间赶上进度啦~ 参考链接: [1]https://github.com/rmcelreath/stat_rethinking

    61020

    重新思考Kubernetes多租户:一种更智能的平台工程师方法

    译自:Rethinking Kubernetes Multitenancy: A Smarter Approach for Platform Engineers 作者:Lukas Gentele 通过虚拟化...在 Kubernetes 原生开发的背景下,通用标准和开发者自由之间的紧张关系通常归结为平台团队在确定其团队的工作负载如何在 Kubernetes 上运行时所做的架构决策。...在许多情况下,此平台堆栈比它运行的工作负载更大且成本更高!更糟糕的是,这些集群通常即使在没有人使用它们时也会运行,例如在周末。...例如,如果一个租户是一个内部预生产团队,他们想要安装 ArgoCD 以测试其新的交付工作流程,他们无法这样做,因为 ArgoCD 要求他们安装 CRD。...与此同时,工程师也获得了充分的自主权和安全实验的空间。他们拥有虚拟集群内的完全访问权限,但除了平台团队提供的共享工具之外,没有其他访问权限。

    3700

    6种用于文本分类的开源预训练模型

    自回归模型用于预测下一个单词,使用的单词在已有的单词之前或之后出现。但是,不能同时处理前面和后面的单词,只能处理一个方向。...众所周知,在允许不相邻的标记也一起处理的意义上,Transformer是循环神经网络(RNN)的替代,因为它提高了对文本中远距离关系的理解。...所以,即使对于分类任务,输入是文本,输出也将是文本而不是一个标签。这可以归结为所有任务的单一模型。不仅如此,一个任务的输出可以用作下一个任务的输入。...BP Transformer的工作原理: 第一步:递归地把句子分成两部分,直到达到某个停止条件为止。这称为二元分区。...现在,在研究了这么多的高级的预训练模型之后,我们要反其道而行之,我们要讨论一个使用老的双向LSTM的模型来实现SOTA性能。

    2.9K10

    推翻剪枝固有观点?清华、伯克利提出NN过参数化真的不重要

    然而,目前我认为它不会改变工作流程。因为基本上,重新训练仍是必需的,而对训练好的模型进行剪枝可以减少再次训练的时间。...@rantana: 对于任何使用该论文「PREDEFINED TARGET ARCHITECTURES」部分所述方法的工作流程来说,训练大型模型实在没有必要,因为目标模型的总训练时间更少,工作流程总体来说也更简单...此外,继承大模型的权重不一定是最优选择,而且可能导致剪枝后的模型陷入局部极小值,即使这些权重按剪枝标准来看是「重要的」。...论文:Rethinking the Value of Network Pruning ?...表 7:剪枝在检测任务上的(mAP)结果。剪枝后的模型来自于 Li et al. (2017)。Prune-C 指在分类预训练权重上剪枝,Prune-D 指在迁移至检测任务之后的权重上进行剪枝。

    73930

    『 论文阅读』Understanding deep learning requires rethinking generalization

    传统知识认为这种小的泛化误差归功于模型的性能,或者是由于在训练的时候加入了正则化技术。 通过广泛的系统实验,我们展示了这些传统方法如何不能解释,而为什么大型神经网络能在实践中推广。...这种现象在质量上不受显式正则化的影响,即使我们用完全非结构化的随机噪声替换真实图像,也会发生这种现象。...1.1 CONTRIBUTIONS 在这项工作中,我们通过表明它不能区分具有完全不同的泛化性能的神经网络,从而使传统的泛化观点转化为问题。 1.1.1 Randomization tests....论文在CIFAR10和ImageNet分类基准上训练的几种不同的标准体系。简单说明如下观点。 神经网络的有效容量足以记住整个数据集。 即使对随机标签进行优化仍然很容易。...在CIFAR10上安装随机标签和随机像素。 (a)显示了各种实验设置的训练损失与培训步骤的衰减。 (b)显示了不同标签损坏率的相对收敛时间,随着标签噪声水平的增加,收敛时间的减慢。

    1.1K30

    学界 | 深度学习盛会ICLR2017最佳论文出炉,AI科技评论带你5分钟看完重点

    学生需要学会的预测结果由全部教师的有噪投票(noisy vote)选出,并且学生不能直接对单个教师模型、底层数据或参数进行访问。 由于不涉及单个教师,因此也不会存在用单个数据集训练学生的情况。...即使是入侵者可以查询学生模型并检查其内部运作,学生模型的隐私性依然有效。 和之前的工作相比,该方法只是加强了如何训练教师的弱假设:它可以应用于任何模型,包括非凸(non-convex)模型DNN。...噪音让学生做到差分隐私的同时,也保证了MNIST和SVHN的精确分类。评选委员会认为该论文撰写得很优秀。...《泛化——一个理解深度学习需要重新思考的问题》 (Understanding deep learning requires rethinking generalization) ?...这种现象本质上不受显式正则化影响,即使用完全非结构化随机噪声来替换真实图像也是如此。 我们通过一个理论结构证实了实验结果。

    94980

    一文看懂AutoML

    之前说了,搜索空间分为ML和DL两块,本文只关注DL,而优化方法又分为超参优化和网络架构优化,本文也主要只关注网络架构优化,因为超参优化是挑选出最优网络架构之后的事情了,不过也有工作将NAS用在超参优化上的...但是在得到最优cell之后,用来retrain时会堆叠比较多的层数,这里就不一定是最优解了。也有工作做这方面的优化,比如P-DARTS,在搜索阶段逐渐增加堆叠的层数。 ?...可以删除最久之前的,也可以删除效果最差的,也有工作一个都不删除,只要你内存和时间顶得住。 强化学习 ?...探索更多的领域 如上所说,目前大多数工作都是在CV上,搜的是conv结构,而像NLP、语音等领域探索甚少,像多目标领域也只有很少的工作(韩松老师组工作很多),即使是在CV,任务也大多数局限在CIFAR-...现在人类设计的网络大多数都能强行解释一下好处,即使它仍然是个黑盒。但是NAS搜出来的基本看不出设计的逻辑。 可复现 之前也说了,例如演化算法和强化学习这一类方法训练很不稳定,很难复现出结果。

    1.1K21

    【新智元100】十张图看清 AI 赛道,十大顶级调研公司报告汇总

    个人助理 智能工具 Rethinking Industries AdTech 农业 教育 金融 法律 制造 医疗 石油/天然气 传媒/内容 消费金融 慈善 自动化 诊断 零售 Rethinking Humans...即使是在2015年,我们也可以看到,高校(假定这指大学研究)仍是Nvidia的GPU技术的最大消费市场。...致力于金融领域的AI公司可能被只会追逐利益的,而致力于治疗疾病或改善治疗的公司(即使也为了追求利益)则被另眼相待。...甚至是IBM也遭受批评,因为它不能把Watson的价值传递给客户。...注意细分领域,对整体保持乐观 尽管对具体的行业或应用领域的划分存在分歧,但是AI不是少数特定工作的专用工具,而是完全不同的一个工作、研究和生产的领域。

    1.5K120

    【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

    ,以及之前在谷歌大脑工作,现在是 DeepMind 研究员的 Oriol Vinyals。...这种现象本质上不受显式正则化影响,即使我们通过完全非结构化随机噪声来替换真实图像,也会发生这种现象。...如果伴有early stopping的情况,正则化也可以是隐含的。 我们的贡献 在这项工作中,通过论证它不能区分具有完全不同泛化性能的神经网络,我们质疑了对于泛化的传统认识 。 随机化测试。...我们不能再使用均匀的收敛边界作为解释低泛化误差的理由。 我们也不能使用稳定性度量,因为这种改变是针对数据而不是任何模型参数。...Zhang 等人最近的工作(2017,译注:即上面介绍的谷歌论文)发现,传统方法不能解释 DNN 的这种性质。

    1K120

    【综述】闲话模型压缩之网络剪枝(Network Pruning)

    即使是在服务端,更多的计算也会直接导致成本的增加。人们正在从各个角度试图克服这个问题,如这几年如火如荼的各处神经网络芯片,其思路是对于给定的计算任务用专用硬件加速。...之后这几年,模型压缩领域变得越丰富,越来越多的相关工作衍生出各种玩法。...类似地,在模型压缩中也可以用聚类的思想。...云和端上的硬件平台差异很大,端设备与端设备之间在硬件种类和能力上差异也很大。...这样的工作会给我们非常大的启发,从而根本改变解决问题的思路。 方向三 随着AutoML的大潮,越来越多的东西开始自动化。模型压缩能拉下吗?当然不能。

    5K21

    Node 10 LTS值得关注的特性

    TLDR,主要关键词: HTTP/2 BigInt Window 安装包优化 - 解决原生模块安装编译问题 Work Threads - 实验性 API new Buffer(...---- ## Windows 安装包优化 对于 Node.js 开发者来说,Windows 下的环境安装一直都是非常值得吐槽的。 主要带来的问题是:Node 原生模块的安装编译问题。...终于,从该版本开始,Windows 下的 MSI 安装包里面会包含一个额外的选项:『是否安装 Node.js 本地编译工具套件』 它将大大减少在 Windows 上编译 Node.js 源码以及安装那些需要本地编译的...await fsPromise.readFile('package.json'); console.log(content.toString());})(); ## Worker Threads 新版本也将社区呼声最大的...PS:MicroSoft 之前也发布过一个第三方模块,https://github.com/Microsoft/napajs 。

    35010

    AI领域的预训练与自训练

    今天分享一篇谷歌大脑的文章《Rethinking Pre-training and Self-training》,希望能对大家的研究有帮助。...01 使用监督学习获得预训练模型 作为实验,研究者首先在Imagenet上训练分类网络作为预训练模型,之后监督得到的预训练模型作为骨干网络在COCO数据集上进行训练。...对于使用监督算法得到的预训练模型,研究者分别在使用了四种不同强度的数据增强的Imagenet上分别训练了EfficientNet-B7,之后将这些模型当作骨干网络在COCO数据集上训练目标检测模型。...综上,研究者得到了在目标检测任务上使用由监督法得到的预训练模型并不能获得收益,且对数据增强不兼容的结论。...在语义分割方面,研究者也证明了自训练的预训练方式比监督式预训练可以达到更好的效果: ?

    1.5K10

    语义分割综述

    每个卷积之后是一个整流线性单元和一个用于下采样的 2x2 最大池化操作。每个下采样阶段都会使特征通道的数量增加一倍。扩展路径步骤包括特征通道的上采样。接着是 2x2 上卷积,将特征通道的数量减半。...在此之后,标准卷积应用于直接特征图,将它们与图像的原始分辨率交错。...重新思考语义图像分割的 Atrous 卷积 ---- 论文:Rethinking Atrous Convolution for Semantic Image Segmentation (2017)...为了解决第一个问题,论文建议使用atrous卷积,也称为扩张卷积。它提出使用多孔卷积来扩大视野并因此包括多尺度上下文来解决第二个问题。...它的工作原理是将提取高分辨率地图的功能制定为联合上采样问题。 该方法在 Pascal Context 数据集上实现了 53.13% 的 mIoU 性能,并且运行速度提高了 3 倍。

    1.2K01

    EfficientNet 解析:卷积神经网络模型尺度变换的反思

    原标题 | EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks 作 者 | Aakash Nain 翻 译...下图直观地显示出三种尺度的区别,我们后面也会详细地讨论。 ? 模型尺度。...即使我们避免了梯度消失,又通过一顿操作使训练过程足够平滑,添加网络层也并不总是管用。比如 ResNet-1000 的准确率就和 ResNet-101 差不多。...更宽的网络可以捕捉到更多的细粒度特征,更小的网络也更容易训练。 “这不是我们梦寐以求的吗?模型小,精度高?那就继续拓宽啊,又有什么问题吗?”...你说我们既不能把网络设计得非常深,又不能设计得非常宽,那不能组合一下吗?这都想不到你还能干啥?搞机器学习吗?” 这个问题提的非常好,我们的确可以这么做。

    1K20
    领券