用TensorFlow还是PyTorch?从TensorFlow开始学起还是PyTorch?在一年前,这个问题毫无争议,当然是TensorFlow. 但时过境迁,现在的情况大不一样了,下面就来分析对比一下这两个主流框架。
在用PyTorch或者TensorFlow搭积木的时候,你是不是也遇到过下面这些情况:
CTR模型在互联网的搜索、推荐、广告等场景有着广泛的应用。近年来,随着深度神经网络的引入,CTR模型的推理对硬件算力的要求逐渐增加。本文介绍了美团在CTR模型优化的实践。通过分析模型结构特点,结合GPU硬件架构,我们设计了一系列流程对模型进行定制优化,达到了降低延迟、提高吞吐、节省成本的目标。
美团内部深度定制的TensorFlow版本,基于原生TensorFlow 1.x架构与接口,从大规模稀疏参数的支持、训练模式、分布式通信优化、流水线优化、算子优化融合等多维度进行了深度优化。在推荐系统场景中,分布式扩展性提升10倍以上,单位算力性能也有显著提升,并在美团内部业务中大量使用,本文介绍了相关的优化与实践工作。
网络层与算子融合是非常有效的方法,本文将配合TensorRT与tflite推理框架介绍下网络层与算子融合的原理与应用。
在这一篇文章中,我们结合 Rosetta 介绍如何定制化改造 TensorFlow 前后端相关组件,以集成 MPC 等隐私计算技术,同时保留对 TensorFlow 接口 API 的复用,从而实现我们上一篇文章中所强调的“系统易用性”。
什么是张量 https://www.youtube.com/watch?v=f5liqUk0ZTw 英文解说 https://blog.csdn.net/wtq1993/article/detail
随着机器学习和人工智能领域的持续发展,神经网络及其代表性的算法通过提升计算成本而实现了越来越高的准确度。量化(quantization)是一种以准确度为代价旨在降低计算成本的方法。为了在尽可能小地损失准确度的同时尽可能多地减少计算,研究者们已经提出了多种不同的量化方案。
自 2012 年深度学习再度成为焦点以来,很多机器学习框架成为研究者和业界工作者的新宠。从早期的学术框架 Caffe、Theano 到如今有业界背景的大规模框架 Pytorch 和 TensorFlow,层出不穷的新成果使得跟踪当前最流行的框架变得越发困难。
总第497篇 2022年 第014篇 美团机器学习平台基于内部深度定制的TensorFlow研发了Booster GPU训练架构。该架构在整体设计上充分考虑了算法、架构、新硬件的特性,从数据、计算、通信等多个角度进行了深度的优化,最终其性价比达到CPU任务的2~4倍。本文主要讲述Booster架构的设计实现、性能优化及业务落地工作,希望能对从事相关开发的同学有所帮助或者启发。 1 背景 2 GPU训练优化挑战 3 系统设计与实现 3.1 参数规模的合理化 3.2 系统架构 3.3 关键实现 4 系统性能优
在TensorFlow1.0时代,采用的是静态计算图,需要先使用TensorFlow的各种算子创建计算图,然后再开启一个会话Session,显式执行计算图。
训练场景下,迁移原始网络 (如TensorFlow、PyTorch) ,用于NPU上执行训练,网络迁移可能会造成自有实现的算子运算结果与用原生标准算子运算结果存在偏差。推理场景下, ATC模型转换过程对模型进行优化,包括算子消除、算子融合算子拆分,这些优化也可能会造成自有实现的算子运算结果与原生标准算子(如TensorFlow、ONNX、 Caffe ) 运算结果存在偏差。
作者:叶 虎 编辑:李文臣 PART 01 Tensorflow简介 引言 实践深度学习肯定要至少学习并掌握一个深度学习框架。这里我们介绍一个最流行的深度学习框架:Tensorflow。Tensorf
深度学习作为人工智能的一个重要分支,在过去十年中取得了显著的进展。PyTorch 和 TensorFlow 是目前最受欢迎、最强大的两个深度学习框架,它们各自拥有独特的特点和优势。
导言 WeChat TFCC是微信技术架构部后台团队研发的服务端深度学习通用推理框架,也是腾讯深度学习与加速Oteam云帆的开源协同成果,具有高性能、易用、通用的特点,已在微信视频号、微信开放平台推荐系统、微信画像、微信智聆语音识别、语音合成等业务广泛使用; 支持81个ONNX Operation和108个Tensorflow Operation,覆盖推荐、NLP、语音等场景的各种主流模型,同时更多的Operation在持续接入中。 特性 WeChat TFCC由Library、Runtime、Gene
摘要总结:本文主要分析了TensorFlow GPU版本的代码实现,包括其架构和流程。文章首先介绍了TensorFlow GPU的基本情况和特点,然后详细讲解了GPU版本的代码实现,包括Kernel、Stream、OP和CUDA等部分。最后,文章给出了一些使用GPU进行运算的例子,并介绍了如何调用CUDA的代码。
不过从我对文档的理解来看,感觉更像是添加的一种硬件后端(代理我想应该只是调用调用层面,不是底层实现,另外在Hexagon DSP的委托代理部分,文档坦言说Hexagon DSP的代理就是为了补充NNAPI,特别是针对那些NNAPI不可用DSP加速的、老旧驱动的设备,毕竟这些老旧设备也没有NNAPI这个东西,但有DSP硬件),交给模型的子图来去执行。比方原始模型的CPU执行Graph如上图。交给GPU的委托代理后,原Graph变为下面这样:
在如今在线会议、网络教学盛行的时代,员工和学生被要求打开摄像头,将自己、居住环境、隐私暴露在公众视野中。背景虚化、虚拟背景应用恰恰可以解决这一问题,而人像分割技术正是背后支撑这些应用的关键技术。 有读者可能疑惑,Native环境下的背景虚化、虚拟背景技术已经存在多时了,把它直接迁移到Web端能有多难呢,我们今天就从这个问题出发,展开聊聊。 与Native相比 Web端进行实时人像分割有何不同 相比于Native端的AI推理任务实现,目前Web端实现时有如下难点: 模型轻量:Native端可以在软件包
导言 WeChat TFCC是微信技术架构部后台团队研发的服务端深度学习通用推理框架,也是腾讯深度学习与加速Oteam云帆的开源协同成果,具有高性能、易用、通用的特点,已在微信视频号、微信开放平台推荐系统、微信画像、微信智聆语音识别、语音合成等业务广泛使用; 支持81个ONNX Operation和108个Tensorflow Operation,覆盖推荐、NLP、语音等场景的各种主流模型,同时更多的Operation在持续接入中。 整体结构 WeChat TFCC由Library、Runtime、Ge
为了让计算机掌握人类理解的知识,需要构筑一个由简单概念组成的多层连接网络来定义复杂对象,计算机通过对这个网络的迭代计算与训练后,可以掌握这个对象的特征,一般称这种方法为深度学习(DeepLearning,DL)
导语 机器学习领域最重要的两个问题是机器学习模型的生产(模型训练)和机器学习模型的部署(模型推理)。其中,模型的部署关注两个方面: 模型推理的性能问题:目标是通过计算图层面的优化,算子层面的优化等方式,在保证模型效果的前提之下,提升模型计算(模型推理)的性能。 模型部署的工程问题:主要着眼于对模型部署过程中的整个模型的生命周期进行管理,降低模型部署的工程量。 目前常见的推理优化框架有侧重于推理性能提升的 TensorRT、NVIDIA 基于 TensorRT 的 Triton、Tensorflow 社区的
选自semianalysis.com 作者:Dylan Patel 机器之心编译 机器之心编辑部 CUDA 闭源库将和 TensorFlow 一样逐渐式微。 十年来,机器学习软件开发的格局发生了重大变化。许多框架如雨后春笋般涌现,但大多数都严重依赖于英伟达的 CUDA,并在英伟达的 GPU 上才能获得最佳的性能。然而,随着 PyTorch 2.0 和 OpenAI Triton 的到来,英伟达在这一领域的主导地位正在被打破。 谷歌早期在机器学习模型架构、训练、模型优化方面都具有很大优势,但现在却难以充分发挥
昇腾基于atals相关硬件产品,在底层创建CANN异构计算架构,支持Mindspore、tensorflow、pytorch、onnx、PP飞桨、计图等第三方框架,在应用使能层提供modelarts、HiAi service等平台来供开发者进行AI操作,来应用于智慧城市、制造、能源、医疗等行业。
刚刚,清华自研的深度学习框架,正式对外开源。“贵系”计算机系的图形实验室出品,取名Jittor,中文名计图。
在机器学习领域,无论是硬件还是软件,英伟达无疑均拥有巨大优势,后者用 CUDA 建立起了一道软件的护城河。可惜的是,这家公司缺乏远见,未能利用其在机器学习硬软件方面的巨大优势,让自己成为机器学习默认的编译器。而它对可用性与易用性的忽视,让 OpenAI 与 Meta 得以趁虚而入,其主导地位正在被打破。
对于机器学习科研工作者和工业界从业人员来说,熟练掌握一种机器学习框架是必备技能之一。随着深度学习技术发展的突飞猛进,机器学习框架市场也渐渐度过了初期野蛮生长的阶段。大浪淘沙,目前仍然活跃的机器学习框架主要是 PyTorch 和 TensorFlow。本文从学术界和工业界两个方面深度盘点了 2019 年机器学习框架的发展趋势。
近年来,以机器学习、深度学习为核心的AI技术得到迅猛发展,深度神经网络在各行各业得到广泛应用:
背景介绍 太极机器学习平台由腾讯云机智平台和tesla平台协同共建而成,太极联合团队在深度学习训练加速上有深厚的技术累积,曾两次刷新了 ImageNet 训练速度的世界记录,并发表相应论文。 为使团队沉淀的训练加速技术赋能鹅厂更多业务场景并创造更大价值,Light 训练产品应运而生。Light 是云帆Oteam基于当前社区主流深度学习框架开发的一套多机多卡深度学习训练加速框架,用户只需要做几行代码即可接入并获得高性能加速能力。 从去年开始,太极团队针对广告训练场景进行了专项的性能优化,并针对业务模型迭
2022 年 3 月 25 日,腾讯联合英伟达开发的 TensorRT 插件自动生成工具 TPAT 正式宣布开源。 TensorRT 是当前应用最广的 GPU 推理框架,但由于支持的算子数量有限,用户面临手写插件以支持算子的痛点。TPAT 能够支持开放神经网络交换 (ONNX) 格式所有的算子,端到端生成 TensorRT 插件,在解放人力成本的同时,性能对比手写毫不逊色。 TPAT Github 地址:https://github.com/Tencent/TPAT 背景 TensorRT 是当今最快的
总第492篇 2022年 第009篇 GPU等专用芯片以较低的成本提供海量算力,已经成为机器学习领域的核心利器,在人工智能时代发挥着越来越重要的作用。如何利用GPU这一利器赋能业务场景,是很多技术研发者都要面临的问题。本文分享了美团外卖搜索/推荐业务中模型预估的GPU架构设计及落地的过程,希望能对从事相关应用研发的同学有所帮助或启发。 1 前言 2 背景 3 外卖搜推场景下的精排模型 4 模型服务架构概览 5 GPU优化实践 5.1 系统优化 5.2 计算优化 5.3 基于DL编译器的自动优化 6 性能表
詹士 Alex 发自 凹非寺 量子位 | 公众号 QbitAI 英伟达的软件护城河正在逐渐消失。 随着PyTorch支持更多GPU厂商,再加上OpenAI的Triton搅局,英伟达手中的利器CUDA 逐渐锋芒不再。 上述观点来自Semi Analysis首席分析师Dylan Patel,相关文章已引发一波业内关注。 有网友看后评价: 英伟达沦落到此种境地,只因为了眼前利益,放弃创新。 Pytorch的作者之一Sasank Chilamkurthy还补刀: 当英伟达之前提出要收购Arm时,我就对潜在的垄断
本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中,我们大多是以 PyTorch 为例,结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界(系列)都是不完美的,不单单因为 TensorFlow 本身的影响力,更因为 TensorFlow 分布式有自己的鲜明特色,对于技术爱好者来说是一个巨大宝藏。
而Autograph机制可以将动态图转换成静态计算图,兼收执行效率和编码效率之利。
前段时间一直在研究微信小程序中的 TensorFlow.js 开发,并开发了若干示例小程序,详情请查看之前的文章:
边缘计算时代离我们越来越近,当前嵌入式设备的智能框架还是 TensorFlow Lite比较成熟,这里我准备用一系列免费课程和大家一起讨论下 TensorFlow Lite在移动设备上的应用,让我们的设备智能起来。
计算图Graph是TensorFlow的核心对象,TensorFlow的运行流程基本都是围绕它进行的。包括图的构建、传递、剪枝、按worker分裂、按设备二次分裂、执行、注销等。因此理解计算图Graph对掌握TensorFlow运行尤为关键。
常见的图优化技术包括常量折叠、公共子表达式消除、代数化简、算子融合等技术,接下来将分别简单介绍其原理。
3.17日谷歌在 GitHub 与 TFHub 上同步发布了 EfficientNet-lite,EfficientNet的端侧版本,运行在 TensorFlow Lite 上,针对端侧 CPU、GPU 和 EdgeTPU 做了优化。EfficientNet-lite提供五个不同版本(EfficientNet-lite0~4),让用户能够根据自己的应用场景和资源情况在延迟、参数量和精度之间做选择。
最近因为工作需要,学习了一波CUDA。这里简单记录一下PyTorch自定义CUDA算子的方法,写了一个非常简单的example,再介绍一下正确的PyTorch中CUDA运行时间分析方法。
Ascend AI处理器是一款面向AI业务应用的高性能集成芯片,包含AI CPU、A Core、AI Vector Core等计算单元来提升AI任务的运算性能。基于Ascend AI处理器,Mindstudio在算子开发、模型训练及推理应用等不同环节,提供了端到端的Profiler工具。该工具可以帮助用户看到模型从应用层到芯片层的接口和算子耗时,从而准确定位系统的软、硬件性能瓶颈,提高性能分析的效率。
【导读】腾讯首个AI开源项目Angel,正式发布一个里程碑式的版本:Angel 3.0。这是一个全栈机器学习平台,功能特性涵盖了机器学习的各个阶段,超过50万行代码,在 GitHub 上 Star 数已超过 4200,Fork 数超过 1000。 一个全栈机器学习平台,近日悄悄上线了。 8月22日,腾讯首个AI开源项目Angel正式发布一个里程碑式的版本:Angel 3.0。 Angel 3.0尝试打造一个全栈机器学习平台,功能特性涵盖了机器学习的各个阶段:特征工程,模型训练,超参数调节和模型服务。
机器之心原创 机器之心编辑部 现在都 2021 年了,机器学习好填的坑都已经填了,大家都在想怎么将模型用到各种实际任务上。我们再去讨论深度学习框架,吐槽它们的体验,会不会有点过时?并不会,新模型与新算法,总是框架的第一生产力。 从 Theano 一代元老,到 TensorFlow 与 PyTorch 的两元世界,到现在各个国产框架与工具组件的兴起。深度学习框架,总是跟随前沿 DL 技术的进步而改变。 不过今天并不是讨论深度学习框架的演变,而只是单纯分享一下在算法工程中,使用 TensorFlow 遇到的各种
在自然语言处理领域,以 BERT 为代表的 Transformer 神经网络模型是近年来最重要的模型创新,为诸如阅读理解、文章摘要、语义分类、同义改写等 NLP 任务带了显著的效果提升。但 Transformer 在提高模型精度的同时,也引入了更多的计算量,这导致 Transformer 的线上 NLP 服务在部署方面面临着巨大挑战。
2022腾讯犀牛鸟开源人才培养计划 开源项目介绍 滑至文末报名参与开源人才培养计划 提交计图(Jittor)项目Proposal 计图(Jittor) 项目介绍 计图(Jittor):一个完全基于动态编译(Just-in-time),内部使用创新的元算子和统一计算图的深度学习框架。元算子可以复合出神经网络计算所需算子,和Numpy一样易于使用,并且超越Numpy能够实现更复杂更高效的操作。统一计算图则是融合了静态计算图和动态计算图的诸多优点,在易于使用的同时,提供高性能的优化。基于元算子开发的深度学习模型,
华为公司面向计算机视觉、自然语言处理、推荐系统、类机器人等领域量身打造了基于“达芬奇(DaVinci)架构”的昇腾(Ascend)AI处理器,开启了智能之旅。为提升用户开发效率和释放昇腾AI处理器澎湃算力,同步推出针对AI场景的异构计算架构CANN(Compute Architecture for Neural Networks),CANN通过提供多层次的编程接口,以全场景、低门槛、高性能的优势,支持用户快速构建基于Ascend平台的AI应用和业务。
领取专属 10元无门槛券
手把手带您无忧上云