机器之心发布 机器之心编辑部 2022年3月21日,寒武纪正式发布新款训练加速卡MLU370-X8。MLU370-X8搭载双芯片四芯粒思元370,集成寒武纪MLU-Link™多芯互联技术,主要面向训练任务,在业界应用广泛的YOLOv3、Transformer等训练任务中, 8卡计算系统的并行性能平均达到350W RTX GPU的155%,并已实现商业化部署。 寒武纪训练加速卡MLU370-X8 双芯思元370架构 MLU370-X8智能加速卡提供250W最大训练功耗,可充分发挥AI训练加速中常见的FP32
数据显示,OneFlow 在 4 机 32 卡下的 ResNet50-v1.5 和 BERT-base 两个模型中,无论是 Float32 类型还是自动混合精度,在同样的算法和硬件条件下,吞吐率及加速比均优于其他深度学习框架。
在生成式AI(GenAI)和大模型时代,不仅需要关注单个GPU卡的算力,更要关注GPU集群的总有效算力。单个GPU卡的有效算力可以通过该卡的峰值算力来测算,例如,对于Nvidia A100,峰值FP16/BF16稠密算力是312 TFLOPS,单卡有效算力约为~298 TFLOPS [1, 2]。
思元 290 智能芯片是寒武纪的首颗训练芯片,采用台积电 7nm 先进制程工艺,集成 460 亿个晶体管,支持 MLUv02 扩展架构,全面支持 AI 训练、推理或混合型人工智能计算加速任务。
12 月 20 日,在第十六届「中国芯」集成电路产业促进大会上,燧原科技第二代人工智能训练芯片「邃思 2.0」 荣获最高奖——「中国芯 • 年度重大创新突破产品」,燧原科技由此成为国内第一家以同一系列芯片蝉联这一最高奖的企业。去年,「邃思 1.0」成为该奖项设立以来获奖的第一颗人工智能芯片。
机器之心专栏 机器之心编辑部 Transformer 已经成为众多 NLP 任务以及部分 CV 任务的主流模型,但由于硬件资源匮乏,很多高校实验室或者公司都无法训练很大的模型,而降低批处理大小等措施又会导致训练时间成倍增加。针对这一痛点,字节跳动推出了 LightSeq 训练加速引擎,对 Transformer 训练的整个计算过程进行了优化,最多可以实现 3 倍以上的加速。 如今,NLP 和 CV 领域的大部分任务都将 Transformer 作为基础模型。而早在 2019 年 12 月,字节跳动就开源过
很明显,同步调用会等待方法的返回,异步调用会瞬间返回,但是异步调用瞬间返回并不代表你的任务就完成了,他会在后台起个线程继续进行任务。
机器之心发布 机器之心编辑部 ChatGPT 在全球范围内掀起了一场技术革命与商业浪潮,AI 市场也迎来了前所未有的机遇与增量。 当前,AI 基础设施的算力、算法呈现新 “摩尔定律”:相同算力下能训练生产更优质的模型,同时最先进的 AI 模型约每几个月算力需求就会扩大一倍。 根据斯坦福大学和麦肯锡联合发布的《2019 人工智能指数报告》,2012 年之前最先进 AI 模型计算量每两年翻一倍;2012 年之后计算量每 3.4 个月翻一番,从 2012 年到 2020 年 3 月已增长 30 万倍。 伴随着大
如今,如何用更低的成本实现更高的效能,成为众多企业数字化转型当中首要关注的问题。 在AI领域,大家为了追求高精度业务效果,往往会使用数据训练模型和深度学习网络,进行分布式大规模机器训练,然后将复杂高精度模型进行推理服务部署。 整个过程中,因处理数据、搭建基础训练和推理环境会带来较高的人力成本,因训练周期长以及推理时延高会带来较高的机器成本。 腾讯云TI-ONE平台可在两方面都帮客户降本增效,通过在数据接入加工、模型训练、模型服务等阶段提供平台化能力帮客户降低人力成本;通过在训练和推理两个阶段提供TI-ACC
1 背景 图像连通域标记算法是从一幅栅格图像(通常为二值图像)中,将互相邻接(4邻接或8邻接)的具有非背景值的像素集合提取出来,为不同的连通域填入数字标记,并且统计连通域的数目。通过对栅格图像中进行连
本文内容节选自由 msup 主办的第七届 TOP100summit,北京一流科技有限公司首席科学家袁进辉(老师木)分享的《让 AI 简单且强大:深度学习引擎 OneFlow 背后的技术实践》实录。
深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究热点,产生了广泛的应用。DNN具有深层结构、数千万参数需要学习,导致训练非常耗时。GPU有强大的计算能力,适合于加速深度神经网络训练。DNN的单机多GPU数据并行框架是腾讯深度学习平台的一部分,腾讯深度学习平台技术团队实现了数据并行技术加速DNN训练,提供公用算法简化实验过程。对微信语音识别应用,在模型收敛速度和模型性能上都取得了有效提升——相比单GPU 4.6倍加速比,数十亿样本的训练数天收敛,测试集字错率
有很多人会问为什么游戏需要加速器?只有经历过外服游戏的玩家就非常清楚,显卡带来的帧数下降不算什么。网络延迟对游戏的影响更大,延迟造成的卡顿,游戏掉线,游戏出现人物瞬移,装备自动丢弃等问题都会让游戏玩家崩溃。对于游戏玩家来说,200M网速也相当于很卡了。最好的解决方法就是使用游戏加速器。接下来我们看一下它的定义:能让用户快速、安全地连接的一种服务,让用户的游戏体验更高。今天我们来看看游戏加速器有哪一些可以选择的。
寒武纪 AE 团队,腾讯云容器中心边缘计算团队,SuperEdge 开发者 SuperEdge 支持寒武纪边缘智能加速卡 MLU220 SuperEdge 对应的商业产品 TKE Edge 也一直在硬件和加速方面在持续耕耘,不但支持 NVIDIA 系列 GPU 的加速,还在GPU虚拟,QGPU 化等方面持续发力。本次联合寒武纪对边缘智能加速卡进行了支持,以利于用户在边缘进行模型训练和边缘智能推理性能的提升。下面是经过寒武纪 AE 团队和 SuperEdge 开源团队的联合测试,对寒武纪边缘智能加速卡兼容性
大数据文摘转载自微软亚洲研究院 随着人工智能技术的快速发展,ChatGPT、New Bing、GPT-4 等新产品和新技术陆续发布,基础大模型在诸多应用中将发挥日益重要的作用。目前的大语言模型大多是自回归模型。自回归是指模型在输出时往往采用逐词输出的方式,即在输出每个词时,模型需要将之前输出的词作为输入。而这种自回归模式通常在输出时制约着并行加速器的充分利用。 在许多应用场景中,大模型的输出常常与一些参考文本有很大的相似性,例如在以下三个常见的场景中: 1. 检索增强的生成。New Bing 等检索应用在响
寒武纪 AE 团队,腾讯云容器中心边缘计算团队,SuperEdge 开发者 SuperEdge 支持国产智能加速卡寒武纪 MLU220 SuperEdge 对应的商业产品 TKE Edge 也一直在硬件和加速方面在持续耕耘,不但支持 NVIDIA 系列 GPU的加速,还在 GPU 虚拟,QGPU 化等方面持续发力。本次联合寒武纪对国产智能边缘加速卡进行了支持,以利于用户在边缘进行模型训练和边缘智能推理性能的提升。下面是经过寒武纪 AE 团队和 SuperEdge 开源团队的联合测试,对国产寒武纪边缘计算加
近日,腾讯云原生数据库 TDSQL-C 发布列存索引(Column store Index)能力,这一企业级特性将大幅提高用户在使用数据库进行复杂查询时的速度,并降低数据存储空间的使用。
旷视天元(MegEngine)是一个深度学习框架,它主要包含训练和推理两方面内容。训练侧一般使用 Python 搭建网络;而推理侧考虑到产品性能的因素,一般使用 C++ 语言集成天元框架。无论在训练侧还是推理侧,天元都担负着将训练和推理的代码运行到各种计算后端上的任务。目前天元支持的计算后端有 CPU、GPU、ARM 和一些领域专用的加速器,覆盖了云、端、芯等各个场景。
摘要 构建软件的并行版本可使应用在更短的时间内运行指定的数据集,在固定时间内运行多个数据集,或运行非线程软件禁止运行的大型数据集。 并行化的成功通常通过测量并行版本的加速(相对于串行版本)来进行量化。 除了上述比较之外,将并行版本加速与可能加速的上限进行比较也十分有用。 通过阿姆达尔定律和古斯塔夫森定律可以解决这一问题。 本文是“英特尔多线程应用开发指南”系列的一部分,该系列介绍了针对英特尔® 平台开发高效多线程应用的指导原则。 背景 应用运行的速度越快,用户等待结果所需的时间越短。 此外,执行时间的缩短使
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
引言:深度学习是近年机器学习领域的重大突破,有着广泛的应用前景。随着Google公开Google Brain计划,业界对深度学习的热情高涨。百度成立深度学习研究院,腾讯也启动了深度学习的研究。腾讯在深度学习领域持续投入,获得了实际落地的产出。本文是腾讯深度学习系列文章的第一篇。我们准备了四篇文章,阐述深度学习的原理和在腾讯的实践。 2014年6月22日,腾讯深度学习平台(Tencent Deep Learning Platform)于国际机器学习领域顶级会议ICML2014上首次公开亮相,揭秘了腾讯深度学习
人工智能作为推动数字经济发展的算力基础和重要支撑,已经广泛运用于诸如自然语言处理、图像识别、自动驾驶、医疗诊断、金融风控等各大应用领域。其中在深度学习分支,模型训练是一个非常耗时和计算密集的过程,需要大量的计算资源和时间。
计算机的流水线把一个重复的过程分解为若干子过程,每个子过程与其他子过程并行执行。由于采用流水线技术只需增加少量硬件就能把计算机的运算速度提高几倍,因此成为计算机中普遍使用的一种并行处理技术。
java高并发系列第3篇文章,一个月,咱们一起啃下java高并发,欢迎留言打卡,一起坚持一个月,拿下java高并发。
同步和异步通常用来形容方法的调用方式。 同步的方法调用时,后续行为需要等到方法执行完毕后才能执行。 异步调用时,一旦调用可以立即拿到结果,调用方可以继续后续的操作。
PVP:Player VS Player PVP拥有多个高性能向量处理器,有向量寄存器和指令缓冲,不用高速缓存,共享内存。
本文围绕一篇论文展开,探讨了 PyTorch DDP (torch.nn.parallel) 以及 Pipeline (torch. Distributed.Pipeline) 的加速混合。
机器之心报道 机器之心编辑部 MLPerf 是一项机器学习公开基准,展示了每个参与机构在特定任务上利用自有资源所能达到的最佳性能。该基准于今年 5 月启动,已经得到了来自 30 多个公司的研究者和科
通过前面两个文档的学习,我们了解了凸轮工艺对象的数据结构,以及如何通过编程设置点及线段的方法动态生成凸轮曲线。另外还可以使用LCamHdl库提供的功能块动态生成凸轮曲线。
引言:深度学习是近年机器学习领域的重大突破,有着广泛的应用前景。随着Google公开Google Brain计划,业界对深度学习的热情高涨。腾讯在深度学习领域持续投入,获得了实际落地的产出。我们准备了四篇文章,阐述深度学习的原理和在腾讯的实践,介绍腾讯深度学习平台Mariana,本文为第一篇。 深度学习(Deep Learning)是近年来机器学习领域的热点,在语音识别、图像识别等领域均取得了突破性进展。腾讯提供广泛的互联网服务,在2014年第一季度,即拥有3.96亿月活跃用户的微信,8.48亿月活跃用户的
当前人工智能领域最热门的技术,无疑是大数据+深度学习。实验环境下,深度学习的性能在语音识别、图象分类和检索、人脸识别、文字识别以及智能交通等领域,都大幅超过了传统的方法。但从商业化的角度来看,深度学习的应用才刚刚开始,挑战依然巨大。深度学习如何才能有用、好用,依然困扰许多企业和开发者。在9月24日下午的2015高性能计算用户大会 (HPCUF2015)深度学习分论坛上,来自 工业界和学术界的六位专家分享了深度学习技术在智能语音、搜索、广告、视觉分析、流量识别等不同领域的应用,以及为如何构建高性能计算平台来支
A10是一款通用的工作负载加速器,相比于上一代产品有显著的算力性能提升,全面适用于AI计算、视频编解码、图形图像处理、云游戏、云桌面等场景。
系统性能设计中的一个重要概念是阿姆达尔定律(Amdahl’s Law)。阿姆达尔定律是由吉恩·阿姆达尔(Gene Amdahl)在1967年提出的,用于评估系统性能提升的理论上限,特别是在考虑并行计算时。该定律表明,系统性能提升的潜力受到系统中可并行化部分的限制。
本文是腾讯深度学习系列文章的第二篇,聚焦于腾讯深度学习平台Mariana中深度神经网络DNN的多GPU数据并行框架。 深度神经网络(Deep Neural Networks, 简称DNN)是近年来机器学习领域中的研究热点[1][2],产生了广泛的应用。DNN具有深层结构、数千万参数需要学习,导致训练非常耗时。GPU有强大的计算能力,适合于加速深度神经网络训练。DNN的单机多GPU数据并行框架是Mariana的一部分,Mariana技术团队实现了数据并行技术加速DNN训练,提供公用算法简化实验过程。对微信
ChatGPT的推出,人工智能正式进入大模型时代。要训练一个chatgpt这样的大模型,需要分布式AI集群的支持。
近日,腾讯量子实验室、腾讯云高性能计算产品团队、北京龙讯旷腾科技有限公司和盐城工学院石林教授团队联合攻关,成功实现了百万硅原子超大规模体系的平面波精度第一性原理计算。该项工作由腾讯量子实验室牵头,基于龙讯旷腾公司的线性标度三维分块算法(LS3DF)以及腾讯云高性能计算集群产品完成。 一直以来,第一性原理计算作为研究材料物化性质的重要手段,对于新材料的发展具有重要意义。第一性原理计算从量子理论的基本原理出发,结合高性能计算系统的强大算力,通过数值迭代方法获取材料的物理或化学性质,为理解材料的性质、预测材
流水线技术是一种重要的计算机组成与设计中的性能提升技术。它将一个任务分解为多个子任务,每个子任务在流水线的不同阶段并行执行。这种设计可以显著提高计算机的工作效率和吞吐率。
如何继续提升速度?降低计算精度是比较直接的方法。2017 年以来,fp16 混合精度技术 [2] 获得了广泛应用。在对模型效果无损的前提下,将模型训练和推理的速度提升了 50% 以上。而为了维持模型效果,更低精度的方法(例如 int8)通常需要使用如下传统方案:
近年来,Transformer 已经成为了 NLP 和 CV 等领域的主流模型,但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在 2019 年 12 月和 2021 年 6 月分别推出了高效推理和训练引擎 LightSeq,大大加速了 Transformer 系列模型的训练和推理,也打通了 Transformer 从训练到推理的整个流程,极大优化了用户使用体验。最近,LightSeq 训练引擎相关论文[1],被录用难度极高的超算领域国际顶会 SC22 接收,得到了学术界的广泛认可!
同步和异步的本质区别是是否需要等待,比如一个方法在执行,必须等前面一个方法程执行完成,才可以执行,这就是同步。如果不需要等上一个方法执行完成,并行或者并发执行,这就是异步调用。
策划 | 赵钰莹 近日,快手和苏黎世理工宣布开源分布式训练框架 Bagua(八卦),相比于 PyTorch、TensorFlow 等现有深度学习开源框架仅针对系统层面进行优化,Bagua 突破了这一点,专门针对分布式场景设计了特定的优化算法,实现了算法和系统层面的联合优化,性能较同类提升 60%。 1研发背景 随着摩尔定律的失效,单个计算单元的能力已经远远无法满足数据的指数级增长。比如,快手每天上传的新视频超过千万条,即便训练简单的分类模型(比如 ResNet),使用单机单卡的算力,训练快手日内新增视频都需
深度学习中常常需要多GPU并行训练,而Nvidia的NCCL库NVIDIA/nccl(https://github.com/NVIDIA/nccl)在各大深度学习框架(Caffe/Tensorflow/Torch/Theano)的多卡并行中经常被使用,请问如何理解NCCL的原理以及特点? NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-gather, red
问题详情: 深度学习中常常需要多GPU并行训 练,而Nvidia的NCCL库NVIDIA/nccl(https://github.com/NVIDIA/nccl)在各大深度学习框架(Caffe/Tensorflow/Torch/Theano)的多卡并行中经常被使用,请问如何理解NCCL的原理以及特点? 回答: NCCL是Nvidia Collective multi-GPU Communication Library的简称,它是一个实现多GPU的collective communication通信(all-
本文是腾讯深度学习系列文章的第三篇,聚焦于腾讯深度学习平台Mariana中深度卷积神经网络Deep CNNs的多GPU模型并行和数据并行框架。 将深度卷积神经网络(Convolutional Neural Networks, 简称CNNs)用于图像识别在研究领域吸引着越来越多目光。由于卷积神经网络结构非常适合模型并行的训练,因此以模型并行+数据并行的方式来加速Deep CNNs训练,可预期取得较大收获。Deep CNNs的单机多GPU模型并行和数据并行框架是Mariana的一部分,Mariana技术团队
專 欄 ❈PytLab,Python 中文社区专栏作者。主要从事科学计算与高性能计算领域的应用,主要语言为Python,C,C++。熟悉数值算法(最优化方法,蒙特卡洛算法等)与并行化 算法(MPI,OpenMP等多线程以及多进程并行化)以及python优化方法,经常使用C++给python写扩展。 blog:http://ipytlab.com github:https://github.com/PytLab ❈ 前言 本文中作者使用MPI的Python接口mpi4py来将自己的遗传算法框架GAFT进行多
DPU芯片,跟之前的GPU、AI芯片最大的不同在于,DPU是集成多种领域加速于一体的集成加速平台。如果说GPU、AI加速芯片,是CPU+xPU单个异构计算的分离趋势,那么DPU的出现,则预示着,整个计算系统,在从单异构的分离逐渐走向多异构的融合。
基于 Transformer 结构的视觉语言大模型(VLM)在各种下游的视觉语言任务上取得了巨大成功,但由于其较长的输入序列和较多的参数,导致其相应的计算开销地提升,阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度,前人提出了一些针对 VLM 的加速方法,包括剪枝和蒸馏等,但是现有的这些方法大都采用静态架构,其针对不同输入实例采用同样的计算图进行推理,忽略了不同实例之间具有不同计算复杂性的事实:针对复杂的跨模态交互实例,自然需要更多计算才能完全理解图像和相关问题的复杂细节;相反,简单的实例则可以用更少的计算量解决。这也导致较高加速比下的 VLM 的性能严重下降。
领取专属 10元无门槛券
手把手带您无忧上云