Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Arm Mali-G77 GPU

Arm Mali-G77 GPU

作者头像
用户9732312
发布于 2022-05-13 12:42:36
发布于 2022-05-13 12:42:36
2.1K0
举报
文章被收录于专栏:ADAS性能优化ADAS性能优化

当Mali-G76相比,下一代Mali-G77设备将Arm的图形性能提高了40%。该数字考虑了流程以及体系结构方面的改进。Mali-G77可以配置7到16个着色器内核,每个内核的大小几乎与G76内核完全相同。这意味着高端智能手机可能会采用与今天相同的GPU核心数量。

看看广受欢迎的Manhattan GFXBench基准测试,性能提升40%可以为现代硬件带来相当大的优势。

在架构方面,游戏性能可提高20%至

40%,而机器学习可提高60%

一个10核心的Mali-G77(我们经常从华为那里看到的配置)看起来几乎可以超越这一代顶级移动图形硬件。三星Exynos中常见的12核配置为Arm的最新GPU带来了巨大优势。当然,真正的基准测试将取决于其他因素,包括进程节点,GPU缓存,LPDDR内存配置以及要测试的应用程序类型。

仅就新架构而言,Mali-G77的能效和性能密度平均提高了30%。得益于INT8点产品的支持,机器学习应用程序也获得了60%的巨大提升,游戏性能预期提高20%至40%。

为了确切地了解Arm如何实现这种性能提升,让我们更深入地研究架构。

Bifrost的继任者Valhall

Vahall是Arm的第二代标量GPU架构。它是一个16宽warp执行引擎,从本质上讲意味着GPU每个周期,每个处理单元,每个内核并行执行16条指令。比Bifrost的4和8宽高。

其他新的体系结构功能包括完全由硬件管理的动态指令调度,以及与Bifrost保持等效的全新指令集。其他功能包括对Arm的AFBC1.3压缩格式,FP16渲染目标,分层渲染和顶点着色器输出的支持。

Mali-G77的并行数学运算量比G76多33%

通过检查核心内部的执行单元,可以找到理解主要架构更改的关键。GPU的这一部分负责数字处理。

在Bifrost中,每个GPU内核包含三个执行引擎,对于某些较低端的Mali-G52设计,则包含两个。每个引擎都包含一个 i-cache,寄存器文件和控制单元。在Mali-G72中,每个引擎每个循环处理4条指令,在去年的Mali-G76中增加到8条指令。分布在这三个内核上的每个周期允许12和24个32位浮点(FP32)融合乘法累加(FMA)指令。

使用Valhall和Mali-G77,每个GPU内核内部只有一个执行引擎。与以前一样,该引擎包含了控制单元,寄存器和 i-cache,现在它们在两个处理单元之间共享。每个处理单元每个周期处理16条翘曲指令,每个内核的总吞吐量为32 FP32 FMA指令。与Mali-G76相比,指令吞吐量提高了33%。

Arm已经从每个GPU内核的三个执行单元过渡到只有一个执行单元,但是G77内核现在有两个处理单元。

此外,每个处理单元都包含两个新的数学功能块。新的转换单元(CVT)处理基本的整数,逻辑,分支和转换指令。特殊功能单元(SFU)加速了整数乘法,除法,平方根,对数以及其他复杂的整数函数。

标准FMA单元进行了一些调整,每个周期支持16条FP32指令,32条FP16或64条INT8点积指令。这些优化使机器学习应用程序的性能提高了60%。

Mali-G77的另一个关键变化是引入了四重纹理映射器,这是上一代产品中的双重纹理映射器的基础。纹理映射器负责将场景中的3D多边形映射到您在屏幕上看到的2D表示形式。它负责采样,内插和滤波,以平滑成角度的和移动的内容,从而避免出现粗糙的低质量边缘。

低成本的抗锯齿功能仍然存在,可以提高图像质量,但是纹理性能加倍是这里的主要优点。现在,纹理单元每个时钟处理4个双线性纹理元素,以前每个时钟处理2个三线性纹理元素,并且处理更快的FP16和FP32过滤。

四重纹理映射器分为两个路径,为命中缓存中内容的线程提供了较短的管道。Miss路径用于处理格式转换和纹理解压缩,具有更广泛的L2缓存接口。这对于可能经常需要从内存中提取新数据的机器学习工作负载也很有帮助。

将所有东西集中在Mali-G77中

Arm对Mali-G77进行了许多其他调整,以适应Valhall架构的重大变化。借助单一执行单元设计,简化了控制块,而内部动态调度程序实际上允许在每个内核内部发出更灵活的指令。每个内核具有更高的吞吐量,数据路径也更短,等待时间更短,从以前的8个周期减少到只有4个周期。

新设计还可以更好地与Vulkan API保持一致,从而简化了驱动程序描述符,从而降低了驱动程序开销,从而提高了“从金属到金属”的性能。

总之,Mali-G72和Valhall对Bifrost进行了重要更改,从而有望显着提高游戏和机器学习应用程序的性能。重要的是,该设计适合与Bifrost相同的功率和面积预算,从而确保移动设备将能够提供更多的峰值性能,而无需担心热量,功率和硅片成本。根据性能预测,Mali-G77应该能够使高通的下一代Adreno物有所值。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-03-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Android性能优化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
GPU 渲染管线和硬件架构浅谈
作者:landonwang,腾讯 IEG 客户端开发工程师 本文简述了 GPU 的渲染管线和硬件架构,对一些常见问题进行了讨论和分析。特此分享出来,与君共勉。当然,由于本人并未从事过硬件开发的工作,文中有错漏之处在所难免,欢迎批评指正。另外本文内容量很大,总结下来有以下几点核心内容:(1)移动平台渲染管线 TBDR 的介绍; (2)GPU 缓存体系的介绍;(3)Warp 的执行机制;(4)常见的如 AlphaTest 或者分支对性能的影响。 序言 联发科的工程师团队在对我们游戏进行了性能分析之后,建议我们将
腾讯技术工程官方号
2022/06/07
11.2K1
GPU 渲染管线和硬件架构浅谈
ARM Mali GPU | G710、G610、G510、G310
G710、G510、G310分别定位旗舰、主流、入门级市场,依次取代现有的G78、G57、G31。
数字芯片社区
2022/04/06
13.5K0
ARM Mali GPU | G710、G610、G510、G310
Arm GPU Mali简介
因为华为项目的原因,最近开始了解Arm 的 GPU,也就是Mali。Mali的主要架构有两个,上一代架构是Midgard,新一代架构是Bifrost,这两个名字均出自北欧神话,一个是人间,一个是连接人间和神域的彩虹桥。这里主要介绍最近架构Bifrost的架构。
用户1148523
2019/05/26
3.1K0
【AI系统】Tensor Core 基本原理
在英伟达的通用 GPU 架构中,主要存在三种核心类型:CUDA Core、Tensor Core 以及 RT Core。其中,Tensor Core 扮演着极其关键的角色。
用户11307734
2024/11/27
1.1K0
【AI系统】GPU 架构与 CUDA 关系
本文会讲解英伟达 GPU 硬件的基础概念,其次会讲解 CUDA(Compute Unified Device Architecture)并行计算平台和编程模型,详细讲解 CUDA 线程层次结构,最后将讲解 GPU 的算力是如何计算的,这将有助于计算大模型的算力峰值和算力利用率。
用户11307734
2024/11/27
5240
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
在图形处理器(GPU)领域,英伟达、AMD 和英特尔占据主导地位已有一段时间了。虽然中国还有其他相关企业,但他们要打入美国市场一直以来都困难重重。
深度学习与Python
2025/03/24
1200
老黄 5090 都被初创公司虐了?印度 CEO 用 20 人团队让芯片快10 倍、功耗大砍近 80%!网友:等英伟达收购
深度分析NVIDIA A100显卡架构(附论文&源码下载)
基于安培体系结构的NVIDIA A100 GPU是为了从其许多新的体系结构特征和优化中提供尽可能多的AI和HPC计算能力而设计的。在台积电7nm N7 FinFET制造工艺上,A100提供了比Tesla V100中使用的12nm FFN工艺更高的晶体管密度、更好的性能和更好的功率效率。一种新的Multi-Instance GPU(MIG)能为多租户和虚拟化GPU环境提供了增强的客户端/应用程序故障隔离和QoS,这对云服务提供商特别有利。一个更快和更强的错误抗力的第三代NVIDIA的NVLink互连提供了改进的多GPU性能缩放的超尺度数据中心。
计算机视觉研究院
2020/07/16
3.4K0
深度分析NVIDIA A100显卡架构(附论文&源码下载)
【AI系统】GPU 架构回顾(从2018年-2024年)
2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的专门执行单元,深度学习计算核心)、CUDA 和 CuDNN 库的不断改进,更好地应用于深度学习推理。RT Core(Ray Tracing Core)提供实时的光线跟踪渲染,包括具有物理上精确的投影、反射和折射,更逼真的渲染物体和环境。支持 GDDR6 内存,与 GDDR5 内存相比,拥有 14 Gbps 传输速率,实现了 20%的的效率提升。NVLink2.0 支持 100 GB/s 双向带宽,使特定的工作负载能够有效地跨两个 GPU 进行分割并共享内存。
用户11307734
2024/11/27
4110
ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
去年5月,Arm发布了第一代基于64位ARMv9指令集的处理器IP:超大核心Cortex-X2、高性能大核心Cortex-A710,高能效小核心Cortex-A510。同时,Arm还发布了三款Mali GPU IP——ARM Mali GPU | G710、G610、G510、G310。
数字芯片社区
2022/09/19
2.1K0
ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
三星展示8纳米芯片Exynos 9820,在单核任务中速度提高20%
三星展示了其最新的旗舰系统的芯片Exynos 9820。在系列产品中,最新的八核芯片包含一个经过改进的神经处理单元(NPU),用于设备上的AI应用,第四代定制处理器和LTE高级调制解调器,下行速率提升到每秒2.0千兆位(Gbps)。
AiTechYun
2018/12/13
6380
三星展示8纳米芯片Exynos 9820,在单核任务中速度提高20%
ARM:让Mali带来更极致的移动VR体验
在由Nibiru承办的2016年“N+虚拟现实高峰论坛暨交易会”上,ARM生态关系开发者经理李陈鲁发表了主题为“Enabling Mobile Virtual Reality with ARM Mal
镁客网
2018/05/29
6280
发掘 ARM GPU 的全部深度学习性能,TVM 优化带来高达 2 倍性能提升
本文是由来自上海交通大学 Apex 实验室的本科生 Lianmin Zheng 发表于 TVM 的一篇博客,文中阐述了如何使用 TVM 优化移动端上的 ARM GPU 的深度学习。 AI 研习社对原文
AI研习社
2018/03/16
3.4K0
发掘 ARM GPU 的全部深度学习性能,TVM 优化带来高达 2 倍性能提升
英伟达Tensor Core架构技术原理
英伟达的Tensor Core架构是一种专为加速人工智能、深度学习、高性能计算(HPC)等领域中的矩阵运算和张量运算而设计的硬件单元。自首次在Volta架构中引入以来,Tensor Cores已成为NVIDIA高端GPU的核心特性,并在后续的Turing、Ampere及之后的架构中持续进化。
用户7353950
2024/06/06
7660
英伟达Tensor Core架构技术原理
【AI系统】GPU 架构回顾(从2010年-2017年)
1999 年,英伟达发明了 GPU(graphics processing unit),本文将介绍英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构,时间跨度从 2010 年至 2024 年,具体包括费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡(Pashcal)、伏特(Volt)、图灵(Turing)、安培(Ampere)和赫柏(Hopper)和布莱克韦尔(Blackwell)架构。经过 15 年的发展,CUDA 已成为英伟达的技术“护城河”,Tensor Core5.0,NVLink5.0,NVswitch4.0,Transformer Engine2.0 等技术迭代更新,正如英伟达公司官方宣传语所言:“人工智能计算领域的领导者,推动了 AI、HPC、游戏、创意设计、自动驾驶汽车和机器人开发领域的进步。”
用户11307734
2024/11/27
3460
【AI系统】Tensor Core 深度剖析
Tensor Core 是用于加速深度学习计算的关键技术,其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作,Tensor Core 能够在较短的时间内完成大量矩阵运算,从而显著加快神经网络模型的训练和推断过程。具体来说,Tensor Core 采用半精度(FP16)作为输入和输出,并利用全精度(FP32)进行存储中间结果计算,以确保计算精度的同时最大限度地提高计算效率。
用户11307734
2024/11/27
4620
业界 | ARM推出新一代移动端CPU和GPU:提升机器学习效率
选自anandtech 机器之心编译 参与:吴攀、蒋思源 在 PC 制造商展示最新和最好的英特尔 CPU 计算机的 2017 台北国际电脑展(Computex Taipei 2017)举办期间,其移动端的竞争对手 ARM 在另一个地方制造了一个大新闻:推出了新一代 ARM CPU 和 GPU。ARM 官方宣布 Cortex-A75 是其新的旗舰级移动处理器设计;据称这款芯片相比于当前的 A73 有 22% 的性能提升。与其一起发布的还有新的 Cortex-55(其功率效率超过了 ARM 之前设计的所有中端
机器之心
2018/05/07
1K0
业界 | ARM推出新一代移动端CPU和GPU:提升机器学习效率
深度 | 英伟达深度学习Tensor Core全面解析
AI 科技评论消息,不久前,NVIDIA在SIGGRAPH 2018上正式发布了新一代GPU架构——Turing(图灵),黄仁勋称Turing架构是自2006年CUDA GPU发明以来最大的飞跃。Turing架构的两大重要特性便是集成了用于光线追踪的RT Core以及用于AI计算的Tensor Core,使其成为了全球首款支持实时光线追踪的GPU。
AI科技评论
2018/09/21
4.1K0
深度 | 英伟达深度学习Tensor Core全面解析
十大机器智能新型芯片:华为抢占一席,Google占比最多
当年,阿基米德爷爷说出“给我一个支点,我就能撬动地球”这句话时,估计没少遭受嘲讽。
AI科技大本营
2019/10/10
7460
十大机器智能新型芯片:华为抢占一席,Google占比最多
英伟达 GPU 十年架构演进史
作者:tomoyazhang,腾讯 PCG 后台开发工程师 随着软件从 1.0 进化到 2.0,也即从图灵机演进到类深度学习算法。计算用的硬件也在加速从 CPU 到 GPU 等迁移。本文试图整理从英伟达 2010 年开始,到 2020 年这十年间的架构演进历史。 CPU and GPU 我们先对 GPU 有一个直观的认识,如下图: 众所周知,由于存储器的发展慢于处理器,在 CPU 上发展出了多级高速缓存的结构,如上面左图所示。而在 GPU 中,也存在类似的多级高速缓存结构。只是相比 CPU,GPU
腾讯大讲堂
2021/10/20
4.1K0
详解高通骁龙X处理器:Oryon CPU和Adreno X1 GPU有何优势?
在近 8 个月前该公司在最近的 Snapdragon 峰会上首次详细介绍了 SoC,并在随后的几个月中多次披露了性能后,Snapdragon X Elite 和 Snapdragon X Plus 的发布即将到来。这些芯片已经发往高通的笔记本电脑合作伙伴,首批笔记本电脑将于下周发货。
芯智讯
2024/06/18
3.2K0
详解高通骁龙X处理器:Oryon CPU和Adreno X1 GPU有何优势?
推荐阅读
相关推荐
GPU 渲染管线和硬件架构浅谈
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档