Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ARM专家深度谈丨十年巨变,那些改变GPU的关键技术和未来挑战趋势!

ARM专家深度谈丨十年巨变,那些改变GPU的关键技术和未来挑战趋势!

作者头像
用户9732312
发布于 2022-05-13 10:52:01
发布于 2022-05-13 10:52:01
7930
举报
文章被收录于专栏:ADAS性能优化ADAS性能优化

2006年,图形处理器(GPU)总出货量约为1.35亿。同年,ARM 完成对挪威Falanx公司的收购,并获得其移动GPU技术,完成对原有IP技术的扩展。10年后的今天,GPU已经广泛用于智能手机、DTV和平板电脑等多种设备,短短10年时间ARM Mali技术也已成为全球出货量第一的GPU,仅2015年总计出货量就超过7.5亿。

GPU爆炸式发展背后的深层原因是什么?基于GPU技术发展有哪些最新的案例应用呢?智能手机设计的挑战与趋势又是什么?且听ARM技术专家娓娓道来。

API与制程节点开发

对图形领域而言,2015年振奋人心全新应用程序接口(API)的出现允许开发商将基础图形硬件发挥至技术允许的最高水平。

同年,Khronos团队的工作引发有关Vulkan的热烈讨论。Vulkan是新一代OpenGL API,为新一代图形API设计量身打造,足以满足全部需求,并彻底终结了OpenGL ES和OpenGL作为API各自为政的时代。

Vulkan于2016年2月正式发布,是首款按照开发商需求设计的Khronos API。它由游戏引擎开发商、芯片提供商、IP公司和操作系统供应商共同开发,以期打造兼顾各相关方需求的最佳解决方案。Vulkan API应运而生,采用全新异构系统,不仅内置多线程支持,而且可以最大程度发挥硬件一致性的优势。Vulkan属于底层API,允许开发商自主决定硬件交互方式,并通过底层接入以找到最佳平衡点。

上述特性对虚拟现实(VR)等新兴应用尤为重要,帮助开放商减少延迟,优化图形流水线。

对聚焦GPU运算应用的开发商来说,OpenCL 2的发布是一个重要节点,多项全新理念进一步简化了高性能GPGPU(General Purpose GPU,即通用计算图形处理器)应用的开发流程。虚拟存储共享概念的提出可以说最为关键,允许CPU和GPU之间的虚拟地址共享。与硬件一致性结合后,细粒度缓冲器共享成为现实。该技术简化了实现CPU和GPU工作负载共享所需的开发工作,因为两者间的数据双向传输不再是必要条件。

半导体制造工艺也经历了巨大革新。2014年,台积电与三星推出20纳米工艺节点,标志着平面工艺节点的10年历史终于落幕;2015年,三星在Exynos 7420上使用全新14纳米FinFet技术,台积电紧随其后,推出16纳米FinFet工艺,并搭载于苹果A9芯片;2016年,工艺节点获得进一步完善,成本降低,产量增加;步入2017年, 10纳米工艺节点也不再是梦想。

从GPU的角度看,工艺节点技术的进步对整个行业意义非凡。首先,工艺节点越先进,单位区域(或功耗)的晶体管密度就越大。GPU属于并行处理器,只要架构扩展,性能就会随之提升。然而,先进工艺节点对布线的扩展效果不如晶体管。恰恰相反,Ergo 工艺制程从28纳米优化至14纳米,SoC设计师得以实现更高的晶体管密度,但却不如布线的扩展。这意味着,如果设计10纳米GPU时采用与28纳米同样的方法,设计结果必然会打折扣,因为晶体管和布线各有权衡,不尽相同。设计师常常需要妥协,使IP适应某个节点,这种权衡随着先进工艺节点数量的增加变得愈加重要。

深入探讨高端移动GPU的性能如何继续提高之前,我们需要特别指出GPU性能从2011年到2016年提升了20倍这个有趣的事实。由于手机同时变得更加轻薄,因此该数字并不能代表技术进步的全景,但现代移动设备开发商对性能提升的渴求已经可见一斑。

移动设备开发商不断完善现有用例,开发颠覆性的新用例,以保持创新节奏,并从新一轮的性能升级中获益。

丰富的案例开发,这些应用你体验过吗?

随着移动平台的发展,各类传感器层出不穷。凭借飞速提升的系统性能、不断改善的屏幕精度和日益增加的电池寿命,移动设备开发商已经坐拥创新的最佳平台。

增强现实(AR)可以充分挖掘并展现智能手机的强劲性能。AR的原理并不复杂,利用高级摄像头捕捉图像,经过CPU、GPU、ISP、VPU和DPU,最后显示在高清屏幕上。这个过程中,增强内容将覆盖实际影像。根据应用目标的不同,物体识别、方位补偿(使用电子罗盘和/或加速度计)或高级渲染技术都将各有用武之地。

一些人气移动应用让AR不再远在天边,并一举进军大众市场,比如将滤镜叠加在用户脸部,然后生成图片和视频用于分享的Snapchat;以及让用户在真实地点看到动画人物的Pokemon Go。无独有偶,还有一些应用采取了更高级的AR技术,比如将摄像头捕捉与3D物体相结合。这些创新用例层出不穷,并可以用于包括零售和高端游戏在内的各行各业。举个例子,用户可以使用移动设备查看家具是否与硬装搭配,家具巨头宜家就打算在2017年发布AR产品目录。

虚拟现实已经不算新理念了,但其核心技术却仍在经历巨变。硬件设备已经万事俱备,拥有足够强大的性能运行炫目的VR内容,一个适合创新的大规模开发商生态系统也已经形成。这一点在移动平台的体现格外深刻,因为人人都能用,且其移动性自身便是重要优势。与台式机和游戏机不同,移动设备无拘无束。当然,实现这一点需要在设备上安装各类传感器。实际上,VR领域的许多重大突破都是在移动设备上实现的——利用VR技术增强用户体验的云霄飞车就是高性能移动应用的一个典型案例。

尽管推陈出新的颠覆式应用不断刷新智能手机的使用方式,但我们经常会忘记一点现实,最普遍的移动应用情景依然是网页浏览和游戏。近几年,屏幕分辨率和刷新率都得到提升,用户界面(UI)的视觉效果和使用体验也越来越自然。这些优化对GPU提出了更高要求,成为成本导向型市场不小的挑战。

移动设备已经成为最主要的游戏平台,由于移动游戏的便捷性,玩家人数持续增加,并进一步推动游戏数量的上升。从免费的独立游戏到数百万美元投资的工作室游戏,现代玩家有丰富的游戏类型、价格和质量等级可供选择。随着可选游戏数量的上升,视觉效果也得到显著改善。GPU刚刚引入移动设备时,3D游戏简单粗暴,不堪入目。而现在呢?游戏画面丰富多彩,景色怡人,动态感十足,在上一代的手柄游戏机时代都是前所未闻的。

上图是ARM演示团队制作的三张示意图。我们先来看看相对简单(以今天的标准)的3D内容,演示游戏为2010年推出的True Force,运行于2011年款的Galaxy S2。每帧图元16k,片段处理每像素时钟周期3.7次,基于OpenGL ES 2.0。

3年后的2013年,OpenGL ES 3.0正式推出,改善了GPU 对GPU运算的支持(并不是OpenGL ES 3.0 API的主打特色,而随OpenGL ES 3.1正式推出);允许开发商使用更多高级渲染技术。结合基础硬件后,视觉质量显著提升。将Trollheim演示与TrueForce比较一下便可一目了然,前者的复杂性比后者高了不少。TrueForce的每帧图元为16k,而Trollheim为150k,TrueForce的片段处理每像素时钟周期为3.7次,而Trollheim则为16次。

2016年,Vulkan正式推出,API效率大幅提高,与OpenGL ES相比能够以更低的开销帮助开发商更好地发挥硬件性能。当然,硬件本身也快速发展,比较一下Lofoten和Trollheim演示,我们即可清楚地看到复杂度的提升:每帧图元提高了300%,片段复杂度提高了150%。

智能手机设计的挑战与趋势

使用场景的变化仅是一个方面,移动设备本身也经历大幅升级。智能手机市场最初主打旗舰机型,随着智能化程度的不断提高,很多 PC特性已经可以实现,但通讯依旧是其主要功能。然而,过去短短几年间,智能手机用途不断扩展,打电话已不再是智能手机的主要功能,图像显示成为了关注焦点。

过去,手机电池寿命一般用单次充电支持的通话时长来衡量,而现在的标准则是网络浏览或高端游戏的续航时间,GPU与显示性能一起备受关注。用户希望体验更高质量的视觉效果,到目前为止,这一目标都是经由智能手机设计改善,以及显示内容的美感和流畅性来实现,一个证据就是屏幕边框变得越来越窄。市场的大致趋势是朝着屏幕包裹设备的方向发展,设计美感更多由UI而非硬件来实现。下图中,我们可以看出屏幕占整个设备的比例不断增加。这一趋势在三星Galaxy S7 Edge等机型上体现得尤为明显,已经实现屏幕对设备的全包裹。

除了打电话,现代智能手机还能提供极为丰富的功能,如邮件、社交媒体、导航定位、支付、浏览网页、游戏、拍照和视频等等。用户在期待功能升级的同时,也希望电池寿命不断延长。但是,即便使用当前所有最先进的技术,智能手机的电池容量还是要不断增大,具体变化趋势见下图。

除了电池容量变大,智能手机还变得越来越薄。一些机型的厚度甚至已经达到了7毫米以下,考虑到现代智能手机的技术含量,如此纤薄实在令人惊讶。

这样的发展方向并非完全没有弊端。屏幕增大导致电池尺寸变大,机身变薄,设备散热能力下降,因为屏幕的散热效率不如金属机身。此外,机身变薄后,用以散热的表面积也会减少。现代高端智能手机的性能上限很大程度上被散热能力牵制,如何保证机身内部元器件不因为高温而受损则因此成为另一大挑战。

现代智能手机装有多种耗电发热的核心元件,如摄像头子系统、屏幕、调制解调器、Wi-Fi、非易失性存储器、DRAM和主芯片本身(包括CPU、GPU和其他处理器)。因为总功耗一致,所以其中任何一个元件功耗的减少,都可以增加其他元件可以使用的配额,这也是系统功耗配比由用例决定的原因。

现代GPU非常复杂,严重依赖CPU运行驱动程序,以实现基于软件与应用程序进行交互。多亏了Vulkan这样的现代API,驱动程序的开销下降了,但是CPU依然需要运行驱动程序,所以不能完全避免耗电。由于所有元件功耗预算共享,因此在CPU中使用的、用于GPU交互的功耗就是不能应用于GPU本身的功耗。基于上述原因,降低CPU功耗势在必行,不仅是为GPU发展扫清瓶颈,更是要为尽可能的提高GPU可用功耗铺平道路。

与之类似,在运行复杂3D游戏的现代系统中,GPU会消耗大量DRAM带宽。由于要处理大量数据(上述提及的Lofoten每帧处理600,000个三角),消耗带宽责无旁贷,但DRAM的读写本身就是耗电的过程,也需要占用系统的总功耗预算。减少DRAM带宽可以降低其功耗,并用于其他元件。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Android性能优化 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
SoC的发展趋势
硅基科技的核心就是电子元件的演变,特别是它们如何集成和互连。这些技术创新中最具突破性的创新之一是System-on-a-Chip(SoC)。要充分掌握SoC发展的意义,必须探索其起源、演变及其对当今科技格局的影响。
AsicWonder
2024/04/01
3790
SoC的发展趋势
苹果A15能征服原神?我劝你还不如买个散热背夹
苹果官网中文版的产品介绍里,还特意用了大家喜闻乐见的玩原神来演示A15仿生芯片出色的图形性能。
量子位
2021/09/29
9490
Inside Apple’s A13 Bionic system-on-chip
苹果始终使用最好的制造工艺来生产其芯片(几乎一直是台积电)。A13 Bionic也不例外。它是最早使用台积电第二代7纳米新工艺的公司之一。它类似于去年在A12 Bionic和AMD Ryzen 3000系列等处理器中使用的7nm工艺。
用户9732312
2022/05/13
4630
Inside Apple’s A13 Bionic system-on-chip
深度学习落地移动端——Q音探歌实践(一)
1.摘要 Q音探歌是QQ音乐孵化的一款全新APP,主打高效、准确的“听歌识曲”,“扫描识别MV”功能,这些服务的实现离不开深度学习能力。把深度学习推断带到边缘设备( inference on the edge ),可以减少计算时间,改善用户体验,但是也面临着种种挑战。我们希望本文提供的观察、见解和我们针对不同平台的设计原则能够帮助大家更好地设计和评估移动端的深度学习推断。 2.介绍 2.1深度学习的边缘化发展的机遇 越来越多的服务会使用到深度学习的能力,例如给用户聚类、识别动作与跟踪、语音识别等等。尽管所有
QQ音乐技术团队
2023/03/01
1.8K0
深度学习落地移动端——Q音探歌实践(一)
【ARM攒机指南——AI篇】5大千万级设备市场技术拆解
作者:重走此间路 编辑:闻菲 【新智元导读】单做算法无法挣钱,越来越多的公司都开始将核心算法芯片化争取更多市场和更大利益,一时间涌现出AI芯片无数。与CPU,GPU这样的通用芯片不同,终端AI芯片往往针对具体应用,能耗规格也千差万别。本文立足技术分析趋势,总结深度学习最有可能落地的5大主流终端市场——个人终端(手机,平板),监控,家庭,机器人和无人机,汽车,以及这些终端市场AI芯片的现状及未来。小标题以及着重部分是新智元转载时编辑增加,点击“阅读原文”了解更多。 近一年各种深度学习平台和硬件层出不穷,各种x
新智元
2018/03/20
1.2K0
【ARM攒机指南——AI篇】5大千万级设备市场技术拆解
高通骁龙8295芯片及第六代Kryo架构
高通骁龙8295芯片,作为高通第四代汽车数字座舱平台的旗舰产品,凭借先进的5纳米制程工艺,在智能汽车领域树立了新标杆。这款芯片集成了强大的AI处理能力,算力高达30TOPS(8295P更是达到60TOPS),远超市面上众多竞品,为自动驾驶辅助、智能交互体验奠定了坚实基础。其GPU和CPU性能的显著提升,确保了流畅的多屏显示和复杂图形处理需求,能够在单一芯片上驱动多达11块屏幕,重新定义了未来座舱的沉浸式体验。加之增强的安全特性、高效的连接技术和对最新无线标准的支持,骁龙8295正引领着汽车智能化转型的浪潮,成为众多高端车型及创新品牌首选的智能核心。
用户7353950
2024/07/05
1.8K0
高通骁龙8295芯片及第六代Kryo架构
《SOC芯片研究框架》深度科普,发展趋势、技术特点、产业链一文看懂
片上系统SoC(System on Chip),即在一块芯片上集成一整个信息处理系统,简单来说 SoC芯片是在中央处理器CPU的基础上扩展音视频功能和专用接口的超大规模集成电路,是智能设备的“大脑”。随着半导体工艺的发展,传统MCU已经不能完全满足智能终端的需求,SoC应运而生,凭借其性能强、功耗低、灵活度高的特点,使单芯片能够完成完整的电子系统。SoC在移动计算(例如智能手机和平板电脑)和边缘计算市场中非常普遍。它们也常用于嵌入式系统,如WiFi路由器和物联网。
天天Lotay
2023/02/16
2.7K0
《SOC芯片研究框架》深度科普,发展趋势、技术特点、产业链一文看懂
Arm最强CPU及GPU内核发布:联发科天玑9400将首发!
5月30日消息,当地时间周三,Arm在其全面计算解决方案(CSS)取得成功的基础上,正式发布了首款面向客户端产品的 Arm 计算子系统 ——CSS for Client,以及新的 Arm Kleidi 软件,大大简化了运行 Android、Linux 和 Windows 的台式机、笔记本电脑、平板电脑处理器的开发和人工智能(AI)的部署。
芯智讯
2024/06/07
1.3K0
Arm最强CPU及GPU内核发布:联发科天玑9400将首发!
【摩尔定律】
摩尔定律曾驱动信息革命60年,如今虽面临物理极限,但其精神(持续追求更高性能与更低成本)仍是技术进步的底层逻辑。后摩尔时代,人类将通过材料、架构和算法的协同突破,继续拓展计算的边界
用户11288949
2025/04/27
1680
ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
去年5月,Arm发布了第一代基于64位ARMv9指令集的处理器IP:超大核心Cortex-X2、高性能大核心Cortex-A710,高能效小核心Cortex-A510。同时,Arm还发布了三款Mali GPU IP——ARM Mali GPU | G710、G610、G510、G310。
数字芯片社区
2022/09/19
2.1K0
ARM CPU Cortex-X3,Cortex-A715,Cortex-A510 | GPU Immortalis-G715
英特尔公布了全新3D堆叠技术,10纳米芯片即将推出
英特尔公开了新的3D封装技术Foveros,可以让芯片制造商捆绑各种垂直芯片组件,从而提高设备的速度,而无需等待新的芯片制造工艺成熟。换句话说,通过Foveros,英特尔将能够将各种芯片叠加在一起,包括CPU,内存和其他芯片,而无需担心各自的底层制造技术。
AiTechYun
2018/12/27
4640
英特尔公布了全新3D堆叠技术,10纳米芯片即将推出
大揭秘!瑞芯微RK3568对比RK3399性能解析
RK3568核心板是武汉万象奥科基于瑞芯微Rockchip的RK3568设计的一款高性能核心板。它采用四核Cortex-A55架构,最高主频可达2.0GHz,同时集成Mali-G52 2EE GPU,支持4K@60fps H.265/H.264/VP9解码和4K@60fps H.265/H.264编码。此外,RK3568支持多种接口,包括USB 3.0、PCIe 2.0、Gigabit Ethernet、MIPI-CSI、MIPI-DSI等。
武汉万象奥科
2023/04/20
2.8K0
大揭秘!瑞芯微RK3568对比RK3399性能解析
计算机科学:微软系统芯片 (Microsoft SoC) 探讨
近年来,随着硬件技术的飞速发展,系统芯片 (System on Chip, SoC) 成为了推动各类智能设备性能提升的关键技术。微软作为全球科技巨头,积极投身于SoC的研发,以期在移动设备、游戏主机和数据中心等领域取得突破。接下来将详细探讨微软在SoC方面的进展及其对行业的影响。
运维开发王义杰
2024/06/25
2760
计算机科学:微软系统芯片 (Microsoft SoC) 探讨
SoC设计流程关键技术及应用案例
SoC设计是高度复杂的多学科交叉领域,它要求设计师具备深厚的硬件知识、软件能力以及对系统级需求的深刻理解。随着摩尔定律的推进,SoC的设计难度和成本也在不断攀升。因此,选择合适的工具和技术至关重要。
用户7353950
2024/11/23
2590
SoC设计流程关键技术及应用案例
M1空降“双芯”成员,MacStudio突破性能天花板!苹果还用iPadAir拿捏了性价比
大数据文摘出品 作者:Caleb 来了,背负着无数果粉的期待,那个男人又来了! 美国东部时间3月8日下午1点,苹果召开2022年春季发布会,不同于以往春季发布会只会做一些常规更新,早在发布会开始之前就传出了新iPhone SE、新iPad Air和新Mac,甚至是新的独立显示器。 种种传言都让这场发布会充满了悬念和看点。 随着发布会的推进,上述信息也逐一得到验证:搭载了A15处理器的iPhone SE,全新苍岭绿iPhone 13,搭载了M1处理器的史上最强iPad Air和它的基佬紫配色…… 还远远不
大数据文摘
2022/03/09
1.1K0
CPU被「卡脖子」,中国企业纷纷换赛道:国产GPU这条路能走通吗?
根据技术市场研究机构Jon Peddie Research的一份新报告,中国的GPU初创企业数量非同寻常,因为该国试图获得人工智能的优势以及半导体主权。
新智元
2023/01/09
1.1K0
CPU被「卡脖子」,中国企业纷纷换赛道:国产GPU这条路能走通吗?
Arm推出全新Mali多媒体套件,想让机器学习进入中低端智能手机
如果把AI终端设备市场比作一个舞台,那Arm就是真正的幕后指导者。 采用出售知识产权(IP)的运营方式,Arm设计了全球95%的智能手机的芯片架构,其中不乏苹果、华为、小米、三星等知名手机厂商。很多人未闻其司,但已用其货。 昨天,Arm推出全新Mali多媒体套件,它可与基于DynamIQ的CPU和其他Arm IP无缝集成,帮助实现新一代针对主流移动设备和数字电视(DTV)的解决方案。 这套产品具体包括实现机器学习功能的G52和G31 GPU、旗下最高效的显示处理器D51和实现4k60 / 4k120内容的视
量子位
2018/03/20
8100
Arm推出全新Mali多媒体套件,想让机器学习进入中低端智能手机
Arm 发布移动端 v9 体系新架构,CPU、GPU、IP全囊括了
2021年5月25日晚,Arm发布了针对移动端的Armv9体系新架构,除了公布首款全面计算(Total Compute)解决方案,Arm还发布了首批基于Armv9 架构的Cortex-A CPU,为消费电子视觉体验而设计的Mali-G GPU系列,以及与之适配的系统 IP CoreLink 700。
AI科技大本营
2021/06/08
1.7K0
Arm 发布移动端 v9 体系新架构,CPU、GPU、IP全囊括了
从芯片到AI智能芯片,一文了解它的前世今生
作者 | 元宵大师,Python高级工程师,致力于推动人工智能、大数据分析在金融量化交易领域中的应用。欢迎大家关注我的个人公众号《元宵大师带你用Python量化交易》。
AI科技大本营
2019/07/30
1.1K0
为智能手机VR体验而生,ARM公布最新处理器架构
移动芯片巨头ARM最近公布了其最新的处理器架构,ARM Cortex-A73 中央处理器(CPU)和 ARM Mali-G71 图形处理器(GPU)。该架构主要面向中高端智能手机,为移动设备的VR体验
镁客网
2018/05/28
5720
推荐阅读
相关推荐
SoC的发展趋势
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档