首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

前沿芯片架构的变革上-HOTChip2023

芝能智芯出品

HotChip 2023给我们带来很多有意思的内容。近期会做一些摘录。

芯片企业正在借助不断演进和革命性技术,以在功耗相同或更低的情况下显著提高性能,这标志着从制造驱动设计到半导体架构师驱动设计的根本性转变。

●  计算任务改变对计算架构的需求

过去大多数芯片只包含一到两项先进技术,主要是为了跟上每隔几年新工艺节点的光刻技术改进,是根据行业路线图进行的,要求在未来能够获得可预测但不显著的收益。随着大型语言模型和传感器数据的爆炸式增长,以及自行设计芯片的系统公司之间的竞争加剧,以及国际竞争在人工智能领域不断激烈,芯片设计的规则正在发生重大变化。

渐进式改进与性能的巨大飞跃相结合,虽然这些改进将计算和分析能力提升到全新水平,但也需要全新的权衡考虑。这些变革的核心在于高度定制的芯片架构,芯片是在最先进的工艺节点开发的。并行处理变得几乎是必然的,加速器用于特定数据类型和操作。在某些情况下,这些微型系统可能不会商业销售,因为它们为数据中心提供了竞争优势。

也可能包括其他商业技术,如处理核心、加速器、减少延迟的内存内或近内存计算技术,以及不同的缓存策略、共同封装的光学器件和更快速的互连。其中许多进展多年来一直处于研究或搁置状态,现在正在全面部署。

在最近的Hot Chips 2023会议上,谷歌研究院的工程研究员兼机器学习系统副总裁Amin Vahdat指出,现在的芯片可以解决十年前无法想象的问题,机器学习正在承担越来越多的任务。需要改变对系统设计的看法。过去五、六、七年中计算需求的增长令人震惊...虽然在[算法]稀疏性方面出现了许多创新,10倍每个模型的参数数量持续一年。计算成本随着参数数量的增加而超线性增长。必须构建一种不同的计算基础设施来应对这一挑战。值得注意的是,如果尝试在通用计算上做到这一点,就不会取得今天的成就,在过去50或60年间开发的传统计算智慧已被抛弃。”

旧问题并没有解决,功耗和散热一直是设计团队头疼的问题,并且随着处理速度和数量的增加,问题变得更加难以解决。在大约3GHz之后,由于热密度更高且芯片无法散发热量,仅仅提高时钟频率就不再是一个简单的选择。虽然稀疏数据模型和软硬件协同设计提高了在各种处理元件上运行的软件效率,以及每个计算周期处理更多数据的能力,但不再需要转动一个旋钮来提高每瓦性能。随着数据的增加和架构创新的转变,这些经济学发生了巨大的变化,这一点在今年的Hot Chips会议上显而易见。

解决的办法包括内存中/近内存处理,以及更接近数据源的处理。移动大量数据需要大量的系统资源——带宽、电力和时间——这对计算有直接的经济影响。一般来说,收集和处理的大部分数据都是无用的。汽车或安全系统中的视频输入中的相关数据可能仅持续一两秒,而可能需要数小时的数据进行整理。对靠近源头的数据进行预处理,并使用人工智能来识别感兴趣的数据,意味着只需发送一小部分数据进行进一步处理和存储。

三星首席工程师Jin Hyun Kim表示:“大部分能源消耗来自移动数据。” 他指出了三种提高效率和提升绩效的解决方案:使用HBM进行内存处理,实现极高的带宽和功耗;使用LPDDR对需要高容量的低功耗设备进行内存处理;使用CXL进行近内存处理,以适中的成本实现极高的容量。

内存处理已经酝酿了很多年,直到最近才出现太大进展。大型语言模型已经极大地推动了这项技术的发展。大部分数据处理中的计算都是稀疏的,这意味着许多数值是零。利用这一点需要另一种类型的处理单元,这种处理单元要比通用计算单元快,也要节省能源。没有人会完全放弃通用处理器,在大部分的应用中具有多样性需求的硬件。

内存加速对于 AI/ML 的乘法累加 (MAC) 函数特别有用,因为需要快速处理的数据量呈爆炸式增长。使用生成式预训练 Transformer 3 (GPT-3) 和 GPT4,仅加载数据就需要大量带宽。与此相关的挑战有很多,包括如何有效地做到这一点,同时最大限度地提高性能和吞吐量,如何扩展它以处理大型语言模型中参数数量的快速增加,以及如何建立灵活性以适应未来的变化。

SK hynix America 高级技术经理 Yonkwee Kwon 在 Hot Chips 2023 上的演讲中表示:“一开始的想法是将内存作为加速器,第一个目标是实现高效扩展,拥有高性能也很重要。设计的系统架构易于编程,同时最大限度地减少系统结构开销,但仍然允许软件堆栈实现灵活性。

●  CPU的改进

计算的开销也是一个重要的内容,计算要求大量的能量,随着数据的增加,处理元素的数量将越来越多。要找到这些计算元素,需要大量的互连,而这些互连要么会增加成本,要么会增加功耗,或者两者兼而有之。从计算工作负载的核心到核心移动数据意味着不仅需要互连,还需要一种具有高度可扩展性和能够使用低功耗传输大量数据的技术。这需要更复杂的网络拓扑,需要在整个系统级别进行管理,以确保能够处理大量数据。

我们在下半部分讨论这个内容。

●  小结

芯片企业和设计者正处于一个充满挑战和机会的时代,随着数据和计算需求的不断增长,创新者正在寻找新的方式来提高性能、降低功耗、改善能源效率以及优化数据处理和分析的方法。这需要从传统的计算模型和设计方法中脱颖而出,采用更加定制化和创新性的解决方案,以满足未来的需求。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9bbcT8YxeXhyCOjAZXFxomw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券