任何事物(个人、组织、事件或产品)产生的温室气体排放总量称为碳足迹。产生更多碳足迹的过程使用更多资源,产生更多温室气体并导致更大的气候变化。对温室气体排放量的小幅减少做出贡献可以减少大量的总体碳足迹。
随着机器学习 (ML) 应用程序的日益普及,由于计算成本增加,人们不断担心碳足迹不断增加。这些担忧强调需要精确数据来确定真实的碳足迹,这有助于确定减少 ML 碳排放的解决方案。
谷歌最近的一项研究调查了自然语言处理 (NLP) 模型训练的运营碳排放,例如运营 ML 硬件的能源成本,包括数据中心开销。它研究了可以降低碳足迹的最佳实践。
该团队提出了四种基本方法,可显着减少机器学习工作负载的碳(和能源)足迹。这些方法目前在 Google 中使用,任何使用 Google Cloud 服务的人都可以使用。Google 使用可再生能源来满足其 100% 的运营能源需求。谷歌承诺到 2030 年将所有能源使用脱碳,每天 24 小时使用 100% 无碳能源。
4Ms:能源和碳足迹减少最佳实践如下:
谷歌的总能源使用量每年都在增加,鉴于其服务使用量的增加,这不足为奇。这显着增加了 ML 工作负载,每次训练运行的计算量也是如此。4Ms——改进的模型、特定于机器学习的硬件和高效的数据中心——大大抵消了这种负载增加。谷歌的数据表明,机器学习训练和推理在过去三年中仅占谷歌整体能源使用量的 10% 至 15%,其中每年有 35% 用于推理,25% 用于训练。
为了找到改进的机器学习模型,谷歌采用了神经架构搜索 (NAS)。每个问题域/搜索空间组合通常只执行一次 NAS。然后可以将生成的模型重复用于数百个应用程序。例如,使用 NAS 发现的 Evolved Transformer 模型是开源的并且可以免费获得。NAS 的一次性成本通常被持续使用的减排量所抵消,因为 NAS 发现的改进模型通常更有效。
其他研究人员进行了一项研究来训练 Transformer 模型。为此,他们在典型的数据中心中使用了 Nvidia P100 GPU,其能源组合与全球平均水平相似。刚刚发布的 Primer 模型将获得相同精度所需的计算量减少了 4 倍。使用 TPUv4 等新一代 ML 硬件,性能比 P100 提升了 14 倍,总共提升了 57 倍。高效的云数据中心比普通数据中心节省 1.4 倍的能源,从而使总能耗降低 83 倍。此外,由低碳能源驱动的数据中心可以将碳排放量再减少 9 倍,从而在四年内总共减少 747 倍。
谷歌团队认为,在信息技术领域,制造各种类型和规模的计算设备的生命周期成本比机器学习培训的运营成本要高得多。排放估算的制造成本包括制造所有相关组件(从芯片到数据中心建筑)所排放的嵌入碳。
除了使用 4Ms 方法,服务提供商和用户还可以采取简单的措施来提高他们的碳足迹绩效:
论文:
https://www.techrxiv.org/articles/preprint/The_Carbon_Footprint_of_Machine_Learning_Training_Will_Plateau_Then_Shrink/19139645/1
参考:
https://ai.googleblog.com/2022/02/good-news-about-carbon-footprint-of.html