Kubernetes 1.26 版本正式发布：改进 Windows 支持，加强网络安全和管理功能

文章来源：infoq褚杏娟

如今，有越来越多的企业将机器学习引入到不同的流程中，对机器学习模型的期待也越来越高。与这种期待相反的是，我们对机器学习治理的关注度显然不够，还没有找到好的方式让整个流程运转地更加流畅、透明度更高，甚至连最佳实践可能的样子都十分模糊。在刚刚结束的 2022 re:Invent 大会上，亚马逊云科技数据与机器学习副总裁 Swami Sivasubramanian 博士针对 Amazon SageMaker 发布的一系列更新，扩大了机器学习在模型生命周期中的治理规模，让模型开发初步告别了“盲盒”时代。

机器学习治理需要更进一步

近两年，大模型的风越刮越烈，企业和开发者已经习惯于通过机器学习的方式来解决问题。显而易见的是，大模型并不是所有人都可以承担起的。如果希望在现有规模下获得好的效果，选择合适的机器学习治理流程才是可行的。

过去，我们花费了大量时间在数据治理上面，市场上也有了很多不同类型的解决方案。在刚刚结束的 2022 re:Invent 全球大会上，亚马逊云科技推出的 Amazon DataZone 便是其中之一，这是一项全新的数据管理服务，可以让用户更快、更轻松地对存储在亚马逊云科技、客户本地和第三方来源的数据进行编目、发现、共享和治理，从而消除数据目录维护的繁重工作。

我们期待通过 DataZone 这样的方案可以降低数据预处理的成本，提高模型生成的精准度，但机器学习的模型开发流程像一个不可预知的“盲盒”，仍然缺乏有效的手段保证模型上线后如预期发挥作用。

当我们把数据治理的思路类比到机器学习治理当中，能否找到一种工具降低模型的故障？目前来看，情况还不算太明朗。据 2021 年企业机器学习趋势报告显示，机器学习治理目前还处于早期发展阶段，其暴露出的具体问题有：还未出现成功案例，缺乏明确的路线图或规范性建议，目前市场上现存的一些解决方案都是由不同工具拼凑而成的，其覆盖范围还存在缺口，机器学习更是难以集成到标准化的企业 IT 流程和技术堆栈中。除此以外，由于相关的法规还不够完善，如何保障合法合规也是另一大挑战因素。

在企业对机器学习严重依赖的当下，我们是时候扩大机器学习治理的规模，让其更进一步了。这件事情由承担着企业内部大部分模型开发工作的机器学习平台来完成或许最合适。

让越来越多的 AI 模型有效运转

2017 年，Amazon SageMaker 首次在 re:Invent 大会上亮相，其极大降低了 AI 开发的门槛，让有能力改进框架和算法的开发者，尽可能少地花费精力在数据准备、部署、安装、调试等无关事情上。

过去五年，亚马逊云科技一直在稳步对 SageMaker 进行迭代升级，让其成为了企业内部被广泛使用的机器学习平台之一。在 SageMaker 发布之后，我们看到了大批一站式机器学习平台出现，让越来越多不同背景的人可以加入到这一流程中。

此时，新的问题又出现了。

首先，由于机器学习的用户组权限差异较大，企业必须给不同角色的人赋予不同的权限，以避免引入无关的人为错误，但自定义策略的过程是非常耗时的；其次，用不同的手动工具来捕获、共享模型信息很容易出错；最后，定制工具以获得模型性能的可见性是很昂贵的。

但是，大部分一站式机器学习平台还没有在治理层面有实质性进展，这也导致企业内部引入机器学习的过程并不顺利。

为了解决上述问题，亚马逊云科技 2022 re:Invent 大会上推出了 Amazon SageMaker 的三大机器学习治理新功能来简化访问控制，增强端到端机器学习部署的透明度、模型治理和可审计性，分别是：Role Manager、Model Cards 和 Model Dashboard。

SageMaker Role Manager 通过自动策略创建工具帮助组织为用户定义关键权限；
Model Cards 主要是为 ML 模型文档创建单一、真实的模型文档；
Model Dashboard 为组织提供了 ML 模型性能的可见性和统一监控。

SageMaker Role Manager 有一组针对不同角色和机器学习活动的预定义策略模板，例如数据科学家或 MLOps 工程师，可以在几分钟内为 SageMaker 用户自定义权限，企业也可以定义其他角色、添加机器学习活动以及托管策略，以满足特定需求。

Model Cards 为模型信息创建了单一真实的来源，简化了整个机器学习生命周期的模型文档。对于在 SageMaker 上训练的模型，Model Cards 可以发现并自动填充细节，例如训练作业、训练数据集、模型工件以及推理环境。企业可以记录模型的详细信息，例如模型的预期用途、风险等级以及评估结果。对于合规性文档和模型证据报告，还可以将 Model Cards 导出为 PDF 文件，轻松地与客户或监管机构进行共享。

Model Dashboard 实现了一个用于监控所有模型的页面，借助鸟瞰图，企业可以通过与 SageMaker Model Monitor 和 SageMaker Clarify 的集成，查看生产中使用的模型、查看 Model Cards、可视化模型世系、跟踪资源以及监控模型行为。当模型未受到监控或偏离预期行为时，Model Dashboard 会自动提醒。

在大部分场景下，这种治理能力带来的好处是通过最低的成本，保证模型上线并发挥效用。在一些特殊场景下，这种治理能力所发挥的作用则不止于此，比如金融、医疗等对可信度要求极高的领域。

世界最佳银行之一的 Capitec 曾表示，其产品线上的数据科学家们各有所长，可以构建不同的机器学习解决方案，机器学习工程师们管理着一个建立在 Amazon SageMaker 上的集中式建模平台，以支持所有解决方案的开发和部署。由于没有任何内置的工具，跟踪建模往往会出现文档不连贯和模型不可见的情况。通过 SageMaker Model Cards，Capitec 可以在统一的环境跟踪大量的模型元数据，而 SageMaker Model Dashboard 提供了每个模型性能的可见性。此外，SageMaker Role Manager 简化了不同产品线中数据科学家的访问管理过程。

企业应该投资治理，还是扩大现有 AI 解决方案？

对企业来说，现有资金到底应该投入到机器学习治理流程，还是应该继续扩展现有的机器学习解决方案呢？

如果任由机器学习在企业内部无组织地发展下去，最终会导致系统故障率越来越高，尽而降低整体的投资回报率。过去两年，我们看到了很多自动驾驶汽车的事故案例，甚至有些企业放弃了对自动驾驶的投资，这也意味着，我们需要更可靠地治理手段来保证人工智能系统的正常运转。

本质上，现代人工智能系统是一个黑匣子，这些系统建立在复杂的技术栈之上，技术栈通过获取、转换数据并将其输送到下游机器学习模型，以实现业务目标。但系统的输入和操作对用户或其他相关方是不可见的，包括数据科学家、数据工程师、UX/UI 设计师、社会科学家、系统工程师、业务主管等。

这种多样化的用户组与技术输入的结合，让人工智能系统引入了大量可能发生故障的可能。在这种高度交织的技术架构中，失败很可能被忽视，即使检测到故障，通常也需要深入调查才能找到根本原因。

机器学习治理的出现便是为了更好地构建负责任的 AI，全面实施负责任的 AI 有助于企业将风险降至最低。在很多负责任的 AI 方法中，会把利益相关者、投资回报率算进来，最终虽然能出现更好的产品，推动更高的使用率和采用率，但这不足为奇。

一切向着负责任的 AI 方向发展

在本届 re:invent 大会上，亚马逊云科技向我们展示了部分蓝图，其推出的众多服务就是朝着设计并构建负责任 AI 的正确方向迈出的一步，其建立在多年来对相关工作的积累，以实现机器学习数据集、模型和系统的基准测试和透明。

近年来，亚马逊云科技一直在朝着负责任的 AI 方向迈进，包括在 2020 年聘请《The Ethical Algorithm》的作者 Aaron Roth 和 Michael Kearns 作为亚马逊学者。

事实上，Gartner 预计，到 2023 年所有为 AI 开发和训练工作而招聘的人员，都需要展示自己拥有负责任的 AI 方面的专业知识。负责任的 AI 可能看起来令人生畏，因为这其中有许多子领域都需要关注（例如公平性、透明度、问责制、安全性、可靠性、隐私、安全、治理等），要在人工智能生命周期的所有阶段实施，包括设计、开发和部署。

对大部分公司而言，如果将注意力全部用在这上面可能会导致投资失败，不如设置合理的优先级并挑选合适的解决方案，通过运用 Amazon SageMaker 推出的 Role Manager、Model Cards 和 Model Dashboard 功能，将机器学习治理扩大到模型开发流程，保证每个模型上线后可发挥最大效用，最终确保在实现企业宗旨和价值观的同时，获得持续的成功并建立竞争性的市场优势。

提到 AI，我们最常说的一句话是“落地为王”，现在是时候将部分工作交由“负责任的 AI”来保证了（点击链接，轻松开启机器学习治理流程）。

2022-12-16 12:082049

发表于: 2022-12-162022-12-16 17:46:35
本文为 InfoQ 中文站特供稿件
首发地址：https://www.infoq.cn/article/97LDs46oamxHYLAhp5uK
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Kubernetes 1.26 版本正式发布：改进 Windows 支持，加强网络安全和管理功能

机器学习治理需要更进一步

让越来越多的 AI 模型有效运转

企业应该投资治理，还是扩大现有 AI 解决方案？

一切向着负责任的 AI 方向发展

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐