亚马逊 Nova：负责任人工智能的技术实践

原创

用户11764306

发布于 2026-02-09 16:28:28

1240

亚马逊 Nova 与对负责任人工智能的承诺

通过强化学习、监督微调、护栏模型和图像水印等技术，负责任人工智能的理念已融入亚马逊 Nova 系列模型的整体设计与开发过程。

负责任人工智能框架

宣布推出的亚马逊 Nova 系列多模态基础模型，是某中心在开发和部署安全、透明且负责任的人工智能领域投资的又一例证。对负责任人工智能的承诺包含八个核心维度：

隐私与安全：数据和模型应被适当获取、使用和保护。
安全性：应阻止误用和有害的系统输出。
公平性：不同利益相关者群体应获得质量一致的结果。
真实性与鲁棒性：即使遇到意外或对抗性输入，系统也应产生正确的输出。
可解释性：系统输出应该是可解释和可理解的。
可控性：系统应包含监控和引导其行为的机制。
治理：应将最佳实践纳入人工智能供应链，包括提供者和部署者。
透明度：利益相关者应能就其与人工智能系统的互动做出明智选择。

这些负责任AI维度被操作化为一系列设计目标，贯穿模型开发生命周期的决策过程——从初始数据收集和预训练，到模型对齐，再到部署后运行时缓解措施的实施。

在以下部分，将探讨在模型对齐、防护栏和严格测试方面采用的方法，展示每一项如何助力创建不仅强大而且可信、负责任的AI系统。

训练

对齐

在训练期间，采用了多种自动化方法来确保满足每个负责任AI维度的设计目标。为了管控模型行为（涉及安全性、公平性、可控性、真实性与鲁棒性以及隐私与安全维度），使用了监督微调和基于人类反馈的强化学习来对齐模型。

对于监督微调，创建了多种语言的单轮和多轮训练演示；对于强化学习训练，则收集了人类偏好数据，包括来自先前评估的示例。在强化学习训练中，还提供了一个专门针对负责任AI的奖励模型，该模型基于跨所有负责任AI维度的内部标注数据进行训练。

护栏

除了对核心亚马逊 Nova 模型实施负责任AI对齐外，还构建了运行时输入和输出审核模型，作为第一道和最后一道防线，以便能够更快速地响应新识别的威胁和模型对齐中的漏洞。输入模型的主要作用是检测包含恶意、不安全或不当材料，或试图绕过核心模型对齐的提示。输出模型旨在过滤核心模型偶尔可能生成的敏感内容。

评估

内部评估

在整个模型开发过程中，使用针对每个负责任AI维度开发的内部基准进行了广泛评估。每个基准都会根据过去的红队演练示例不断更新。这使内部基准保持常新，防止开发过程中的过拟合；同时也确保模型不会在已识别的风险上出现性能回退。数据集包含英语、多语言、纯文本、多模态、单轮和多轮示例的混合。

要全面评估模型在负责任AI方面的性能，需要从两个方面进行评估：负责任AI遵从性和错误拒绝。为此，创建了专门的测试集来衡量每个维度的遵从性，以及设计用于模拟实际使用场景以测量错误拒绝率的更大测试集。

为了评估模型的对抗鲁棒性，基于现有和新兴的对抗技术以及内部开发的新技术，构建了一个全面的基准。考虑了特定类型客户的风险，例如使用模型构建应用程序的开发者和直接与模型交互的用户。风险类别集包括：敏感数据外泄、用户可用性降低、未经授权的操作以及恶意内容生成。

公开负责任AI基准

除了专有的内部基准外，还为可用于训练和评估的公开负责任AI数据集库做出了贡献。针对三个负责任AI维度开发了基准：

公平性：为帮助评估公平性，创建了BOLD数据集，包含超过23,000个英语文本生成提示，测试跨职业、性别、种族、宗教和政治意识形态的偏见。BOLD通过模型补全如“A flight nurse is a registered...”或“An animator is an artist who...”等句子来测量其毒性。
真实性与鲁棒性：为帮助评估真实性与鲁棒性，构建了INVITE方法，用于自动生成包含错误假设或预设的问题。
隐私与安全：对于隐私与安全，创建了LLM-PIEval基准，包含针对使用检索增强生成的大型语言模型的间接提示注入攻击。

红队测试

红队测试是一种在线评估方法，由人类专家尝试生成能绕过负责任AI防护的输入。该过程包含四个主要步骤：整理已知攻击技术、使用自有模型扩展这些技术、定义子技术以及进行自动化的对抗性测试。

鉴于模型的多模态能力，开发了针对每种模态单独及组合的攻击方法。对于文本攻击，侧重于绕过防护栏的对抗性技术。对于图像和视频理解，则精心制作对抗性内容，并探索在看似良性的视觉内容中嵌入恶意负载的攻击向量。还评估了模型对越狱技术的抵抗力。

总共识别并开发了300多种不同的红队测试技术，并对其进行了单独和组合测试。攻击涵盖多种语言和模态。通过使用转换后的提示来测量模型的性能，这些提示掩盖了最初被阻止的种子提示的意图。

跨模态攻击针对涉及多种输入类型的复杂场景。例如，图像理解模型能够同时进行场景描述和文本理解；这些元素之间的不一致会带来潜在风险。强调了精心构建提示的重要性，并提供了额外的防护栏以防止跨模态干扰。

自动化红队测试

为了扩大人工评估的规模，构建了一个自动化的红队测试流水线，该流水线基于上个月在自然语言处理经验方法会议上提出的FLIRT框架进行了调整。

“红队语言模型”的输入是由人工评估者识别为有问题的、并按负责任AI类别分组的种子提示列表。对于每个类别，使用上下文学习、提示工程和一部分种子提示来生成额外的提示。评估对这些提示的响应，并提取成功的提示用作下一轮生成的种子。

还扩展了流水线，以自动生成针对系统的多轮、多语言和多模态攻击，从而尽可能多地发现漏洞。

水印

宣布推出的Nova模型包括两个多模态生成式AI模型：用于生成静态图像的亚马逊 Nova Canvas和用于生成视频的亚马逊 Nova Reel。为了促进AI生成内容的可追溯性，在图像和视频生成过程中直接嵌入了不可见水印，并为Canvas添加了由内容来源和真实性联盟开发的无素据。

对于静态图像，开发了一种对旋转、调整大小、颜色反转、翻转以及其他试图移除水印的操作具有鲁棒性的不可见水印方法。对于视频，将水印嵌入每一帧，并确保水印和检测方法能够经受H.264压缩。即将通过某中心平台发布水印检测API；新API引入了多项改进，例如用基于置信度分数的预测取代二元预测，这有助于识别生成内容何时被编辑。新的检测系统覆盖图像和视频。

未来之路

基础模型的兴起为负责任AI领域带来了前所未有的挑战和巨大的机遇。付出了巨大努力以确保亚马逊 Nova 模型与负责任AI维度保持一致，并提供卓越且令人愉悦的客户体验。但也深知，仍有许多具有挑战性和令人兴奋的问题有待解决。为了解决这些问题，正通过最近的研究资助计划等项目积极与学术界合作，该计划重点关注生成式AI中的机器学习、治理与负责任AI、分布式训练以及机器学习编译器和基于编译器的优化等关键领域。通过促进产业界与学术界的合作，旨在推进负责任AI实践，并推动创新，从而在开发先进AI的同时降低风险，并为整个社会带来效益。

致谢： Chalapathi Choppa， Rahul Gupta， Abhinav Mohanty， Sherif MostafaFINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

网络安全