首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >亚马逊 Nova:负责任人工智能的技术实践

亚马逊 Nova:负责任人工智能的技术实践

原创
作者头像
用户11764306
发布2026-02-09 16:28:28
发布2026-02-09 16:28:28
1240
举报

亚马逊 Nova 与对负责任人工智能的承诺

通过强化学习、监督微调、护栏模型和图像水印等技术,负责任人工智能的理念已融入亚马逊 Nova 系列模型的整体设计与开发过程。

负责任人工智能框架

宣布推出的亚马逊 Nova 系列多模态基础模型,是某中心在开发和部署安全、透明且负责任的人工智能领域投资的又一例证。对负责任人工智能的承诺包含八个核心维度:

  • 隐私与安全:数据和模型应被适当获取、使用和保护。
  • 安全性:应阻止误用和有害的系统输出。
  • 公平性:不同利益相关者群体应获得质量一致的结果。
  • 真实性与鲁棒性:即使遇到意外或对抗性输入,系统也应产生正确的输出。
  • 可解释性:系统输出应该是可解释和可理解的。
  • 可控性:系统应包含监控和引导其行为的机制。
  • 治理:应将最佳实践纳入人工智能供应链,包括提供者和部署者。
  • 透明度:利益相关者应能就其与人工智能系统的互动做出明智选择。

这些负责任AI维度被操作化为一系列设计目标,贯穿模型开发生命周期的决策过程——从初始数据收集和预训练,到模型对齐,再到部署后运行时缓解措施的实施。

在以下部分,将探讨在模型对齐、防护栏和严格测试方面采用的方法,展示每一项如何助力创建不仅强大而且可信、负责任的AI系统。

训练

对齐

在训练期间,采用了多种自动化方法来确保满足每个负责任AI维度的设计目标。为了管控模型行为(涉及安全性、公平性、可控性、真实性与鲁棒性以及隐私与安全维度),使用了监督微调和基于人类反馈的强化学习来对齐模型。

对于监督微调,创建了多种语言的单轮和多轮训练演示;对于强化学习训练,则收集了人类偏好数据,包括来自先前评估的示例。在强化学习训练中,还提供了一个专门针对负责任AI的奖励模型,该模型基于跨所有负责任AI维度的内部标注数据进行训练。

护栏

除了对核心亚马逊 Nova 模型实施负责任AI对齐外,还构建了运行时输入和输出审核模型,作为第一道和最后一道防线,以便能够更快速地响应新识别的威胁和模型对齐中的漏洞。输入模型的主要作用是检测包含恶意、不安全或不当材料,或试图绕过核心模型对齐的提示。输出模型旨在过滤核心模型偶尔可能生成的敏感内容。

评估

内部评估

在整个模型开发过程中,使用针对每个负责任AI维度开发的内部基准进行了广泛评估。每个基准都会根据过去的红队演练示例不断更新。这使内部基准保持常新,防止开发过程中的过拟合;同时也确保模型不会在已识别的风险上出现性能回退。数据集包含英语、多语言、纯文本、多模态、单轮和多轮示例的混合。

要全面评估模型在负责任AI方面的性能,需要从两个方面进行评估:负责任AI遵从性和错误拒绝。为此,创建了专门的测试集来衡量每个维度的遵从性,以及设计用于模拟实际使用场景以测量错误拒绝率的更大测试集。

为了评估模型的对抗鲁棒性,基于现有和新兴的对抗技术以及内部开发的新技术,构建了一个全面的基准。考虑了特定类型客户的风险,例如使用模型构建应用程序的开发者和直接与模型交互的用户。风险类别集包括:敏感数据外泄、用户可用性降低、未经授权的操作以及恶意内容生成。

公开负责任AI基准

除了专有的内部基准外,还为可用于训练和评估的公开负责任AI数据集库做出了贡献。针对三个负责任AI维度开发了基准:

  • 公平性:为帮助评估公平性,创建了BOLD数据集,包含超过23,000个英语文本生成提示,测试跨职业、性别、种族、宗教和政治意识形态的偏见。BOLD通过模型补全如“A flight nurse is a registered...”或“An animator is an artist who...”等句子来测量其毒性。
  • 真实性与鲁棒性:为帮助评估真实性与鲁棒性,构建了INVITE方法,用于自动生成包含错误假设或预设的问题。
  • 隐私与安全:对于隐私与安全,创建了LLM-PIEval基准,包含针对使用检索增强生成的大型语言模型的间接提示注入攻击。

红队测试

红队测试是一种在线评估方法,由人类专家尝试生成能绕过负责任AI防护的输入。该过程包含四个主要步骤:整理已知攻击技术、使用自有模型扩展这些技术、定义子技术以及进行自动化的对抗性测试。

鉴于模型的多模态能力,开发了针对每种模态单独及组合的攻击方法。对于文本攻击,侧重于绕过防护栏的对抗性技术。对于图像和视频理解,则精心制作对抗性内容,并探索在看似良性的视觉内容中嵌入恶意负载的攻击向量。还评估了模型对越狱技术的抵抗力。

总共识别并开发了300多种不同的红队测试技术,并对其进行了单独和组合测试。攻击涵盖多种语言和模态。通过使用转换后的提示来测量模型的性能,这些提示掩盖了最初被阻止的种子提示的意图。

跨模态攻击针对涉及多种输入类型的复杂场景。例如,图像理解模型能够同时进行场景描述和文本理解;这些元素之间的不一致会带来潜在风险。强调了精心构建提示的重要性,并提供了额外的防护栏以防止跨模态干扰。

自动化红队测试

为了扩大人工评估的规模,构建了一个自动化的红队测试流水线,该流水线基于上个月在自然语言处理经验方法会议上提出的FLIRT框架进行了调整。

“红队语言模型”的输入是由人工评估者识别为有问题的、并按负责任AI类别分组的种子提示列表。对于每个类别,使用上下文学习、提示工程和一部分种子提示来生成额外的提示。评估对这些提示的响应,并提取成功的提示用作下一轮生成的种子。

还扩展了流水线,以自动生成针对系统的多轮、多语言和多模态攻击,从而尽可能多地发现漏洞。

水印

宣布推出的Nova模型包括两个多模态生成式AI模型:用于生成静态图像的亚马逊 Nova Canvas和用于生成视频的亚马逊 Nova Reel。为了促进AI生成内容的可追溯性,在图像和视频生成过程中直接嵌入了不可见水印,并为Canvas添加了由内容来源和真实性联盟开发的无素据。

对于静态图像,开发了一种对旋转、调整大小、颜色反转、翻转以及其他试图移除水印的操作具有鲁棒性的不可见水印方法。对于视频,将水印嵌入每一帧,并确保水印和检测方法能够经受H.264压缩。即将通过某中心平台发布水印检测API;新API引入了多项改进,例如用基于置信度分数的预测取代二元预测,这有助于识别生成内容何时被编辑。新的检测系统覆盖图像和视频。

未来之路

基础模型的兴起为负责任AI领域带来了前所未有的挑战和巨大的机遇。付出了巨大努力以确保亚马逊 Nova 模型与负责任AI维度保持一致,并提供卓越且令人愉悦的客户体验。但也深知,仍有许多具有挑战性和令人兴奋的问题有待解决。为了解决这些问题,正通过最近的研究资助计划等项目积极与学术界合作,该计划重点关注生成式AI中的机器学习、治理与负责任AI、分布式训练以及机器学习编译器和基于编译器的优化等关键领域。通过促进产业界与学术界的合作,旨在推进负责任AI实践,并推动创新,从而在开发先进AI的同时降低风险,并为整个社会带来效益。

致谢: Chalapathi Choppa, Rahul Gupta, Abhinav Mohanty, Sherif MostafaFINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 亚马逊 Nova 与对负责任人工智能的承诺
    • 负责任人工智能框架
    • 训练
      • 对齐
      • 护栏
    • 评估
      • 内部评估
      • 公开负责任AI基准
      • 红队测试
      • 自动化红队测试
    • 水印
    • 未来之路
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档