通过强化学习、监督微调、护栏模型和图像水印等技术,负责任人工智能的理念已融入亚马逊 Nova 系列模型的整体设计与开发过程。
宣布推出的亚马逊 Nova 系列多模态基础模型,是某中心在开发和部署安全、透明且负责任的人工智能领域投资的又一例证。对负责任人工智能的承诺包含八个核心维度:
这些负责任AI维度被操作化为一系列设计目标,贯穿模型开发生命周期的决策过程——从初始数据收集和预训练,到模型对齐,再到部署后运行时缓解措施的实施。
在以下部分,将探讨在模型对齐、防护栏和严格测试方面采用的方法,展示每一项如何助力创建不仅强大而且可信、负责任的AI系统。
在训练期间,采用了多种自动化方法来确保满足每个负责任AI维度的设计目标。为了管控模型行为(涉及安全性、公平性、可控性、真实性与鲁棒性以及隐私与安全维度),使用了监督微调和基于人类反馈的强化学习来对齐模型。
对于监督微调,创建了多种语言的单轮和多轮训练演示;对于强化学习训练,则收集了人类偏好数据,包括来自先前评估的示例。在强化学习训练中,还提供了一个专门针对负责任AI的奖励模型,该模型基于跨所有负责任AI维度的内部标注数据进行训练。
除了对核心亚马逊 Nova 模型实施负责任AI对齐外,还构建了运行时输入和输出审核模型,作为第一道和最后一道防线,以便能够更快速地响应新识别的威胁和模型对齐中的漏洞。输入模型的主要作用是检测包含恶意、不安全或不当材料,或试图绕过核心模型对齐的提示。输出模型旨在过滤核心模型偶尔可能生成的敏感内容。
在整个模型开发过程中,使用针对每个负责任AI维度开发的内部基准进行了广泛评估。每个基准都会根据过去的红队演练示例不断更新。这使内部基准保持常新,防止开发过程中的过拟合;同时也确保模型不会在已识别的风险上出现性能回退。数据集包含英语、多语言、纯文本、多模态、单轮和多轮示例的混合。
要全面评估模型在负责任AI方面的性能,需要从两个方面进行评估:负责任AI遵从性和错误拒绝。为此,创建了专门的测试集来衡量每个维度的遵从性,以及设计用于模拟实际使用场景以测量错误拒绝率的更大测试集。
为了评估模型的对抗鲁棒性,基于现有和新兴的对抗技术以及内部开发的新技术,构建了一个全面的基准。考虑了特定类型客户的风险,例如使用模型构建应用程序的开发者和直接与模型交互的用户。风险类别集包括:敏感数据外泄、用户可用性降低、未经授权的操作以及恶意内容生成。
除了专有的内部基准外,还为可用于训练和评估的公开负责任AI数据集库做出了贡献。针对三个负责任AI维度开发了基准:
红队测试是一种在线评估方法,由人类专家尝试生成能绕过负责任AI防护的输入。该过程包含四个主要步骤:整理已知攻击技术、使用自有模型扩展这些技术、定义子技术以及进行自动化的对抗性测试。
鉴于模型的多模态能力,开发了针对每种模态单独及组合的攻击方法。对于文本攻击,侧重于绕过防护栏的对抗性技术。对于图像和视频理解,则精心制作对抗性内容,并探索在看似良性的视觉内容中嵌入恶意负载的攻击向量。还评估了模型对越狱技术的抵抗力。
总共识别并开发了300多种不同的红队测试技术,并对其进行了单独和组合测试。攻击涵盖多种语言和模态。通过使用转换后的提示来测量模型的性能,这些提示掩盖了最初被阻止的种子提示的意图。
跨模态攻击针对涉及多种输入类型的复杂场景。例如,图像理解模型能够同时进行场景描述和文本理解;这些元素之间的不一致会带来潜在风险。强调了精心构建提示的重要性,并提供了额外的防护栏以防止跨模态干扰。
为了扩大人工评估的规模,构建了一个自动化的红队测试流水线,该流水线基于上个月在自然语言处理经验方法会议上提出的FLIRT框架进行了调整。
“红队语言模型”的输入是由人工评估者识别为有问题的、并按负责任AI类别分组的种子提示列表。对于每个类别,使用上下文学习、提示工程和一部分种子提示来生成额外的提示。评估对这些提示的响应,并提取成功的提示用作下一轮生成的种子。
还扩展了流水线,以自动生成针对系统的多轮、多语言和多模态攻击,从而尽可能多地发现漏洞。
宣布推出的Nova模型包括两个多模态生成式AI模型:用于生成静态图像的亚马逊 Nova Canvas和用于生成视频的亚马逊 Nova Reel。为了促进AI生成内容的可追溯性,在图像和视频生成过程中直接嵌入了不可见水印,并为Canvas添加了由内容来源和真实性联盟开发的无素据。
对于静态图像,开发了一种对旋转、调整大小、颜色反转、翻转以及其他试图移除水印的操作具有鲁棒性的不可见水印方法。对于视频,将水印嵌入每一帧,并确保水印和检测方法能够经受H.264压缩。即将通过某中心平台发布水印检测API;新API引入了多项改进,例如用基于置信度分数的预测取代二元预测,这有助于识别生成内容何时被编辑。新的检测系统覆盖图像和视频。
基础模型的兴起为负责任AI领域带来了前所未有的挑战和巨大的机遇。付出了巨大努力以确保亚马逊 Nova 模型与负责任AI维度保持一致,并提供卓越且令人愉悦的客户体验。但也深知,仍有许多具有挑战性和令人兴奋的问题有待解决。为了解决这些问题,正通过最近的研究资助计划等项目积极与学术界合作,该计划重点关注生成式AI中的机器学习、治理与负责任AI、分布式训练以及机器学习编译器和基于编译器的优化等关键领域。通过促进产业界与学术界的合作,旨在推进负责任AI实践,并推动创新,从而在开发先进AI的同时降低风险,并为整个社会带来效益。
致谢: Chalapathi Choppa, Rahul Gupta, Abhinav Mohanty, Sherif MostafaFINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。