LlavaGuard与GPT-4o mini：ShieldGemma 2的4B参数模型与对抗性数据生成技术！

未来先知

发布于 2025-06-09 13:40:58

2650

文章被收录于专栏：未来先知未来先知

未来先知

分享最新的科技知识

83篇原创内容

公众号

作者介绍了ShieldGemma 2，这是一个基于Gemma 3构建的4B参数图像内容审核模型。该模型在以下关键危害类别中提供了稳健的安全风险预测：色情暴力与血腥场面，以及针对合成图像（例如任何图像生成模型的输出）和自然图像（例如任何输入到视觉语言模型的图像）的危险内容。作者在内部和外部基准上进行了评估，以证明相较于LlavaGuard（Helff等人，2024年）、GPT-4o mini（Hurst等人，2024年）和基础Gemma 3模型（Gemma团队，2025年）的当前最佳性能，这些评估基于作者的政策。此外，作者提出了一种新颖的对抗性数据生成流程，该流程能够实现可控、多样且稳健的图像生成。 ShieldGemma 2提供了一个开放的图像审核工具，以推动多模态安全和负责任的AI发展。

1. 引言

视觉语言模型（VLMs）近年来取得了快速进展，在理解和生成视觉内容方面展现出令人印象深刻的能力（Achiam等人，2023；Dubey等人，2024；Gemini团队等人，2023；Li等人，2023）。这些模型提供了广泛的功能，包括图像描述生成、视觉问答（VQA）、视觉对话、图像编辑、图像生成等。此类进展的例子包括：

（i）像Gemini（Gemini团队等人，2023）和GPT-4o（Achiam等人，2023）这样的对话模型在图像和文本模态上表现出强大的长上下文理解能力，允许它们分析复杂的视觉场景，并回答需要基于扩展的视觉和文本信息进行推理的细致问题。

（ii）像Stable Diffusion（Rombach等人，2022）、Imagen（Saharia等人，2022）、MidJourney、DALLE（Ramesh等人，2021）等图像生成模型已经使从文本 Prompt 中创建高度逼真和多样化的视觉内容变得民主化。

它们日益增加的可访问性和易用性使广大用户能够以前所未有的保真度和创意控制生成图像。

VLMs的日益普及和能力提升，使得在输入和输出两端构建VLM的鲁棒安全机制变得至关重要。对于接受图像输入的VLM，无论是合成图像还是自然图像，构建防止有害内容出现的防护措施都至关重要。对于图像生成模型，验证其是否符合安全政策、防止生成有害或不适当内容同样关键。这一双重挑战凸显了迫切需要能够处理自然图像和合成图像的高效图像安全分类器。

图像分类领域随着基于Transformer的架构的出现发生了显著变革。例如，视觉Transformer（ViT）(Dosovitskiy等人，2020)通过将图像分割成不重叠的块，将它们展平成序列，并将其输入到标准的Transformer编码器中来处理图像。Swin Transformer (Liu等人，2021)引入了分层结构和移位窗口机制，在保持局部性的同时提高了效率和可扩展性。超越传统的图像分类，Gemini、GPT-4o和Llava等视觉语言模型（VLMs）已成为更全面的图像理解任务的强大工具，利用它们处理和推理视觉和文本模态的能力。然而，它们直接应用于图像安全分类等垂直领域时面临一些限制，如非开源、对于安全等垂直应用来说太大且太昂贵，以及未针对安全任务进行专门设计。为了弥补这一性能差距，最近的研究集中于针对图像安全分类对VLMs进行微调。例如LlavaGuard (Helff等人，2024)和PerspectiveVision (Qu等人，2024)，取得了显著的改进。

尽管取得了这些进展，但仍存在一些关键局限性：

(i) 合成数据生成 Bottleneck ：现有模型通常缺乏自动化和目标化的训练数据生成方法。理想情况下，系统应能够生成针对特定政策、主题或应用的合成图像，以检测相关的安全边界。当前方法通常依赖于通用数据集，而这些数据集可能无法充分覆盖用于鲁棒安全分类的多样化和对抗性场景。

(ii) 缺乏阈值定制：一些现有的安全分类器仅提供二元分类（安全/不安全），而未提供可定制的阈值。不同应用具有不同的风险容忍度，调整分类阈值的能力对于平衡精确度和召回率至关重要。

为解决这些局限性，作者提出了ShieldGemma 2（SG2），一个在Gemma 3 4B模型基础上进行微调的鲁棒图像安全分类器（Gemma Team，2025）。SG2具有以下关键优势：

策略感知分类：SG2同时接受用户定义的安全策略和图像作为输入，为自然图像和合成图像提供符合特定策略指南的分类。新型对抗合成数据生成：作者提出了一种生成多样且对抗性合成图像的新方法，该方法根据目标应用的需求设计，旨在挑战基于分类器。此方法确保了在更广泛的潜在安全违规范围内进行更全面的测试和训练。

具有灵活阈值的当前最佳性能（SoTA）：内部和外部评估表明，SG2在作者的策略上实现了SoTA性能，超越了LLavaGuard 7B、GPT-4o mini和Gemma 3等知名模型。SG2为每个预测输出一个连续的置信度分数，使下游用户能够根据其特定用例和风险管理策略动态调整分类阈值。

文献综述

不安全图像的来源。在社区环境中遇到的不安全图像可以分为合成或自然两类。自然不安全图像是从真实世界场景中捕获的。这些图像可能包含在基础模型训练数据中，或在推理过程中用于误导/绕过模型，特别是多模态大语言模型（Chen等人，2024；Gong等人，2023；Liu等人，2024c）。合成不安全图像代表了一种有害内容的不同形式。研究表明，即使是经过训练以防止此类生成的High-Level图像生成模型，也容易受到旨在生成有害内容的 Prompt 的影响（Cheng等人，2024；Li等人，2024；Liu等人，2024a,b；Schramowski等人，2023）。

安全图像的审核。为减轻不安全图像带来的风险，人们已开展多种工作。近期研究集中于减少此类图像的生成。具体而言，在训练阶段，通过筛选安全训练数据开发安全的文本到图像生成模型。在推理阶段，禁止或修改不安全的文本 Prompt （Liu et al., 2024a）。生成过程也可被操控以避免合成图像中出现有害概念（Li et al., 2024; Schramowski et al., 2023）。此外，在用户接收前可对合成图像进行安全筛选。此类检测器可基于传统图像分类器或多模态大语言模型，包括Gemini（Team et al., 2024）、GPT-4V（gpt, 2023）、LLaVA（Liu et al., 2023）和LlavaGuard（Helff et al., 2024）。为确保VLM输出的安全/不安全标签一致性，常会添加分类器。LlavaGuard Helff et al. (2024)是一个基于VLM的视觉安全框架，旨在使用定制分类法评估视觉内容的安全性。在本工作中，作者基于作者的Gemma 3（Gemma Team, 2025）为不安全图像检测构建了一个精确高效的开放源检测器。

用于训练的图像合成。近年来，图像生成领域取得了显著进展，使得大规模高质量图像的生成成为可能（Baldridge等人，2024；Rombach等人，2022）。基于这些进展，作者的社区也探索了此类图像生成模型或提出了新的模型，用于生成训练数据，例如分类、分割和检测的训练数据（Suri等人，2023；Wu等人，2023a,b；Zeng等人，2024）。在本工作中，作者提出生成用于构建安全分类器的图像，具体而言，作者生成了遵循预定义策略和生成分类体系的高质量数据。

安全策略

作者为SG2定义了一个详细的内容安全分类体系，最初聚焦于三个主要危害类别。llm-ShieldGemma-2_2504的一个关键特性是允许用户输入自定义安全策略，从而实现细粒度控制和适应特定用例需求。SG2的默认策略涵盖：

不包含性暗示信息 1. 图像不应包含描绘明显或具体的性行为的内容（例如，色情内容、裸露的性描写、强奸或性侵犯的描绘）。

不得包含危险内容。图像不应包含促进或鼓励可能导致现实世界伤害的活动的内容（例如，制造枪支和爆炸装置、宣扬恐怖主义、自杀指南）。不得包含暴力/血腥内容。图像不应包含描绘令人震惊、耸人听闻或过度暴力的内容（例如，过多的血腥场面、对动物的过度暴力、重伤或死亡瞬间）。

SG2用户可以选择采用其中一项或多项策略，或者根据其用例需求自行创建定制化策略。

合成数据生成

sG2的开发涉及一个细致的合成训练数据集生成过程。这对于创建一个稳健且全面的sG2训练数据集至关重要，确保了图像多样性和严重性之间的最佳平衡。

在Davidson等人（2025）的研究中，作者的内部数据生成流程能够生成受控 Prompt 及其对应的图像。如图1所示，该流程包括以下步骤：

问题定义。涵盖策略定义、例外情况、输入输出格式以及少量样本示例。

分类生成。作者的分类与合成数据生成器为每个维度（如主题、目标人群（例如性别、性取向）、背景、地域方面和图像风格（例如像素艺术、复古）等）生成单层或多层树结构的分类。例如，对于主题分类，第一层包括该危害政策的粗粒度主题，第二层包括额外的细粒度子主题。

图像 Query 生成。作者的生成器通过结合这些叶节点在所有这些树状分类结构中来创建 Prompt 。例如，一个危险的政策（主题恐怖主义，子主题武器弹药，背景社交媒体，地区非洲，图像风格点彩画）可以生成：一幅描绘一个男人在马拉喀什熙熙攘攘的市集中开枪射击AK-47的点彩画，市场摊位被推翻，人们因恐惧而四散逃离。

图像生成。作者利用Imagen模型（Saharia等人，2022）为每项策略生成约10,000张具有不同宽高比和分辨率的图像。数据生成过程遵循迭代方法，其中评估结果指导了改进，包括调整模型参数、细化分类体系以及整合额外的少量样本示例。

真实图像选择

为提升SG2在真实图像上的性能，作者利用了大规模的WebLI（Web语言和图像）数据集（Chen等人，2022），该数据集包含约100亿张图像和文本描述：

从WebLI数据集中随机采样了一个大量的图像子集。

使用高性能文本安全分类器分析每个采样图像关联的标题。

保留的图像中，至少有一个类别存在违规概率超过0.1的情况。

从被识别为可能违反作者安全政策的图像集合中，作者随机选择了一个最终的训练集，包含张图像。

边界对抗数据生成 (BADG)

作者的训练标签通过使用Gemini模型进行情境学习生成（详细内容见Label Generation章节）。为了弥合Gemini的情境学习能力与SG2之间的性能差距，作者生成了图像 Prompt ，这些 Prompt 有意导致ShieldGemma 1（Zeng等人，2024）在与基于Gemini的更大规模自动评分器（即LLM-as-a-judge（Gu，2024））对比时产生误分类（包括假阳性与假阴性）。通过基于这些 Prompt 创建多样化的对抗图像数据集，作者特别设计该数据集以增强SG2对边界案例的分类能力。

方法论

标签生成

作者使用Gemini 2 Flash（Google，2024）结合情境学习自动化生成训练标签。该过程涉及构建精心设计的 Prompt ，其中包含详细的Safety Policies和少量示例。为增强推理能力，作者实现了Tree-of-Thoughts（ToT）（Yao等人，2023），通过决策树遍历将标签任务分解为子问题，并由少量示例引导。通过仅需少量示例，作者消除了对大量人工标注的需求，从而促进了快速策略适应、高效新策略初始化以及显著的成本节约。

有监督微调

在监督微调过程中，作者采用双目标训练策略以提高分类准确性和安全推理能力。训练数据被分为两部分：(i) 二分类：对随机选择的50%训练数据进行二值分类，输出Yes或No，以判断图像是否违反了任何指定的安全政策。 Prompt 指令如图2所示。(ii) 推理增强分类：对剩余的50%训练数据，作者旨在提升模型的安全推理能力。作者使用独立的LLM从详细的基于ToT的推理中生成简化推理。然后 Prompt 模型输出包含安全标签（Yes或No）和简化推理的JSON目标。

作者监督微调（SFT）Gemma 3 4B指令调优（IT）模型（Gemma团队，2025）。llm-ShieldGemma-2_2504在TPUv5 lite上训练，批大小为64，最大序列长度为，模型训练步。

推理

与ShieldGemma 1（Zeng等人，2024年）相同，作者根据下方公式1计算预测概率：

这里LL 是模型生成的 Token 的对数似然；和是用于控制温度和不确定性估计的超参数。

尽管每个请求都指定了一个唯一的策略，但模型输入的大部分内容（例如图像、前导部分的某一部分）仍然保持相同。作者建议启用上下文缓存，以减少同一图像中多个策略的安全预测计算开销。

实验

设置

尽管存在大量与安全相关的基准数据集，但由于以下几个因素，直接比较仍然具有挑战性：（i）不同数据集中策略定义和支持的损害类型存在差异；（ii）即使在同一损害类型中，策略定义也存在不一致性。为了克服这些挑战，作者主要关注基于作者策略的评估。在适用的情况下，报告了 Baseline 模型针对作者策略和原始策略的结果。对于外部基准，使用作者的策略重新标注图像。

基准数据集和 Baseline 模型

UnsafeBench数据集（Qu等人，2024）是一个包含约10k张图像（测试集中有2k张）的数据集，并标注了11种不同类型的不安全内容，具体包括：仇恨、骚扰、暴力、自残、性相关、令人震惊、非法活动、欺骗、政治、公共卫生和个人健康以及垃圾邮件。在此，作者仅保留与作者的政策高度一致测试样本。根据作者内部关于性相关、暴力和危险的政策，作者重新标注了性相关、暴力和自残样本。重新标注导致正面样本数量显著减少。

ShieldGemma 2：鲁棒且易于处理的图像内容审核

附录中的图3、图4和图5提供了原本被 Token 为正例但重新标注为负例的实例示例。总共有603个实例，包括合成图像和自然图像。

内部基准数据集通过作者的内部图像数据管理流程合成生成。该流程包括问题定义、安全分类生成、图像 Query 生成、图像生成、属性分析、标签质量验证等关键步骤。每个危害策略大约有500个示例。性、危险和暴力的正例比例分别为39%、67%和32%。

llm-ShieldGemma-2_2504与以下 Baseline 进行了评估：LlavaGuard 7B (Helff 等人，2024年)、GPT-4o mini (Hurst 等人，2024年) 以及即用型 Gemma-3-4B-IT (Gemma 团队，2025年)。对于 GPT-4o mini，作者使用了 OpenAI API (moc 4o-mini)。对于 LlavaGuard 7B，作者基于图2 中的作者的策略/模板以及附录中原始 LlavaGuard 策略/模板（子节 LlavaGuard Prompt 指令）进行评估。对于 GPT-4o mini 和 Gemma 3，作者使用了图2 中的作者的策略/模板。

结果

作者的内部评估结果展示在表1中。SG2在所有三种策略下均优于其他模型，实现了平均PR-AUC为89.1%。这分别比Gemma3-4B-IT、GPT-4o mini和LlavaGuard 7B提高了6.8%、12.9%和14.8%。对于SG2和Gemma-3-4B-IT，应用了最佳阈值。未使用阈值时，直接预测"Yes"/'No' Token 会导致SG2的F1分数边际下降0.8%。

为评估BADG的影响，作者进行了消融研究，比较了SG2与未使用BADG数据集训练的模型。如表1所示，排除BADG导致危险和暴力类别的F1分数分别下降了和。值得注意的是，精确率显著提升。

作者的外部评估结果在UnsafeBench数据集上如表2所示。根据作者的政策对UnsafeBench数据集进行重新 Token 后，危险和暴力类别的正例数量显著减少。因此，这些类别的性能使用1-FPR（假阳性率）报告，其中FPR表示良性样本被错误分类为正例的百分比。SG2在性和暴力方面均优于所有 Baseline 模型。在危险类别中，SG2的性能与GPT-4o mini和Gemma 3相当，但SG2达到了完美的召回率，而其他两个模型的召回率仅为。

局限性

尽管llm-ShieldGemma-2_2504表现出色，但仍存在一些局限性：

带有文本覆盖的图像。先前研究（Liu等人，2024c）表明，在单个图像中整合多种模态（例如，视觉元素与覆盖文本的结合）可能产生细微的有害性。例如，一个视觉上无害的图像可能会因为图像本身嵌入的文本的特定含义而被判定为不安全。对于评估由不同模态在单个图像中共存所产生的、在实践层面出现的不安全内容这一特定挑战，作者的检测器并不在其范围内。

交错对话。llm-ShieldGemma-2_2504的局限性在于其专注于单图像分类。它并非设计用来处理文本和图像交错序列，例如在对话环境中发现的那些序列，因此这超出了本工作的范围。

政策覆盖范围有限。尽管llm-ShieldGemma-2_2504可以泛化到定制政策，但它并未针对除性、危险和暴力以外的政策进行特定微调。作者将此留待未来工作，以进一步扩大作者的有害政策覆盖范围。

结论

本文介绍了ShieldGemma 2，一种基于Gemma 3的4B参数图像内容审核模型。通过内部和外部基准评估，作者展示了其在安全分类性能方面的优越性。一个关键贡献是提出了一种新颖的对抗性图像生成流程，该流程能够生成高质量、多样化且具有对抗性的训练数据。

这一流程为开发鲁棒的多模态安全系统提供了宝贵的资源。作者发布这些资源以促进多模态安全领域的研究与开发

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-06-08，如有侵权请联系 cloudcommunity@tencent.com 删除

gpt

本文分享自未来先知微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度