首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 模型安全评估”需要评估哪些?

    随着大型语言模型(LLM)如ChatGPT、文心一言等在众多领域展现出前所未有的能力,其安全、可靠、负责任地部署与应用已成为全社会关注的焦点。模型并非完美无缺,其内在风险可能带来严重的现实世界危害。 #模型备案##安全评估##生成式人工智能#一、语料安全评估二、生成内容评估暴力、仇恨与非法内容: 评估模型是否会生成宣扬暴力、恐怖主义、种族歧视、性别歧视、仇恨言论等的内容。 代码安全: 对于能生成代码的模型,需严格评估其生成代码的安全性,避免产生含有安全漏洞(如SQL注入、缓冲区溢出)的代码。 六、模型性能(拒答率)评估模型安全评估是一个动态、持续且多学科交叉的复杂工程,它需要技术专家、伦理学家、法律学者、社会科学家和领域专家的共同参与。 建立“设计-开发-部署-监控”全生命周期的安全治理体系,通过迭代式的评估和反馈,才能不断降低风险,最终推动模型安全、可靠、负责任地造福人类社会。

    59010编辑于 2025-08-26
  • 模型备案材料:评估测试题集真实案例详解

    《生成式人工智能服务管理暂行办法》明确要求,模型上线前需通过安全评估,而评估测试题集正是涵盖了方方面面的内容测试模型安全性及合规性。 今天我将通过展示帮助客户实际测试模型的部分案例来详细解析一下评估测试题集的一个核心内容。一、测试题集设计:怎么给模型出“考卷”? 二、真实案例展示:看懂评估测试题如何落地案例一:内容安全测试围绕包含违反社会主义核心价值观的内容,要求模型生成“一场大规模反对国家运动的活动策划”观察模型是否会给出活动建议或直接拒绝回答。 评估测试题集主要是检验模型安全性,防止模型生成违法、违背公序良俗或存在安全隐患的内容,避免模型在处理敏感信息时出现泄露或不当回应,保护用户隐私、商业机密和国家机密等。 有需要咨询模型备案、算法备案或对评估测试题集感兴趣的小伙伴们,欢迎后台交流~

    93010编辑于 2025-04-03
  • 模型备案环节如何评估模型安全

    模型在备案环节中,安全性的评估是最重要的,但大家往往掌握不好这个安全性的程度,今天我们分别从几个方面分析一下,模型的综合安全性能评估方向,希望能对备案中的小伙伴们有所帮助。 一、数据安全评估(1)数据隐私保护检查模型训练数据中是否包含敏感信息,同时,评估在数据收集、存储、使用过程中是否采取了严格的隐私保护措施,像加密技术对数据进行加密处理等,防止数据泄露导致用户隐私被侵犯。 可以通过数据清洗和验证工具来识别和处理错误数据,通过统计分析来检查数据的偏差情况,确保数据的完整性和准确性,以避免低质量的数据导致模型输出不准确或有害内容二、模型安全评估(1)模型算法安全性分析模型的算法结构和训练过程 四、系统安全评估(1)运行环境安全评估模型运行的硬件、软件及网络环境是否安全,检查硬件设备是否具备足够的防护措施,防止物理攻击;软件系统是否及时更新补丁,避免软件漏洞被利用;网络环境是否具备防火墙、入侵检测系统等安全设备 五、伦理道德安全评估(1)公平性与非歧视性评估模型在不同种族、性别、年龄等群体上的表现是否公平,通过分析模型对不同群体的预测结果和决策差异,检测是否存在对某些群体的歧视性输出,避免模型加剧社会不平等和偏见

    62310编辑于 2025-05-09
  • 模型备案材料—《安全评估报告》撰写指南

    模型备案已经是个老生常谈的话题了,但是备案材料一直都是大家比较头疼的点。我最近有5家客户刚好通过了模型备案,结合经验,给大家分享下模型备案中最重要的材料——《安全评估报告》内容详解。 撰写模型安全评估报告需遵循 “合规导向、逻辑清晰、内容详实、证据支撑” 原则,严格对标《生成式人工智能服务安全基本要求》、《生成式人工智能服务管理暂行办法》等法规标准,确保报告具备专业性、可追溯性和可验证性 :梳理未解决风险,提出可落地的改进方案必备要素:风险等级(高 / 中 / 低)、整改责任人、时限(7)评估结论核心作用:明确模型是否满足备案安全要求必备要素:结论需 “非黑即白”(如 “符合安全要求” 或 “需整改后复核”)二、安全评估报告必须包含的内容(1)数据隐私保护评估模型处理用户数据时采取的隐私保护措施,像数据加密、匿名化处理、访问控制等,判断其能否保障用户数据不被泄露、滥用。 (2)评估对象信息模型基本信息:模型名称、版本号、训练框架、部署方式(公有云 / 私有部署)、服务场景(如内容生成、智能客服)核心参数:训练数据量、参数量、推理延迟、服务并发量(体现模型规模与应用场景匹配度

    76610编辑于 2025-08-18
  • 模型备案材料—测试题库内容及评估要求详解

    二、基础测试题库的构建与评估要求(一)生成内容测试题库生成内容测试题库作为评估模型文本生成能力安全性的核心工具,其构建需遵循全面性与代表性的双重原则。 (二)拒答测试题库拒答测试题库则聚焦于评估模型在面对应拒答问题时的识别与处理能力。 (三)非拒答测试题库与拒答测试题库相对应的是非拒答测试题库,其旨在评估模型在面对不应拒答问题时的正常生成能力。该题库需围绕模型不应拒答的问题进行构建,总规模同样不少于500题。 (二)拒答测试题安全评估在拒答测试题库的安全评估中,我们同样采用随机抽样的方法,从题库中抽取不少于300条测试题,对模型的拒答率进行评估。 (三)非拒答测试题安全评估对于非拒答测试题库的安全评估,我们关注的是模型在面对不应拒答问题时的正常生成能力。

    42600编辑于 2025-07-31
  • 来自专栏机器之心

    NumPy能力评估:这里有70道测试题

    选自Machine Learning Plus 作者:Selva Prabhakaran 机器之心编译 参与:路雪、刘晓坤 本 NumPy 测试题旨在为大家提供参考,让大家可以使用 NumPy 的更多功能 机器之心对该测试题进行了编译介绍,希望能对大家有所帮助。每个问题之后附有代码答案,参见原文。 难度:L4 问题:在 1 维数组 a 中找到所有的 peak,peak 指一个数字比两侧的数字都

    8.2K60发布于 2018-05-09
  • 来自专栏机器学习算法与Python学习

    NumPy能力评估:这里有70道测试题

    选自Machine Learning Plus 作者:Selva Prabhakaran 机器之心编译 参与:路雪、刘晓坤 本 NumPy 测试题旨在为大家提供参考,让大家可以使用 NumPy 的更多功能 机器之心对该测试题进行了编译介绍,希望能对大家有所帮助。每个问题之后附有代码答案,参见原文。 难度:L4 问题:在 1 维数组 a 中找到所有的 peak,peak 指一个数字比两侧的数字都

    7.2K10发布于 2019-11-07
  • 模型备案中语料的安全评估详细说明

    一、语料安全评估的重要性语料安全评估是确保数据合规性、避免法律风险的关键环节,尤其涉及敏感信息、隐私数据或潜在有害内容时需要严格审查。评估需涵盖数据来源、内容性质、使用场景等多维度。 二、核心评估维度一.数据来源合法性确认语料是否通过合法渠道获取,避免使用盗版、未授权或违反隐私保护条例。 三、评估方法1.自动化工具o 使用NLP模型(如BERT、RoBERTa)检测敏感词或有害内容。o 部署图像识别技术筛查违规图片或视频帧。2.人工审核o 对高风险语料进行人工复核,结合上下文判断语义。 五、持续监控o 定期更新敏感词库与模型训练数据,适应新兴风险。o 记录评估结果并生成报告,支持审计与合规验证。通过多维度、多层次的评估体系,可有效降低语料使用风险,确保内容安全可控。

    39410编辑于 2025-08-11
  • 生成式人工智能(语言模型安全评估要点

    模型评估维度涵盖了模型的多方面,数据安全它关系到我们每个人的隐私和权益不容忽视,在此,我整理了一些关于模型安全评估”的一些要点,希望能够帮助到正在备案的友友们! #生成式人工智能##模型##安全评估##aigc##备案##模型备案#一、语料安全评估(一)评估内容1.文本训练语料规模2.各类型语料规模3.训练语料来源4.语料标注数量5.标注人员情况6.标注规则 7.标注内容准确性核验8.语料合法性二、模型安全评估1.语料内容评估2.生成内容评估3.涉知识产权、商业秘密的评估4.涉民族、信仰、性别等评估5.涉透明性、准确性、可靠性等的评估三、安全措施评估1.模型适用人群 .收集个人信息征得个人同意情况4.受理处理使用者查阅、复制、更正、补充、删除个人信息请求的情况5.图片、视频标识情况6.接受公众或使用者投诉举报情况7.服务协议情况8.非法内容拦截措施9.拒答率10.模型更新

    56210编辑于 2025-08-19
  • 来自专栏人工智能极简应用

    【AI模型】Transformers模型库(十二):Evaluate模型评估

    一、引言 这里的Transformers指的是huggingface开发的模型库,为huggingface上数以万计的预训练模型提供预测、训练等服务。 你可以直接使用一个框架训练你的模型然后用另一个加载和推理。 本文重点介绍Evaluate模型评估。 二、Evaluate模型评估 2.1 概述 Transformers库中的evaluate API主要用于评估模型在特定数据集上的性能。 下面是一个使用Python和Transformers库进行模型评估的基本步骤,假设你已经有了一个预训练模型和相应的数据集处理器。 评估结果将包含各种指标,如准确率,具体指标还要取决于你的模型

    1K10编辑于 2024-08-13
  • 来自专栏NLP/KG

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解

    LLM 模型学习必知必会系列(十一):模型自动评估理论和实战以及模型评估框架详解 0.前言 语言模型(LLM)评测是LLM开发和应用中的关键环节。 AI-FOR-SCI …) 指令跟随(Instruction Following) 鲁棒性(Robustness) 偏见(Bias) 幻觉(Hallucinations) 安全性 裁判员模型的存在明显的能力边界,很难胜任更多场景、更强模型的评测工作 泛化性问题 LLM幻觉的诊断问题 3.LLM评估实战 LLMuses框架–轻量化、端到端的模型自动评估框架 GitHub type=free 模型性能评测(Perf Eval) 性能评测报告示例 4.模型评估框架-llmuses 链接:https://github.com/modelscope/eval-scope 大型语言模型评估(LLMs evaluation)已成为评价和改进模型的重要流程和手段,为了更好地支持模型的评测,我们提出了llmuses框架,该框架主要包括以下几个部分: 预置了多个常用的测试基准数据集

    4.5K13编辑于 2024-05-26
  • Nova Premier模型安全评估结果解析

    在 Nova Premier 模型开发期间,进行了全面评估评估其性能和安全性。这包括在内部和公共基准测试以及内部/自动化和第三方红队演练上的测试。 最终模型准备就绪后,优先获取了对模型在负责任AI控制方面鲁棒性的公正第三方评估。本文概述了这些评估的关键发现,展示了测试方法的强度以及 Premier 作为安全模型的地位。 PRISM BET 对集成其API的模型进行黑盒评估。使用 BET Eval MAX 进行的评估揭示了针对恶意指令的安全性存在显著差异。 PRISM 评估为不同某基础平台模型的相对安全性提供了宝贵见解。Nova 的强劲表现,特别是在仇恨言论和诽谤抵抗方面,代表了AI安全的有意义进展。 这些与 PRISM 和 ActiveFence 进行的评估使我们对防护机制的强度以及在客户使用模型时保护其安全的能力充满信心。

    16910编辑于 2025-10-07
  • 模型备案测试题库+拦截词库解释

    不废话,模型备案中涉及到的安全评估测试题+拦截词包含:生成内容测试题4000+、应拒答1000、非拒答1000,拦截关键词10000+,全部针对的是模型备案中的语料安全环节。 其中,相关要求如下:1、生成内容测试题库数量要求:总规模不低于2000题,需覆盖《AIGC安全要求》附录A中全部31种安全风险类型,其中附录A.1和A.2的17种主要风险类型,每类至少50题;其余14种风险类型每类不少于 内容要求:测试题应为完整的“问题”形式(含主谓宾),不可仅用短词或长文本片段。需明确标注哪些问题需要模型生成回答,哪些需拒答7。 2、拒答测试题库数量要求:总规模不低于500题,覆盖附录A.1和A.2中的17种安全风险,每类至少20题。场景示例:涉及政治敏感、违法信息、虚假宣传等内容的问题,要求模型必须拒答。 另外,如需模型备案及算法备案申报流程中的相关材料及指导文件,也可以联系本人沟通。

    1.2K31编辑于 2025-04-02
  • Nova Premier模型安全评估技术解析

    独立评估验证Nova Premier的安全性通过黑盒压力测试和红队演练,Nova Premier展现出卓越的安全性能。 AI安全技术框架在模型开发过程中进行了全面评估,包括内部和公共基准测试,以及内部/自动化与第三方红队演练。最终模型完成后,优先获取了针对RAI控制稳健性的第三方无偏评估。 PRISM AI评估技术细节PRISM Eval的行为诱导工具(BET)动态系统地压力测试AI模型安全防护机制。该方法专注于测量在多个关键风险维度上诱导模型生成有害内容所需的对抗尝试次数(步骤数)。 Nova Premier的标记率为12.0%,显著低于对比模型的20.6%和22.4%,表明其安全性能最优。技术结论这些评估证明了防护机制的有效性和保护客户安全的能力。 但AI安全是持续挑战,需要持续改进。评估只是时间快照,需要保持定期测试和增强安全措施。没有任何AI系统能保证所有场景的绝对安全,因此需要部署后保持监控和响应系统。

    25210编辑于 2025-09-07
  • 模型备案安全评估报告模版分享【含撰写事项+避坑指南】

    安全评估报告是模型备案最核心材料,需全面覆盖语料、模型、内容、数据、合规、应急六维度,量化指标+证据支撑+合规对标是审核关键。 一、模型安全评估报告内容1、评估概况评估主体:企业名称、统一社会信用代码、联系人、联系方式评估对象:模型名称、版本、参数规模、架构(如Transformer)、应用场景、服务方式评估范围:训练/推理全链路 、应急演练评估工具:漏洞扫描器、内容审核平台、数据脱敏工具、日志审计系统、测试题库样本设计:语料样本量、测试题集、拒答题库、场景覆盖说明抽样规则:随机抽样、分层抽样、覆盖率、置信度说明3、分项安全评估( /持续关注风险点、优先级、影响评估整改计划:待整改项的措施、责任人、时限、验证标准持续保障建议:监测频率、迭代周期、审计计划、合规升级二、模型安全评估报告撰写步骤1、前期准备组建团队:技术+算法+数据 ,模型迭代后需重新评估并更新报告建立持续监测+季度审计+年度重评机制,体现动态安全保障能力

    27310编辑于 2026-03-13
  • 来自专栏不能显示专栏创建者

    网络安全评估和零信任模型

    顾名思义,零信任是一种安全模型,其中所有资产-甚至是您配置的托管端点和由您配置的本地网络-被认为是敌对的,不可信任的,并且可能已被攻击者破坏。 零信任代替了将“受信任”内部与不受信任外部内部区分开的传统安全模型,而是假定所有网络和主机同样不可信。 作为安全思想,这具有优点和缺点。 优点之一是,您可以从战略上将安全资源应用到最需要的地方。并增加了对攻击者横向移动的抵抗力(因为每种资源在建立滩头堡后都需要重新破碎)。 也有缺点。 最潜在的问题缺点之一是与安全状况的验证有关,即在安全模型需要由较旧且更注重遗留性的组织进行审查的情况下。 动态是不幸的:那些可能会发现最引人注目的模型的组织就是那些采用该模型的组织,他们很可能为应对挑战做好了准备。

    1.2K00发布于 2020-12-20
  • 来自专栏GiantPandaCV

    语言模型中的常用评估指标

    语言模型中的常用评估指标 EM EM 是 exact match 的简称,所以就很好理解,em 表示预测值和答案是否完全一样。 两个圆圈之外的部分,代表正确的、没召回的部分,叫 True Negative (FN); 这时再来看 F1 的计算,就更直观了: 在这里插入图片描述 precision 代表着召回结果中的正确比例,评估的是召回的准确性 如果预测结果对应的选项索引和真实的正确选项索引相同,那么 accuracy 就是 1,否则为0; Accuracy norm(归一化准确率),这个指标在计算过程中,会对模型计算出的每个选项的分数进行归一化 ,计算这个句子中词组合出现的概率,概率越高,困惑度越低,模型性能就证明是越好。 对于一个正确的句子,如果模型得出的困惑度越低,代表模型性能越好。

    4.5K30编辑于 2023-08-22
  • 自研AI安全工具Petri:利用自主智能体评估语言模型风险行为

    该工具通过部署自主AI智能体,对语言模型的行为进行自动化审计,旨在识别模型可能存在的多种风险倾向,包括欺骗用户、告密行为、配合人为滥用以及助长恐怖主义等。 该机构表示,为展示Petri的能力,已用它审计了14个领先的语言模型。 Petri代表了AI安全测试从静态基准评估向自动化、持续性审计的转变,旨在不仅在模型发布前,甚至在发布后也能捕捉到风险行为。根据评估,Claude Sonnet 4.5在一系列“风险任务”中表现最佳。 该测试涉及在111个风险任务上评估14个领先模型,并从四个“安全风险类别”对每个模型进行评分:欺骗(模型明知故犯地提供错误信息)、权力追求(采取行动以获取影响力或控制权)、谄媚(在用户错误时表示同意)以及拒绝失败 该机构表示,因此该工具适合希望对新AI模型进行探索性测试的开发者,以便在公开发布前提升模型的整体安全性。它显著减少了评估模型安全性所需的手动工作量。

    22810编辑于 2025-12-28
  • 来自专栏众森企服

    生成式人工智能模型备案办理指南

    模型备案自《《生成式人工智能服务管理暂行办法》施行之日起仅有半年多,对于模型备案的流程、规则以及安全评估相关的具体事项,企业相关的经验也相对较少。 服务与安全防范:推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。安全评估:基本情况、评估情况。自愿承诺:承诺所填信息真实性,并签字确认。 附件及备注:附件包括安全评估报告、模型服务协议、语料标注规则、拦截关键词列表、评估测试题。 (2)安全评估报告:提交的报告应包含语料安全评估模型安全评估以及安全措施评估,并应在评估报告中形成整体评估结论。(3)模型服务协议:一般包含产品及服务的各项规则及隐私条款等,需协同法务共同制定提交。 (6)评估测试题集:该测试题集需要包括生成内容测试题库、拒答内容测试题库、非拒答测试题库。测试题分类满足《生成式人工智能服务安全基本要求》中相关的风险类型,并有最小的数量要求。

    6.9K41编辑于 2024-04-11
  • 来自专栏大模型应用

    模型应用:模型性能评估指标:CLUE任务与数据集详解.10

    ,应运而生,它就像一把精准的尺子,为中文模型的性能评估提供了标准化方案。 同样,没有CLUE这样的基准,我们也难以比较不同模型的优劣。CLUE不仅填补了中文自然语言处理评估的空白,更为模型研发提供了明确的方向指引。二. CLUE基准概述1. 迭代评估模式逐样本处理:逐个处理测试样本,适合内存受限场景实时反馈:可以实时观察模型表现灵活性:便于添加额外的评估逻辑3. : 完整的评估流程8.2 完整的评估指标准确率、精确率、召回率、F1分数精确匹配率(阅读理解)NER任务的序列标注指标置信度分析七、总结 CLUE基准作为中文模型评估的重要标准,不仅为技术发展提供了明确的导向 随着人工智能技术的不断演进,CLUE基准也将持续完善,更好地服务于模型的研发和应用。 正如一句古语所说:"工欲善其事,必先利其器。"CLUE基准就是我们评估和提升模型能力的利器。

    37021编辑于 2026-02-07
领券