内容安全是指对 ADP 应用输入和输出的内容进行实时风险识别,用以保障其符合法律法规与伦理规范。本模块采用可视化形式,支持安全策略配置、关键词库管理、以及应用安全设置,同时可支持实时查看线上风险数据。
概念定义
安全策略:一个安全策略由 “审核模型”+“关键词”构成,是内容安全的核心,用于识别一条内容是否存在违规风险。其中,“审核模型”是系统内置的、专门为审核风险而训练的模型;“关键词”也常叫做“黑词”,是指系统预设或用户自定义的词语集合,通过与内容进行匹配来判断是否包含违规词语。
应用安全:应用安全是对“应用-安全策略”的简称,即每个应用都会挂载一个安全策略,该安全策略生效于对应用输入和输出内容的风险识别。
操作指南
注意:
1. 本功能处于灰度阶段,预计2025年11月逐步全面开放。若您暂未看到功能模块,可联系商务申请加入灰度名单,或耐心等待后续开放。
2. 安全策略的 “新建策略” 功能当前为免费体验期,预计2026年1月按调用量计费,具体计费启动时间及费用明细,将提前通过官网文档公布。
一、安全策略
1. 进入 腾讯云智能体开发平台 控制台,单击左侧菜单平台管理 > 内容安全。


说明:
1. 系统会自动生成三个安全策略,分别为“高敏感系统策略”、“中敏感系统策略”、“低敏感系统策略”。
2. 系统自动生成的安全策略不可编辑。通常来说,这三个安全策略满足绝大部分的使用场景,其中推荐默认使用的是“中敏感系统策略”。
2. 单击新建策略,创建自定义策略,自定义策略可配置生效的审核模型以及关键词。


说明:
为便于您的管理,建议策略名称按一定的格式来命名,例如“业务场景_应用_风险程度”这样的格式。
3. 新建自定义策略后,单击编辑,可配置关键词库和审核模型。


4. 自定义策略编辑共三步,分别为“关键词设置”、“文本审核模型设置”和“图片审核模型设置”。
4.1 关键词设置:左侧为您的自定义关键词列表,勾选即表示该策略需要启用对应的关键词库。


4.2 文本审核模型设置:审核模型是系统内置的,设置需要开启哪些审核识别能力。


说明:
1. 新建的自定义策略会默认开启部分审核模型,您可以根据您的业务标准来开启或关闭具体的审核模型。
2. 底线风险类的审核模型不支持自定义关闭,例如教唆犯罪。这些不支持自定义关闭的审核模型,不会展示在列表里,因此即便自定义策略中所有展示的审核模型选择关闭,底线风险类的审核机制依旧存在。
4.3 图片审核模型设置:操作逻辑和文本审核模型一致,图片审核模型是对应用输入/输出中的图片进行视觉类的风险识别。


二、关键词库
1. 单击平台管理 > 内容安全 > 关键词库,进入自定义关键词的维护管理页面。第一步需要新建关键词库,关键词的添加都是在具体的关键词库中进行。


说明:
1. 每个词库仅支持一种匹配模式,推荐使用精确匹配,以保障识别准确率。
2. 模糊匹配作为精确匹配的补充机制,适用于对抗性高的风险进行扩展识别。模糊匹配时,系统会对待审核文本先进行转义处理,该处理包括:
英文字母统一转为小写
中文繁体转为简体
汉字转换为拼音
中文数字转为阿拉伯数字
移除所有空格及特殊符号
因此,在模糊词库中添加词条时,请务必使用小写、简体、拼音、阿拉伯数字的格式,以确保匹配的有效性。
2. 新建词库后,单击编辑,进入对词库的具体关键词操作。


3. 单击新建关键词,弹出关键词的输入窗口。


说明:
机审标签:是对关键词命中的分类,便于后续的数据统计和 case 分析。机审标签是系统预设的,不支持自定义标签。
组合词:是指一段文本中,要同时命中组合词中的各个词组,才算命中。
三、应用安全设置
1. 单击应用安全设置,进入应用 > 安全策略的维护管理页面。


说明:
该页面以应用为维度,来设置各应用使用的安全策略、命中风险内容后的处置文案、以及是否启用隐私信息脱敏。
2. 单击列表右侧的设置,弹出应用安全设置的窗口。


2.1 安全策略:选择该应用生效的安全策略。


2.2 风险处置回复:当输入/输出被识别为违规时,在 ADP 应用的对话端文案。


说明:
ADP应对对话端的效果示例如下:


2.3 信息脱敏:用于对输入或输出中,涉及隐私信息时,进行脱敏操作。


说明:
1. 支持范围:银行账户、身份证号、军官证、护照、驾驶证、社保卡、居住证、地址、手机号。
2. 脱敏效果:以身份证号为例,脱敏效果为 110105********1234。