首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大模型语料标注需要注意哪些?

大模型语料标注需要注意哪些?

原创
作者头像
算法大模型-丁香
修改2025-09-04 14:50:19
修改2025-09-04 14:50:19
1260
举报

一、语料类型

1.自采语料 2.商业语料 3.开源语料

二、抽检要求

1.人工抽检要求

具体做法:从全部语料中随机抽取不少于 4000 条语料:合格标准:合格率不应低于96%。以此来保证语料在人工抽检环节的质量水平。

2.技术抽检要求

结合关键词、分类模型等技术进行抽检抽样数量:从全部语料中随机抽取不少于总量 10%的语料。合格标准:抽样合格率不应低于98%,保障技术抽检的语料质量。

3. 评估技术规范要求

规范内容:评估采用的关键词库、分类模型应符合文件要求。确保在使用关键词、分类模型等技术进行语料抽检时,所使用的工具和模型是符合既定规范和标准的,从技术层面保障语料安全评估的科学性和准确性。

三、大模型上线备案测试通道需求:

1.大模型产品服务下载通道与测试账号-附加审核策略(10个)

2.大模型产品服务下载通道与测试账号-不附加审核策略(10个)

3.支持生成文本的大模型产品,需要提供API接口信息。仅生成图像或视频的大模型产品,可不用提供API接口信息。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、语料类型
  • 二、抽检要求
    • 三、大模型上线备案测试通道需求:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档