中文通用大模型综合性评测基准SuperCLUE发布，讯飞星火认知大模型领跑国内

文章来源：企鹅号 - 科大讯飞

5月9日，中文通用大模型综合性评测基准SuperCLUE正式发布。作为针对中文可用的通用大模型测评标准，SuperCLUE使用多个维度能力对一系列国内外代表性模型进行测试，评测榜单包含总榜单、基础能力榜单、中文特性榜单三部分。榜单结果显示，国际先进模型效果具有较大的领先性，同时国产GPT模型也有不俗的表现，刚刚发布的讯飞星火认知大模型在国内模型中领跑。

榜单地址：www.CLUEbenchmarks.com/superclue.html

SuperCLUE由权威的中文语言理解评测基准CLUE最新推出。CLUE包含代表性的数据集、基准（预训练）、语料库与排行榜，其中选择了一系列覆盖不同任务、数据量和数据难度的代表性任务对应的数据集作为测试基准数据集。作为第三方科研机构发起的客观、可信测试基准，CLUE也吸引了国内多家企业、机构和高校的参与和刷榜。

此次SuperCLUE从基础能力、专业能力、中文特性能力三个维度70余项子能力，选取国内外9个有代表性的可用大模型进行测评，兼具综合能力考量与中文特定任务理解积累的考察，并通过自动化测评以相对客观形式进行效果测评。三项榜单结果如下：

总榜单

基础能力榜单

中文特性榜单

从榜单结果可以看出，国际先进模型效果领先性较大，尤其是GPT-4相较于其他模型仍然明显领先，但国内GPT模型也有不俗表现。在中文领域，国内研发的大模型在部分维度表现突出，整体在逐步缩小与国际先进模型的差距；整体来看，国内大模型中讯飞星火认知大模型效果最佳。

5月6日，讯飞星火认知大模型正式发布，现场实测大模型七大核心能力，并发布教育、办公、汽车、数字员工四大行业应用成果。

围绕“1+N”整体布局，在“1”的方面，星火认知大模型在多风格多任务长文本生成、多层次跨语种语言理解、泛领域开放式知识问答、情境式思维链逻辑推理、多题型可解析数学能力、多功能多语言代码能力和多模态输入与表达能力上深耕，并将在年内三个关键节点实现持续升级。

围绕行业的“N”，星火大模型也在持续赋能。如教育领域，搭载了大模型能力的讯飞AI学习机升级语言学习功能，能像老师一样层层批改点评中英文作文，并实现口语老师一样的实景自由对话；

在办公领域，基于大模型能力，讯飞智能办公本、讯飞听见等相关产品升级了语篇规整、会议纪要等功能，还可实现一段录音一键成稿；

在汽车领域，大模型将重塑汽车人机交互，智能座舱实现车内跨业务、跨场景人车自由交流；

在数字员工领域，大模型助力虚拟人交互智能机全面提升业务能力，同时赋能生成式RPA构建更加智能的数字员工。

发表于: 2023-05-102023-05-10 17:00:00
原文链接：https://kuaibao.qq.com/s/20230510A06QNY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

中文通用大模型综合性评测基准SuperCLUE发布，讯飞星火认知大模型领跑国内

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐