首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

中文通用大模型综合性评测基准SuperCLUE发布,讯飞星火认知大模型领跑国内

5月9日,中文通用大模型综合性评测基准SuperCLUE正式发布。作为针对中文可用的通用大模型测评标准,SuperCLUE使用多个维度能力对一系列国内外代表性模型进行测试,评测榜单包含总榜单、基础能力榜单、中文特性榜单三部分。榜单结果显示,国际先进模型效果具有较大的领先性,同时国产GPT模型也有不俗的表现,刚刚发布的讯飞星火认知大模型在国内模型中领跑。

榜单地址:www.CLUEbenchmarks.com/superclue.html

SuperCLUE由权威的中文语言理解评测基准CLUE最新推出。CLUE包含代表性的数据集、基准(预训练)、语料库与排行榜,其中选择了一系列覆盖不同任务、数据量和数据难度的代表性任务对应的数据集作为测试基准数据集。作为第三方科研机构发起的客观、可信测试基准,CLUE也吸引了国内多家企业、机构和高校的参与和刷榜。

此次SuperCLUE从基础能力、专业能力、中文特性能力三个维度70余项子能力,选取国内外9个有代表性的可用大模型进行测评,兼具综合能力考量与中文特定任务理解积累的考察,并通过自动化测评以相对客观形式进行效果测评。三项榜单结果如下:

总榜单

基础能力榜单

中文特性榜单

从榜单结果可以看出,国际先进模型效果领先性较大,尤其是GPT-4相较于其他模型仍然明显领先,但国内GPT模型也有不俗表现。在中文领域,国内研发的大模型在部分维度表现突出,整体在逐步缩小与国际先进模型的差距;整体来看,国内大模型中讯飞星火认知大模型效果最佳。

5月6日,讯飞星火认知大模型正式发布,现场实测大模型七大核心能力,并发布教育、办公、汽车、数字员工四大行业应用成果。

围绕“1+N”整体布局,在“1”的方面,星火认知大模型在多风格多任务长文本生成、多层次跨语种语言理解、泛领域开放式知识问答、情境式思维链逻辑推理、多题型可解析数学能力、多功能多语言代码能力和多模态输入与表达能力上深耕,并将在年内三个关键节点实现持续升级。

围绕行业的“N”,星火大模型也在持续赋能。如教育领域,搭载了大模型能力的讯飞AI学习机升级语言学习功能,能像老师一样层层批改点评中英文作文,并实现口语老师一样的实景自由对话;

在办公领域,基于大模型能力,讯飞智能办公本、讯飞听见等相关产品升级了语篇规整、会议纪要等功能,还可实现一段录音一键成稿;

在汽车领域,大模型将重塑汽车人机交互,智能座舱实现车内跨业务、跨场景人车自由交流;

在数字员工领域,大模型助力虚拟人交互智能机全面提升业务能力,同时赋能生成式RPA构建更加智能的数字员工。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230510A06QNY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券