5月9日,中文通用大模型综合性评测基准SuperCLUE正式发布。作为针对中文可用的通用大模型测评标准,SuperCLUE使用多个维度能力对一系列国内外代表性模型进行测试,评测榜单包含总榜单、基础能力榜单、中文特性榜单三部分。榜单结果显示,国际先进模型效果具有较大的领先性,同时国产GPT模型也有不俗的表现,刚刚发布的讯飞星火认知大模型在国内模型中领跑。
榜单地址:www.CLUEbenchmarks.com/superclue.html
SuperCLUE由权威的中文语言理解评测基准CLUE最新推出。CLUE包含代表性的数据集、基准(预训练)、语料库与排行榜,其中选择了一系列覆盖不同任务、数据量和数据难度的代表性任务对应的数据集作为测试基准数据集。作为第三方科研机构发起的客观、可信测试基准,CLUE也吸引了国内多家企业、机构和高校的参与和刷榜。
此次SuperCLUE从基础能力、专业能力、中文特性能力三个维度70余项子能力,选取国内外9个有代表性的可用大模型进行测评,兼具综合能力考量与中文特定任务理解积累的考察,并通过自动化测评以相对客观形式进行效果测评。三项榜单结果如下:
总榜单
基础能力榜单
中文特性榜单
从榜单结果可以看出,国际先进模型效果领先性较大,尤其是GPT-4相较于其他模型仍然明显领先,但国内GPT模型也有不俗表现。在中文领域,国内研发的大模型在部分维度表现突出,整体在逐步缩小与国际先进模型的差距;整体来看,国内大模型中讯飞星火认知大模型效果最佳。
5月6日,讯飞星火认知大模型正式发布,现场实测大模型七大核心能力,并发布教育、办公、汽车、数字员工四大行业应用成果。
围绕“1+N”整体布局,在“1”的方面,星火认知大模型在多风格多任务长文本生成、多层次跨语种语言理解、泛领域开放式知识问答、情境式思维链逻辑推理、多题型可解析数学能力、多功能多语言代码能力和多模态输入与表达能力上深耕,并将在年内三个关键节点实现持续升级。
围绕行业的“N”,星火大模型也在持续赋能。如教育领域,搭载了大模型能力的讯飞AI学习机升级语言学习功能,能像老师一样层层批改点评中英文作文,并实现口语老师一样的实景自由对话;
在办公领域,基于大模型能力,讯飞智能办公本、讯飞听见等相关产品升级了语篇规整、会议纪要等功能,还可实现一段录音一键成稿;
在汽车领域,大模型将重塑汽车人机交互,智能座舱实现车内跨业务、跨场景人车自由交流;
在数字员工领域,大模型助力虚拟人交互智能机全面提升业务能力,同时赋能生成式RPA构建更加智能的数字员工。
领取专属 10元无门槛券
私享最新 技术干货