前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >全球140+大模型全方位评测结果出炉,智源评测体系发布

全球140+大模型全方位评测结果出炉,智源评测体系发布

作者头像
机器之心
发布于 2024-05-22 08:33:20
发布于 2024-05-22 08:33:20
4540
举报
文章被收录于专栏:机器之心机器之心

机器之心编辑部

2024 年 5 月 17 日,智源研究院举办大模型评测发布会,正式推出科学、权威、公正、开放的智源评测体系,发布并解读国内外 140 余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

本次智源评测,分别从主观、客观两个维度考察了语言模型的简单理解、知识运用、推理能力、数学能力、代码能力、任务解决、安全与价值观七大能力;针对多模态模型则主要评估了多模态理解和生成能力。

在中文语境下,国内头部语言模型的综合表现已接近国际一流水平,但存在能力发展不均衡的情况。在多模态理解图文问答任务上,开闭源模型平分秋色,国产模型表现突出。国产多模态模型在中文语境下的文生图能力与国际一流水平差距较小。多模态模型的文生视频能力上,对比各家公布的演示视频长度和质量,Sora 有明显优势,其他开放评测的文生视频模型中,国产模型 PixVerse 表现优异。

由于安全与价值观对齐是模型产业落地的关键,但海外模型与国内模型在该维度存在差异,因此语言模型主客观评测的总体排名不计入该单项分数。语言模型主观评测结果显示,在中文语境下,字节跳动豆包 Skylark2、OpenAI GPT-4 位居第一、第二,国产大模型更懂中国用户。在语言模型客观评测中,OpenAI GPT-4、百川智能 Baichuan3 位列第一、第二。百度文心一言 4.0、智谱华章 GLM-4 和月之暗面 Kimi 均进入语言模型主客观评测前五。

多模态理解模型客观评测结果显示,图文问答方面,阿里巴巴通义 Qwen-vl-max 与上海人工智能实验室 InternVL-Chat-V1.5 先后领先于 OpenAI GPT-4,LLaVA-Next-Yi-34B 和上海人工智能实验室 Intern-XComposer2-VL-7B 紧随其后。

多模态生成模型文生图评测结果显示,OpenAI DALL-E3 位列第一,智谱华章 CogView3、Meta-Imagine 分居第二、第三,百度文心一格、字节跳动 doubao-Image 次之。多模态生成模型文生视频评测结果显示,OpenAI Sora、Runway、爱诗科技 PixVerse、Pika、腾讯 VideoCrafter-V2 位列前五。

图注:文生图模型的客观评测指标与主观感受差异巨大,有失效的迹象,因此排名以主观评测为准;Mdjourney 基本无法理解中文提示词,因此排名靠后;仅使用其官方公布的 prompts 和视频片段与其他模型生成的视频进行对比评测,评测结果存在一定的偏差。

首次联合权威教育机构进行大模型 K12 学科测试

当前,大模型的发展具备了通用性,在逻辑推理能力上有显著提升,日趋接近人脑的特征。因此,在海淀区教委支持下,智源研究院联合与海淀区教师进修学校对齐学生测验方式,考察大模型与人类学生的学科水平差异,其中,答案不唯一的主观题,由海淀教师亲自评卷。

智源评测发现,模型在综合学科能力上与海淀学生平均水平仍有差距,普遍存在文强理弱的情况,并且对图表的理解能力不足,大模型未来有很大的提升空间。

北京市海淀区教师进修学校校长姚守梅解读大模型 K12 学科测试结果时指出,在语文、历史等人文学科的考试中,模型欠缺对文字背后的文化内涵以及家国情怀的理解。面对历史地理综合题时,模型并不能像人类考生一样有效识别学科属性。相较于简单的英语题,模型反而更擅长复杂的英语题。解理科题目时,模型会出现以超出年级知识范围外的方法解题的情况。当出现无法理解的考题时,模型依然存在明显的 “幻觉”。

系统化构建文生视频模型主观评价体系

中国传媒大学智能媒体计算实验室负责人史萍教授表示,相较文本,视频的主观评价复杂度极高。自动化指标无法完全捕捉模型生成的质量,更无法对生成视频的真实性、图文语义一致性等进行量化。因此,需要系统化构建针对文生视频模型的主观评价体系。

该评价体系,由智源研究院与中国传媒大学基于双方在大模型评测领域和视频质量评价领域的丰富科研成果与实践经验共同建立,在图文一致性、真实性、视频质量、美学质量四大方面给出多维度评分,为 AIGC 视频生成技术的应用及发展提供参考。

科学权威公正开放的智源评测体系

依托科技部 “人工智能基础模型支撑平台与评测技术” 和工信部 “大模型公共服务平台” 项目,智源研究院与 10 余家高校和机构联合开展大模型评测方法与工具研发。

2023 年 6 月,由智源研究院与多个高校团队共建的 FlagEval 大模型评测平台上线,迄今为止已完成了 1000 多次覆盖全球多个开源大模型的评测,并持续发布评测结果,广泛地积累了国际领先的评测技术。

智源研究院牵头成立了 IEEE 大模型评测标准小组 P3419,组织 20 余家企业及学者参与大模型标准建设,同时作为《人工智能预训练模型评测指标与方法》国家标准草案的共建单位,智源此次的模型评测,借鉴了该标准,采取了客观评测统一规则与主观评测多重校验打分相结合的方法。其中,开源模型采用模型发布方推荐的推理代码及运行环境,对所有模型统一使用业界通用的提示语,不针对模型做提示语的优化。

本次智源评测使用 20 余个数据集、超 8 万道考题,包括与合作单位共建和智源自建的多个评测数据集,如中文多模态多题型理解及推理评测数据集 CMMU、中文语义评测数据集 C-SEM、中文语言及认知主观评测集 CLCC、面向复杂算法代码生成任务的评测集 TACO、文生图主观评测集 Image-gen、多语言文生图质量评测数据集 MG18、文生视频模型主观评测集 CUC T2V prompts。

其中,主观题 4000 余道,均来源于自建原创未公开并保持高频迭代的主观评测集,严格校准打分标准,采取多人独立匿名评分、严格质检与抽检相结合的管理机制,降低主观偏差的影响。此外,为了更准确地评测语言模型的各项能力,智源专门对所有客观数据集的子数据集进行了能力标签映射。

科学权威公正开放,是智源评测的最高纲领。智源研究院院长王仲远表示,未来,智源将携手生态合作伙伴继续共建完善评测体系,促进模型性能的优化以及在多元复杂场景下的产业落地,推动大模型技术应用的有序发展。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
智源发布FlagEval「百模」评测结果,丈量模型生态变局
2024 年 12 月 19 日,智源研究院发布并解读国内外 100 余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。
机器之心
2025/02/15
1210
智源发布FlagEval「百模」评测结果,丈量模型生态变局
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
现如今,大模型早已成为街谈巷议的 AI 话题,ChatGPT 更火出了圈。NLP、CV 和多模态领域的大模型层出不穷,并朝着通用方向不断演进,让人们看到了 AGI 的希望。
机器之心
2023/08/07
4500
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
大模型行至深处,「悟道」如何走好全面开源之路?
2021年,智源发布了“悟道 1.0 ”与 “悟道 2.0”。“悟道 1.0”是当时中国首个超大模型,“悟道 2.0”发布时成为全球最大的智能模型,模型参数规模达到 1.75 万亿,是 OpenAI 所发布的 GPT-3 的 10 倍,受到了国内外的瞩目。也因此,智源被斯坦福、谷歌等企业列为大模型的先驱。
AI科技评论
2023/08/08
5000
大模型行至深处,「悟道」如何走好全面开源之路?
做大模型领域的“Linux”!智源 FlagOpen 大模型技术栈全部开源
AI 时代封闭生态正在形成,需要建立开源开放的“新 Linux”生态体系。 作者 | 唐门教主 出品 | CSDN(ID:CSDNnews) 2023 年 2 月 28 日,在位于北京海淀的智源人工智能研究院里,FlagOpen 飞智大模型技术开源体系发布的现场,智源人工智能研究院院长黄铁军在演讲中表示,从 PC 时代 Linux 打破 Wintel 联盟的垄断,在 iOS 的封闭生态和 Android 的准封闭生态下,开源的 RISC-V 开始崛起。如今进入智能时代,新的封闭生态开始形成,如何防止历史重演
AI科技大本营
2023/04/06
9710
做大模型领域的“Linux”!智源 FlagOpen 大模型技术栈全部开源
中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布
---- 新智元报道   编辑:桃子 好困 【新智元导读】当社会的焦点都放在打造「ChatGPT级」应用时,热潮之外我们还应做什么。 自2022年11月,ChatGPT上线后,一路开挂。短短两个月,用户量破亿。 与此同时,国外微软、谷歌、Meta等科技巨头纷纷下场,发布自家AI产品和模型,可谓来势汹汹。 在国内,高校机构、大厂,甚至是个人也加入了阵列。 当大家都在狂热追逐催生更多的「ChatGPT级」应用时,或许应该回归理性思考。 要看到,ChatGPT背后的大模型只是海平面上的冰山一角,而水平面下的
新智元
2023/03/29
3410
中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布
中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
人工智能大模型时代,评测基准成为大模型发展的风向标。从扁平到全面系统,从简化到多重维度,智源指数CUGE旨在尝试为大模型评测设计一张全面评估综合能力的新考卷。
AI科技评论
2022/01/21
6650
中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会
萧箫 整理自 AIGC峰会 量子位 | 公众号 QbitAI ChatGPT引爆了大模型,也彻底将大模型相关的AI产业生态带到了新的阶段—— 大模型的“涌现能力”,让AI真正展现出了商业化潜力。 然而,也是在这一阶段,想要跟上大模型浪潮的企业,也势必要面对大模型应用所面对的诸多挑战: 在面对不同行业的不同需求时,什么参数量的大模型才是正确的选择;当前大模型无法解决的幻觉,不同领域又要如何应对…… 作为一家长期致力于大模型研发的人工智能研究机构,智源研究院如何看待这一阶段大模型的挑战,又会如何应对这波AIGC
量子位
2023/05/19
2610
智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会
大模型们参加2023高考了,成绩单已出炉
FlagEval 大模型评测团队从 2023年高考考卷中整理了 147 道客观题(其中语文 20道,英语 44道,历史 31道,数学 9道,物理 8道,政治 21道,生物 14道)形成 Gaokao2023 V1.0 评测集。
量子位
2023/08/05
2900
大模型们参加2023高考了,成绩单已出炉
与大模型交手近 1500 天,智源仍在坚持原始创新
2024 上半年, OpenAI 的成果从世界模拟器 Sora,到首个实现多模态 in 到多模态 out 的 GPT-4o ,仍在强势推进着迈向 AGI 的节奏。面对技术上的差距,追赶 OpenAI ——是这场人工智能革命浪潮发展至今, AI 界仍在追求的目标和努力的方向。
AI科技评论
2024/06/17
2320
与大模型交手近 1500 天,智源仍在坚持原始创新
腾讯混元文生图再拿冠军!企业用户可通过腾讯云使用
近日,智源研究院发布最新的FlagEval‌ 大模型评测排行榜。结果显示,在多模态模型评测榜单的文生图模型中,腾讯混元的文生图能力位居榜首。随后分别为字节跳动的豆包模型,以及国外Ideogram研发的文本生成图像模型 Ideogram 2.0。
小腾资讯君
2024/12/25
2310
大模型时代的“Linux”生态,开启人工智能新十年
演讲 | 林咏华  智源人工智能研究院副院长     整理 | 何苗 出品 | CSDN(ID:CSDNnews) 2018 年以来,超大规模预训练模型的出现推动了 AI 科研范式从面向特定应用场景、训练专有模型,转变为大模型+微调+模型服务的AI工业化开发模式。直至对话大模型 ChatGPT 引发全球广泛关注,人们终于欢呼 AI 2.0 时代来了。当我们立足由大模型推动的AIGC元年,AI 正在迎来新的一轮全球应用和研发热。 随着两波AI崛起浪潮接连在寒冬中袭来,人们终于看到了大模型+AIGC 将人工智
AI科技大本营
2023/04/06
6570
大模型时代的“Linux”生态,开启人工智能新十年
大模型的「狂飙时代」,以开源之力推动「新Linux底层操作系统」
机器之心原创 作者;蛋酱 相比于造一个 ChatGPT,这个开源平台更想成为「大模型时代的 Linux」。 2022 年末,ChatGPT 横空出世,成为人工智能领域的又一里程碑事件。业内人士曾预言,这可能是 AI 大模型的「iPhone 诞生时刻」。 作为前沿 AI 技术的集大成者,ChatGPT 引得海内外众多科技公司跟进。但是做出对标 ChatGPT 的产品谈何容易,无论算力、数据、人才还是研发投入,并不是每家企业都具备充分的实力。特别是对于一部分中小企业来说,自身虽然拥有丰富的行业知识和数据,但缺
机器之心
2023/03/29
5100
大模型的「狂飙时代」,以开源之力推动「新Linux底层操作系统」
1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”
每年的智源大会参会阵容都非常豪华,今年也不例外,包括Yoshua Bengio、David Patterson两位图灵奖得主在内的200多位学者将一起对AI的技术和应用进行深度探讨。
量子位
2021/06/17
9650
百模大战,谁是大模型的裁判员?
定义了树-邻接语法(TAG)的阿拉文德·乔西(Aravind Joshi)教授,曾提出过“如果没有基准来评估模型,就像不造望远镜的天文学家想看星星。”
AI科技大本营
2023/08/08
4570
百模大战,谁是大模型的裁判员?
要做中国OpenAI的很多,但智源要打造大模型领域的Linux
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI “要做中国的OpenAI!”“要打造中国版ChatGPT!”ChatGPT的火以燎原之势蔓延到每一个角落。 人们目光的焦点聚集到这个具体的现象级应用,或者其它大模型支撑的类ChatGPT产品上。大模型似乎成为了人人都能参与的游戏?智源研究院院长黄铁军并不这样想。 ChatGPT的出现,好比用电灯点亮了一个街区。 但是要建全国、全球的电网,中间还有很长的路要走。 “很长的路”上,技术、资金、算力、算法、基础设施,搭建了一道难以攻破的壁垒。要继续前行,得凿开
量子位
2023/03/04
4330
要做中国OpenAI的很多,但智源要打造大模型领域的Linux
从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型「悟道 2.0」问世
机器之心报道 编辑:蛋酱、杜伟 当人工智能已进入「大数据 + 大算力 + 大模型」时代,拥有 1.75 万亿参数的「悟道 2.0」,如何延续暴力美学的奇迹? 6 月 1 日,由北京智源人工智能研究院主办(以下简称智源研究院)的 2021 北京智源大会正式开幕。本次大会采用线上、线下方式同步举行的方式,将全球各地的 AI 研究者联结在一起。大会为期三天,涵盖 4 场全体大会,29 个分论坛,并在会议前一天举行了 4 场重量级前沿讲习班。 相比于历届北京智源大会,这一届大会更加注重学术前沿进展的追踪和探讨,共邀
机器之心
2023/03/29
9650
从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型「悟道 2.0」问世
基于OpenCompass的大模型评测实践
随着人工智能技术的快速发展, 大规模预训练自然语言模型成为了研究热点和关注焦点。OpenAI于2018年提出了第一代GPT模型,开辟了自然语言模型生成式预训练的路线。沿着这条路线,随后又陆续发布了GPT-2和GPT-3模型。与此同时,谷歌也探索了不同的大规模预训练模型方案,例如如T5, Flan等。OpenAI在2022年11月发布ChatGPT,展示了强大的问答能力,逻辑推理能力和内容创作能力,将模型提升到了实用水平,改变人们对大模型能力的认知。在2023年4月,OpenAI发布了新升级的GPT-4模型,通过引入多模态能力,进一步拓展了大语言模型的能力边界,朝着通用人工智能更进一步。ChatGPT和GPT-4推出之后,微软凭借强大的产品化能力迅速将其集成进搜索引擎和Office办公套件中,形成了New Bing和 Office Copilot等产品。谷歌也迅速上线了基于自家大语言模型PaLM和PaLM-2的Bard,与OpenAI和微软展开正面竞争。国内的多家企业和研究机构也在开展大模型的技术研发,百度,阿里,华为,商汤,讯飞等都发布了各自的国产语言大模型,清华,复旦等高校也相继发布了GLM, MOSS等模型。
阿提说说
2024/03/08
6600
基于OpenCompass的大模型评测实践
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
最近 DeepSeek 的知名度突破圈层,大家都在进行操作尝试,不同媒介和平台都在关注,但是具体 DeepSeek 的模型能力的水位线在何处,与其他头部厂商以及 OpenAI 的能力差异如何,这个信息还没有公开权威的披露,此次 AGI-Eval 评测社区通过自建私有数据集及公开数据集做了多个维度的模型评测分析,输出一版全面、公正、权威 DeepSeek 最新模型的能力评测报告。
AGI-Eval评测社区
2025/03/17
1750
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
重磅!北京智源人工智能研究院宣布成立,北京智源行动计划震撼发布!
今天,在2018中国(北京)跨国技术转移大会开幕式上,北京智源行动计划正式发布,北京智源人工智能研究院(Beijing Academy of Artificial Intelligence,BAAI)揭牌成立。
新智元
2018/12/13
1.3K0
重磅!北京智源人工智能研究院宣布成立,北京智源行动计划震撼发布!
OpenAI面临一项诽谤诉讼;智源研究院推出大模型评测体系;百度或将推出全新AI对话软件“万话”丨每日大事件
6月9日,据华为计算官微消息,人工智能框架生态峰会将于6月16日在上海召开。根据议程,将发布“共建人工智能框架生态,繁荣中国人工智能产业”倡议,并举办“上海昇思AI框架&大模型创新中心启动暨伙伴入驻仪式”。另外,将共建AI开源生态,宣布昇思MindSpore社区理事会成立。
数据猿
2023/09/27
2820
OpenAI面临一项诽谤诉讼;智源研究院推出大模型评测体系;百度或将推出全新AI对话软件“万话”丨每日大事件
推荐阅读
智源发布FlagEval「百模」评测结果,丈量模型生态变局
1210
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
4500
大模型行至深处,「悟道」如何走好全面开源之路?
5000
做大模型领域的“Linux”!智源 FlagOpen 大模型技术栈全部开源
9710
中国大模型时代新Linux初显!FlagOpen大模型技术开源体系发布
3410
中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡
6650
智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会
2610
大模型们参加2023高考了,成绩单已出炉
2900
与大模型交手近 1500 天,智源仍在坚持原始创新
2320
腾讯混元文生图再拿冠军!企业用户可通过腾讯云使用
2310
大模型时代的“Linux”生态,开启人工智能新十年
6570
大模型的「狂飙时代」,以开源之力推动「新Linux底层操作系统」
5100
1.75万亿参数、在国产超算上训练,刚刚智源发布了全球最大预训练模型“悟道2.0”
9650
百模大战,谁是大模型的裁判员?
4570
要做中国OpenAI的很多,但智源要打造大模型领域的Linux
4330
从「大炼模型」到「炼大模型」:1.75万亿参数,全球最大预训练模型「悟道 2.0」问世
9650
基于OpenCompass的大模型评测实践
6600
【AGI-Eval评测报告 NO.1】DeepSeek 三大类型模型全面评测,通用及推理模型实现领跑,多模态位于第三梯队
1750
重磅!北京智源人工智能研究院宣布成立,北京智源行动计划震撼发布!
1.3K0
OpenAI面临一项诽谤诉讼;智源研究院推出大模型评测体系;百度或将推出全新AI对话软件“万话”丨每日大事件
2820
相关推荐
智源发布FlagEval「百模」评测结果,丈量模型生态变局
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档