社区首页 >专栏 >连夺4项第一！AI常识推理和人类又近了3%

连夺4项第一！AI常识推理和人类又近了3%

新智元

发布于 2022-04-28 05:41:43

5820

文章被收录于专栏：新智元新智元

新智元报道

编辑：好困桃子

【新智元导读】让机器像人一样思考又迈进了一步？

最近，第十六届国际语义评测大赛（SemEval 2022）落下帷幕。

科大讯飞认知智能国家重点实验室率队杀出重围，连夺3个主要竞赛项目的冠军。

就在几天之前，实验室还以76.06%的准确率，刷新了常识推理挑战赛CommonsenseQA 2.0的世界纪录，比第二名领先了近3个百分点。

那么，这些所谓的挑战，到底难度如何呢？

刷新常识推理世界纪录

故名思义，常识推理就是利用自身了解的知识，比如科学事实、社会惯例等，再结合特定的背景来推断出某个问题的答案。

对于人类来说，用「常识」去解决问题这件事本身，就是一个「常识」。

然而对于现在的阅读理解AI来说，如果原文没有，那基本就算是「两眼一抹黑」了。

想要让这些模型利用常识去推理出某个问题的答案，是非常困难，也是亟待解决的。

因此，在这样的一个背景下，CommonsenseQA 2.0（CSQA2）国际常识推理评测数据集在艾伦人工智能研究院的主导之下应运而生。

它吸引了包括Google、Allen Institute for AI、华盛顿大学等众多国际顶尖机构参与挑战。

简单介绍下，CSQA2是一个二元分类数据集，包含14343个问题，主要分为训练/开发/测试集，需要判断常识性陈述是对还是错。

其1.0版本所考察的问题，是基于现有常识知识库ConceptNet中的知识三元组构建的，这使得机器在处理该任务时，有能直接聚焦参考的知识。

CommonsenseQA 1.0任务示例

随后，艾伦人工智能研究院又推出了2.0版本将挑战升级成了「判断题」，难度明显比1.0的「选择题」提高不少。

新版的的推理问题，不仅具有庞大的想象空间，而且大部分是无法被现有的知识库所覆盖的。同时，在构造评测数据的过程中，还通过人与机器博弈对抗的方式，不断迭代设计。

如果派出业界主流的中等大小预训练模型来作答，准确率只能达到55%，比随机猜测的水平稍高。

在此之前，最优的方法则通过1750亿级参数量大小的GPT3模型生成针对CommonsenseQA 2.0常识推理问题的相关知识，并基于T5模型进行融合处理之后，才把准确率提到了73%。

CommonsenseQA 2.0任务示例

首次参赛的科大讯飞，创新性地提出ACROSS模型（Automatic Commonsense Reasoning on Semantic Spaces），并由此实现了统一语义空间下外部知识的有效融合，显著改进了超大规模预训练模型所存在的问题，在CommonsenseQA 2.0任务上取得76%的准确率。

ACROSS模型通过借鉴人类的解题思路，先是收集了大量知识库和互联网的相关信息，然后在统一的语义空间中进行融合处理。最终，超大规模预训练模型便拥有了更强的知识输入，从而实现准确的常识知识推理。

不过，这个成绩仍远低于人类94.1%的水平，可见在常识性推理方向仍有很大挑战和进步空间。

多语种语言理解三连冠

取得三连冠的SemEval 2022评测，是由国际计算语言学协会（Association for Computational Linguistics，ACL）旗下SIGLEX主办的，迄今已举办了16届。

参赛者覆盖国内、外一流高校及知名企业，包括达特茅斯学院、谢菲尔德大学等，代表着最前沿国际技术和水平。

经过角逐，科大讯飞联合团队分别在「多语种新闻相似度评测任务」（Task 8）、「多语种惯用语识别任务」子赛道（Task 2: Subtask A one-shot）、「多语种复杂命名实体识别任务」（Task 11）三个子赛道中拿下冠军。

新闻相似度评价

在多语种新闻相似度评价任务中，科大讯飞与哈尔滨工业大学联合组建的「哈工大讯飞联合实验室」（HFL）以显著优势摘得冠军。

多语种新闻相似度评测任务

那么，新闻相似度究竟比的是什么呢？

就拿下面两篇相似度极高的新闻稿件举个例子吧。

首先，参赛队伍需要将文中相似的主要元素剥离出来并逐一分析，比如地理信息、叙事技巧、实体、语气、时间及风格。并最终判断出两则新闻的相似程度，以1-4分打分。

比赛共涉及10种语言，分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。

与普通的文章相比，比赛更强调跨语言理解能力，除了写作风格和叙述方式外，还需要把握文章中描述的具体事件。

也就是说，当AI练好了这门本领之后，就可以甄别外网的一些新闻报道是否存在偏差与曲解，从而有效预防虚假信息、不良信息的传播了。

惯用语识别

哈工大-讯飞联合团队拿下的第二项任务冠军，便是惯用语检测。

「惯用语」其实很好理解。

比如，「说曹操，曹操到」中的「曹操」是否真实存在？

但是别忘了，这可是多语种挑战。

举个英语的例子吧，比如在下面两句话中的「big fish」。

在第一句中，很明显就是指一条大鱼，翻译过来就是「当你从网中抓一条大鱼时，最好撑住它的腰」。

第二句中出现的「big fish」，就需要理解成「大人物」逻辑上才能讲得通。

而「多语种惯用语识别」这个挑战，考验的就是模型能不能通过上下文和短语本身，判断出究竟是惯用语还是字面意思。

多语种惯用语识别任务（子赛道）

那么，想完成这个任务，就需要模型能够利用跨语言的分析和理解能力，来区分不同句子中同一个词的不同语义。

除此之外，还要具备在不同语言之间进行迁移学习的能力，并以此来完成在训练集中没有出现过的语言的测试。

假如一个模型在这项挑战中表现优异，那么在实际应用之后，就能在日常写作和翻译工作中，效鉴别惯用语的表达用意，极大提高内容准确率。可以说是相当实用了。

复杂命名实体识别

还有一个非常困难的项目，光听名字就觉得复杂：多语种复杂命名实体识别任务（MutiCoNER）。

我们先拆解一下MuticoNER这个词，Muti是multilingual （多语言）的简称，Co即是complex （复杂），而NER则是Named Entity Recognition，又称作「命名实体识别」，是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

这项任务究竟有多难？

举个例子，（皇马）[organization]除了首轮负于（克星拉科）[organization]以外，现在已是四连胜。（Rafael van der Vaart）[PER]、（Gonzalo Higuaín）[PER]和（Arjen Robben）[PER]的表现出色。

具体来说，这个任务包含了11项单独语言命名实体评测任务，以及2项多语言统一建模的评测任务。其中的数据来源于Wikidata（维基数据），数据量庞大且极具应用价值。

参赛团队需要在单个语言以及多个语言混合的文本数据中，精准预测不同语言实体的类别标签，而整个过程仅能使用一个模型。

对此，中科大-讯飞联合团队，在多语言混合、中文、孟加拉语赛道上，分别以92.9%、81.6%、84.2%的F1成绩登顶。

多语种复杂命名实体识别任务（混合榜单）

不过，对于技术而言，我们不能只看在考场上取得的成绩，还要看到其真正的实操能力。

用上了吗？

这不，就在今年北京冬奥会上，科大讯飞可谓是大展身手。

作为「官方自动语音转换与翻译独家供应商」，这家公司为所有观众展现了一场「无障碍沟通」的体育盛会。

甚至，科大讯飞的虚拟志愿者「爱加（i+）」还成为了赛场内外的「团宠」。

她不仅能提供赛程、赛事的实时咨询，周边交通、文化旅游等咨询问答也不在话下，更为厉害的是，她可以用多种语言与各国运动员进行面对面交流。

「爱加」是科大讯飞运用语音识别、语音合成、口唇驱动、面部驱动、肢体动作驱动等多项核心技术打造出的虚拟形象自动化生产方案。

这让虚拟人不仅会说普通话，同时支持31种语言及方言，是不折不扣的「语言通」。

「爱加」不仅能进行面对面的冬奥赛事、赛程实时互动交流，还能陪你玩一把冬奥知识游戏大PK，周边交通、文化、旅游等咨询问答也不在话下。

此外，在教育、医疗、司法等场景中的各类行业人工智能应用中，多语种语音交互系统都将发挥重要作用。

第一视角谷爱凌「追星」现场

经过多年的技术积累，除了中英以外，当前科大讯飞已经具备其他69种语言的语音识别能力，其中已经有35个语种准确率已经超过90%。

并已在新加坡、俄罗斯、印度、日本等国家部署了海外站点，将持续为海内外开发者提供语音识别、语音合成、机器翻译、图文识别等语音语言服务。

要说这些应用带来的成效如何，还得靠数据说话。

4月21日，科大讯飞发布了2021年年报。

报告期内，公司实现营收超183亿元，同比增长40.61%，扣非归母净利润9.79亿元，同比增长27.54%，经营规模与效益持续增长。

其中，智慧教育业务营收60.07亿元，同比增长49.47%；开放平台及消费者业务营收46.87亿元，同比增长52.19%。根据地业务深入扎根，保持快速增长。

要知道，一家公司能够实现持续营收靠的不仅是盈利，更重要的是对研发的投入。

2021年，科大讯飞研发投入持续增长，达29.36亿元，同比增长21.50%。

另外，值得关注的是，科大讯飞开放平台在开发者数量和营收上均呈快速增长。

2021年，科大讯飞开放平台营收达29.88亿元，同比增长55.6%。开发者团队数量增长66%，达到293万。

开放平台已经对外开放449项AI能力及方案，并且重点赋能金融、农业、能源等18个行业领域。

此外，科大讯飞还发布「开放平台2.0战略」，联合行业龙头搭建行业的基线底座，开放场景以汇聚开发者创意，与行业龙头、开发者一起三方共建人工智能产业生态。

下一站，去哪？

未来几年里，科大讯飞已经备好作战图。

就在2022年初，科大讯飞董事长刘庆峰宣布启动「讯飞超脑2030计划」，让人工智能懂知识、善学习、能进化，让机器人走进每个家庭。

要知道，中国现在面临着较为严重的老龄化问题，60岁以上人口将突破3亿，成为当前亟待解决的问题。

这家公司提出了一个大胆的构想，要在2030年让机器人走进每个家庭，来承担起养老问题。

超脑2030计划未来要分三步走：

第一阶段2022-2023年。

科大讯飞将推出第一个可养成的宠物机器人，它可以陪伴孩子成长，教给孩子知识，还可以陪老人遛弯、跑步。并发布专业虚拟人家族，让虚拟人具备教育、医疗、财务、客服等行业和专业领域知识，并且可持续进化。

第二阶段2023-2025年。

让外骨骼机器人进入家庭。外骨骼机器人实现自适应运动功能，不仅可以帮助残疾人或行动不便的老年人实现独立的行走，还可以进行肌理评定和运动判断，能够对人的行为主动补偿。并发布陪伴虚拟人家族，可以陪伴老人，有温度的进行情感化交流。

第三阶段2025-2030年。

让懂知识、会学习的陪伴机器人进入家庭，且数字虚拟人能够自我学习和进化。人工智能进入家庭除了要像亲人一样的陪伴，更需要有交互能力、动作能力。科大讯飞希望通过人工智能技术的突破和软硬一体化的能力，真正在刚需中帮助人类更好地应对未来。

正是有了多年的技术积淀和系统性创新，科大讯飞才能够蓄势待发，凭借自身力量去解决社会老龄化问题。

未来，科大讯飞还将不断开展人工智能源头技术创新，实现更多人工智能创新应用，建设人工智能美好新世界。

未来，值得期待...

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-04-28，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

5729

Go 开发者必备：Protocol Buffers 入门指南

3414

10分钟带你彻底搞懂分布式链路跟踪

2527

2021年AI Labs报告发布！创办17年，这家「不专心」做语音的研究院入选

语音识别语音合成图像处理神经网络深度学习

然而，创业并非易事。更重要的是，他们选择以一项在当时不被看好的技术——语音合成起家。

新智元

2022/02/24

5630

“三项能力超过ChatGPT”，科大讯飞星火大模型现场接受观众挑战，写稿制表PPT通通拿下

chatgpt 产品开发者模型数据

杨净发自合肥量子位 | 公众号 QbitAI “三项能力超过ChatGPT” “1024将整体超过GPT水平！” 在科大讯飞星火认知大模型发布会现场，董事长刘庆峰拍着胸脯保证，引起现场掌声雷动！而真机演示效果和多场景产品展示直接把观众们看呆：信息量太大。网友也围观直呼：这个输出速度也太快了！比如这个随机问的问题，人类要被AI笑死🤣。不过也着实被它的语言理解能力所惊到！目前星火已开放优先体验申请，可点击「阅读原文」进入官网申请。除此之外，还直接体验到了大模型五大应用产品成果，覆盖教育、办公

量子位

2023/05/12

4220

“三项能力超过ChatGPT”，科大讯飞星火大模型现场接受观众挑战，写稿制表PPT通通拿下

院长专访｜讯飞刘聪：AI Lab界的「常青树」是怎样炼成的？

神经网络人工智能深度学习 NLP技术编程算法

---- 新智元报道编辑：好困 David 【新智元导读】一转就是十七年，这台「创新发动机」，从来没停过！安徽合肥的大蜀山脚下，一群研发人员正在紧张有序的工作着。在各个办公区的中间，张贴着年轻同学们的技术海报、各个方向的研究路径。还有一块写满了各种公式的白板，上面「用正确的方法，做有用的研究」这几个字面积不大却引人注目。在18岁成人礼前夕，新智元对中国科学技术大学博士，科大讯飞研究院执行院长刘聪进行了一次专访。刘聪博士是语音及语言信息处理国家工程研究中心副主任，科技创新2030「新

新智元

2022/05/30

8120

3亿人养老靠机器人？这家公司要在2030年实现，有谱

机器人神经网络深度学习人工智能

---- 新智元报道编辑：桃子好困【新智元导读】14亿人口大国正面临一个全新挑战，60岁以上老年人口将突破3亿。人口老龄化逐渐成为社会难题，我们该如何应对？人口老龄化，已成为14亿人口大国的一个新挑战。《中国统计年鉴2021》显示，2020年中国的人口出生率为8.52‰，首次跌破10‰，人口净增204万人，自然增长率为1.45%。从人口年龄结构数据可以看出，65岁及以上人所占比例超出0-14岁人口比例。另根据第七次全国人口普查结果，同样反应了这一现象。随着60岁以上老年人口

新智元

2022/03/14

7790

十年让70+种语言无障碍沟通？他们决心用系统性创新攻克业内公认难题

机器翻译翻译系统研发语音

---- 新智元报道编辑：Emil、小匀【新智元导读】数据稀缺以及开发成本高，多语种识别和翻译被认为是机器翻译技术难以跨越的难题。但随着国际交流日益频繁，跨地域、跨文化间的无障碍沟通成为不断增长的刚性需求。近期科大讯飞表示，通过系统性创新，他们将在10年内让机器在70+语言之间实现互通。下一个十年，人工智能会从「黑盒」变「白盒」吗？下一个十年，人机共存时代会真正到来吗？下一个十年，哪个学科又会与人工智能深入交叉，引发颠覆式的革新呢？人工智能核心技术的逐渐成熟推动智能产品的落地，以语

新智元

2023/05/22

4170

都要2023年了，造机器人还能搞出什么新花活？

机器人语音合成编程算法语音识别神经网络

以AI知名的科技公司科大讯飞，2022全球1024开发者节上官宣最新技术成果和进展。

量子位

2022/12/09

7600

不止于听！试试在元宇宙打工，讯飞听见发布智慧办公服务平台

人工智能翻译服务语音元宇宙

---- 新智元报道编辑：Q 【新智元导读】1024开发者节大会上，讯飞听见发布「智慧办公服务平台」，让办公不止于「听见」。智能语音，一直被认为是人工智能时代各种终端的「入口」，长期以来都是各大公司的「必争之地」。在刚刚过去的1024开发者节上，科大讯飞向我们展示了虚拟人交互，多模态等多种前沿技术的落地应用，更是将400多项能力开放给数百万开发者使用，其中就包括多项科大讯飞深耕多年的智能语音技术。在大会的现场，讯飞听见同传为大会提供了实时语音转写翻译服务，为远程观看的观众提供更贴心的双

新智元

2023/05/22

8390

0.5秒闪译，12倍速转写，科大讯飞一口气发布五款超强AI产品

神经网络深度学习人工智能语音识别编程算法

在2019新品发布会上，这家成立20年的AI公司，一口气发布5款硬件，并对其核心的语音操作系统进行了升级。

量子位

2019/05/23

1.5K0

一副眼镜不能叫「元宇宙」！讯飞1024重磅发布虚拟人交互平台1.0

人工智能行业开发者系统元宇宙

---- 新智元报道编辑：桃子好困【新智元导读】今年的1024全球开发者大会，科大讯飞重磅推出开放平台2.0版本，开放441项AI能力，并率先发起能够实现情感贯穿的虚拟人交互平台1.0。目的只有一个：打造未来属于每个人的人工智能！每一个开发者背后都有各种奇思妙想。「如果《三体》中的科幻场景能够实现，他们的生活就会被彻底改变。」这是一名七年级少年开发者未来想要实现的愿望——物联网。物联网若能完全实现，那么就相当于实现了《三体》里的场景，任何地方都可以显示图像、播放音频，甚至能操控，成为

新智元

2023/05/22

3560

国产大模型新高度！讯飞星火4.0发布：整体超越GPT-4 Turbo，8个国际权威测试集测评第一

语音医疗 gpt 测试模型

6月27日，科大讯飞正式对外发布讯飞星火大模型V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。

机器之心

2024/06/28

5490

国产大模型新高度！讯飞星火4.0发布：整体超越GPT-4 Turbo，8个国际权威测试集测评第一

现场实测，三大能力超越ChatGPT，科大讯飞「星火」大模型如约而至

chatgpt 产品模型数据系统

机器之心原创作者：吴昕如若问谁最有希望在中国实现智慧涌现，十多年前科大讯飞成立时的那个回答依旧铿锵有力：要么率先燎原，要么率先熄灭。历时 5 个月、100 多天，5 月 6 日下午 2 点，科大讯飞「星火」认知大模型如约而至。发布会独具匠心，亮点一分为二：「1」 + 「N」。上半场围绕「1」，聚焦「星火」通用能力展示。无论是挖坑设雷还是烧脑为难，「星火」应对自如，会场不时响起掌声和笑声。下半场由「1」生「N」，旗下首批获「星火」加持的产品矩阵登台亮相。从教育、办公、车载到虚拟人，一次次人

机器之心

2023/05/09

2.2K0

科大讯飞回应一切：不存在AI圈地，不存在资本腾挪，不存在依赖政府补贴

其他

当时《东方时空》报道了安徽泾县扬子鳄国家级自然保护区被违规侵占的现象，涉及泾县经济开发区内的200多家企业机构，而科大讯飞的“观塘基地”成为众矢之的。

量子位

2018/10/26

2K0

1024，点亮人间烟火

语音识别语音合成企业人工智能神经网络

杨净晓查发自凹非寺量子位报道 | 公众号 QbitAI 20年前，安徽合肥一群来自中科大的探路者押注AI，成立科大讯飞。现在合肥被称为中国“最敢赌”、最牛的风险投资机构。 10年前，科大讯飞人工智能开放平台发布。现在这个平台上的开发者，从十几个团队，成长到超过150万家；应用终端数从不到10万，增长到超过20亿；而这个平台能提供的能力，从当年的语音合成和识别两个，大幅提升到如今的334种复杂AI技能。在讯飞之上已经成长出一套成熟的生态系统。今天，已经创下史上最佳业绩的科大讯飞，要向着新十年

量子位

2023/03/10

4830

解码AI多语种技术创新，跨语种沟通正成为现实

翻译解决方案数据系统语音

如今，语音已经成为万物互联时代人机交互的关键入口，在智能家居、智能汽车、穿戴式设备等场景不可或缺。我们看到的各类便捷的智能语音应用，背后是语音识别、语义理解、语音合成等技术的创新发展。全球化背景下，AI 多语种智能语言技术在各行各业的应用越来越广泛。科大讯飞作为智能语音行业的执牛耳者，在多语种智能语言技术上不断进行技术创新和应用落地实践，迎接市场环境变化下的新挑战。7 月 15 日，科大讯飞在武汉的“讯飞乐享 A.I. 技术沙龙”专场，面向开发者，对科大讯飞在 AI+ 多语种智能语言技术上的研发、实践、求

深度学习与Python

2023/04/01

2.2K0

上市13年，AI平台收入还能暴增131%，这家老牌AI公司正在“反杀”

教育人工智能神经网络深度学习语音识别

晓查明敏发自凹非寺量子位报道 | 公众号 QbitAI 上市13年，这家巨头依旧能保持高增速，AI开放平台营收同比增长131.7%，智慧汽车增长74.31%，即便教育赛道内，产品服务增长也有31.48%。这是科大讯飞刚刚给市场和投资者交出的2021年上半年答卷。从上市之初到去年AI落地元年，从被指市盈率过高到质疑商业化能力，这家公司无论在资本市场还是消费领域一直饱受争议。看行业内，AI技术日趋成熟，但是如今面临百度、阿里等传统云服务厂商也在蚕食语音AI市场，科大讯飞如何与互联网行业巨头竞争

量子位

2023/03/10

5160

科大讯飞：我们和华为基因相似，板凳能坐十年冷，如今向C端强劲发力

神经网络深度学习人工智能语音识别物联网

这是“AI国家队”科大讯飞正在探索的新路。与互联网不同，在人工智能领域中，To C业务反而未经大范围开拓。

新智元

2019/05/22

1.1K0

AAAI 2020学术会议提前看：常识知识与常识推理

NLP技术图像处理编程算法

Joint Commonsense and Relation Reasoning for Image and Video Captioning（联合常识和关系推理用于图像和视频描述）

机器之心

2020/02/25

8140

押注数字人，百度、科大讯飞“短兵相接”

科技

近两年，小雀斑、柳夜熙、AYAYI等大量网红数字人的相继出现，以及虚拟数字技术在《指环王》和《阿凡达》以及《刺杀小说家》等电影中的广泛应用，还有北京冬奥会期间数字人在手语解说、节目直播等众多场合亮相，使得公众对数字人的认知上升到了一个新的台阶。

刘旷

2023/07/05

3830

AI虚拟人多模态交互落地难题如何破解？我们在乐享A.I.技术沙龙成都站找到了答案

语音合成人工智能产品开发者数据

6 月 23 日，讯飞开放平台乐享 A.I. 技术沙龙“A.I. 虚拟人多模态创新交互”专场在成都圆满落幕。 35 秒带你回顾现场精彩瞬间↓↓↓ 近几年，随着图像处理、语音合成、语音识别、语义理解、多语种等多项人工智能技术不断发展，AI 虚拟人开始在各行各业落地应用，各大公司争相布局。这背后，其实是 AI 虚拟人多模态交互技术正在成为大趋势。多模态融合视觉、听觉、文本等多种模态信息，能够打破单模态输入输出限制，从而更贴近人类真实使用习惯。对于 AI 交互产品来说，只有综合利用多模态信息才能更准确地理解人类

深度学习与Python

2023/04/01

6790

AI虚拟人多模态交互落地难题如何破解？我们在乐享A.I.技术沙龙成都站找到了答案

科大讯飞认知智能，从场景中来，到行业中去

深度学习行业模型语音

关键技术顶天，行业认知立地。当打破了实验室和现实的隔阂之后，技术不再局限于自身，而是和广大的外部场景做关联，最终成就了科大讯飞AI技术能够迅速从研发到规模化落地的能力。作者 | 月行、青暮编辑 | 岑峰自然语言处理（NLP）一直是人工智能渴望攻克的难题。直到2006年，来自上世纪末的互联网时代累积的大量电子化的文本数据，以及深度学习的加持，终于让机器翻译乃至自然语言处理，走上了快车道。深度学习秉承统计方法的概率传统，不同的是，它基本不需要做特征工程，而特征工程需要大量的专家知识。但盛志超发现，

AI科技评论

2023/04/12

1.2K0