机器之心发布 字节跳动人工智能实验室、加利福尼亚大学圣塔芭芭拉分校 字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校的研究者提出了跨语言流形混合(X-Mixup)方法为目标语言提供 “折衷” 的表示,让模型自适应地校准表示差异。此方法不仅显著地减少了跨语言表示差异,同时有效地提升了跨语言迁移的效果。 基于多语言预训练语言模型(比如 mBert、XLM-R 等),各种跨语言迁移学习方法取得了不错的迁移效果,但其中许多目标语言的性能仍然远远落后于源语言。字节跳动人工智能实验室和加利福尼亚大学圣塔芭芭拉分校通
作者丨陈怡然 论文地址:https://openreview.net/pdf?id=Heggj7GSZ5 网页地址:https://mtg-benchmark.netlify.app/ 1 前言 随着
【新智元导读】不同语言的数据量不同。一些数据较少的语言,嵌入模型的训练会遇到困难,而跨语言嵌入模型则允许研究者将来自不同语言的词汇投影到共享嵌入空间中,使我们能够把在拥有大量数据的语言上训练而成的模型——比如英语——应用到数据较少的语言上。今天为大家推荐的这篇论文,对跨语言嵌入模型进行了梳理。我们摘取论文的概要和评估部分为您做了介绍。 跨语言嵌入模型允许我们将来自不同语言的词汇投影到共享嵌入空间中。这使我们能够把在拥有大量数据的语言上训练而成的模型——比如英语——应用到数据较少的语言上。本文对跨语言嵌入模型
最近的研究已经证明,生成式预训练对于英语自然语言理解很有效。但该领域的研究基本上都是单语的,主要集中在英语。
论文名称:Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing
跨语言大模型(MLLMs)能够利用强大的大型语言模型处理和回应多种语言的查询,在多语言自然语言处理任务中取得了显著的成功。尽管取得了这些突破,但仍然缺乏一份全面的调查总结该领域现有方法和最新发展。因此,在本文中,我们进行了深入的综述,并提供了一个统一的视角,总结了多语言大型语言模型领域的最新进展和新兴趋势。本文的贡献可以总结如下:(1)首次综述:据我们所知,我们首次按照多语言对齐的方式对MLLMs研究领域进行了深入综述;(2)新分类法:我们提供了一个新的统一视角,总结了MLLMs的当前进展;(3)前沿与挑战:我们重点介绍了几个新兴领域并讨论了相应的挑战;(4)丰富资源:我们收集了丰富的开源资源,包括相关论文、数据语料库和排行榜。我们希望我们的工作能够推动MLLMs领域的突破性研究。
最近,一个预先训练的模型被证明可以改善下游问题。Lample和Conneau提出了两个新的培训目标来培训跨语言语言模型(XLM)。这种方法可以实现跨语言自然语言推理(XNLI)的最新成果。另一方面,wada和iwata提出了另一种无需并行数据学习跨语言文本表示的方法。他们将其命名为多语言神经语言模型。
项目地址:https://github.com/facebookresearch/XNLI
微博从2013年开发了Java语言的Motan RPC框架,基于此完成了服务化改造。Motan从2013年上线至今经历过每个热点事件,三节高峰的挑战,稳定性和可靠性都得到了实际场景的验证。这些经历之下微博Motan也积累了一套服务治理型RPC的服务化体系。
项目地址:https://github.com/facebookresearch/XLM
跨语言摘要(Cross-Lingual Summarization)旨在为一种语言的文档生成另一种语言的摘要。目前已有的跨语言摘要研究主要关注在新闻报道 [1,2],生活指南 [3] 以及百科文章 [4] 上,缺乏针对于对话文档的研究。不同于其他文档,对话文档记录了由多名参与者所提供的结构化对话信息,有着信息分散、话题转移频率高等特点。
大部分 NLP 问题是关于英语语言处理的,英语语言具备优秀的语言技术支持,而同类的支持对于阿尔巴尼亚语、缅甸语、宿务语等语种而言非常有限。弥补不同语种之间的数字鸿沟对于科学和民主都至关重要,同时这也代表了一种巨大的增长潜力。而其关键挑战在于,对齐不同语言的基础语义单元。
注意:如果您正在查找调查报告,此博客文章也可作为arXiv上的一篇文章。
Facebook AI近日发布一个名为XLM-R的新模型,使用100种语言、2.5 TB文本数据进行训练,在四项跨语言理解基准测试中取得了迄今最好的结果。
为什么需要数据序列化呢?因为数据要“传输”,比如将数据网络通信传递给其他服务器,或者持久化到磁盘。那么传输为什么需要序列化呢?因为在内存中的数据,当前进程是知道数据格式和内容的,但是数据传输是二进制(或文本格式),所以需要有一个内存数据格式转换为二进制(或文本格式)的过程。数据序列化,可以进行数据压缩、数据格式多语言兼容等。下面就按照序列化的技术演变过程一起看下序列化的发展之路。
摘要: 原创出处 https://www.cnkirito.moe/dubbojs-in-qianmi/ 「老徐」欢迎转载,保留摘要,谢谢!
微服务架构已成为目前互联网架构的趋势,关于微服务的讨论,几乎占据了各种技术大会的绝大多数版面。国内使用最多的服务治理框架非阿里开源的 dubbo 莫属,千米网也选择了 dubbo 作为微服务治理框架。另一方面,和大多数互联网公司一样,千米的开发语言是多样的,大多数后端业务由 java 支撑,而每个业务线有各自开发语言的选择权,便出现了 nodejs,python,go 多语言调用的问题。
2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种语言,该项技术在5类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单XTREME上,ERNIE-M也登顶榜首,超越微软、谷歌、Facebook等机构提出的模型。(但是现在降到了第7名)
论文:On the Cross-lingualTransferability of Monolingual Representations
作者:李加贝 方向:跨模态检索 链接:https://zhuanlan.zhihu.com/p/556921577 ACL'20: Emerging Cross-lingual Structure in Pretrained Language Models 这篇论文发表在ACL’20,作者研究了多语言掩码语言建模问题,并详细研究了影响这些模型对跨语言迁移的几个有效因素。 task: natural language inference (NLI), named entity recognition (NE
全世界约有6900种语言,但大多数并没有英语这种数据规模,这也导致大多数的NLP基准仅限于英文任务,这大大制约了自然语言处理的多语言发展。
实现跨语言无障碍沟通,从古至今都是人们的梦想,近年来伴随着中国对外开发力度的加大,基于无障碍沟通的需求更加旺盛。然而能熟练掌握外语的群体毕竟是有限的,因此面对面对话有障碍、外语邮件看不懂、外国口语听不懂等问题,至今仍在我们的跨语言沟通中广泛存在。
主题模型是自然语言处理领域的重要研究方向,具有各种各样的应用场景。然而,神经网络模型往往需要不同的数据集、实现方式和评估设置,这阻碍了主题模型的研究进展。
论文:A Robustly Optimized BERT Pretraining Approach.
今年2月,Facebook发表了论文《Cross-lingual Language Model Pretraining》,这篇论文提出了基于BERT优化的跨语言模型XLM,它刚刚出生就在两项机器翻译任务上取得了巨大进步。
本篇主要给大家介绍两篇文章:一篇是清华大学发表的XQA,该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。第二篇是澳洲昆士兰阳光海岸发表的Katecheo,该篇文章构建了一个模块化系统,它可以轻易的部署在Kubernetes集群(当前很多大公司都会使用Kubernetes)上用作商用。
选自苹果期刊 作者:Siri Team 机器之心编译 参与:路雪、黄小天 近日,苹果 Siri 团队在苹果机器学习期刊上连发三文:《Improving Neural Network Acoustic Models by Cross-bandwidth and Cross-lingual Initialization》、《Inverse Text Normalization as a Labeling Problem》、《Deep Learning for Siri‘s Voice: On-device De
人类传递信息的载体是语言,不同语言之间的交流靠的是翻译,比如世卫组织在疫情防控中,在官网上发布了一个公告,号召大家勤洗手以预防感染。
如果说自然语言处理可被誉为“人工智能皇冠上的明珠”,那么对话系统就是“自然语言处理皇冠上的明珠”。其中以苹果SIRI、Google Assistant为代表的任务型对话系统尤为学术界和产业界所关注。然而,构建一个任务型对话系统依赖于大规模的标注数据,这为系统如何快速迁移到新的领域、新的语言和新的任务都带来了极大的挑战。
服务化是互联网公司成长的必经之路。随着微服务的兴起,很多公司如火如荼的搞起了自己的服务化,有兴奋有无奈。那服务化该怎么做,该做什么?本文试图从有赞的发展历程来体会服务化发展。
Protobuf(Protocol Buffers)是由Google开发的一种数据序列化格式,用于结构化数据的存储和交换。它最初是为Google内部使用而设计的,后来被开源,成为一种跨语言的数据序列化工具,支持多种编程语言。
作者丨宋珍巧 1 简介 多语言机器翻译旨在用一个模型实现多语向的翻译功能,从而可以减少线上需求的模型数量,同时提升低资源语言的翻译性能。目前已有的多语言模型大多基于 Transformer 建模,受限于翻译性能和推理速度。基于该问题,字节跳动人工智能实验室在 "switch-GLAT: Multilingual Parallel Machine Translation via Code-Switch Decoder" 这篇论文中提出一个叫做 switch-GLAT 的非自回归多语言翻译模型。 给定一个源语言
论文名称:Cross-Lingual Machine Reading Comprehension
cross-lingual language models (XLMs)来自Facebook提出的将语言模型拓展为多语言的方法,详情可以见:XLM解读[1] 或原文 Cross-lingual Language Model Pretraining[2].
语言排行版,目前Java是第二名:https://www.tiobe.com/tiobe-index/
协议(Protocol)是个很广的概念,RPC 被称为远程过程调用协议,HTTP 和 TCP 也是大家熟悉的协议,也有人经常拿 RPC 和 RESTFUL 做对比,后者也可以被理解为一种协议... 我个人偏向于把“协议”理解为不同厂家不同用户之间的“约定”,而在 RPC 中,协议的含义也有多层。 Protocol 在 RPC 中的层次关系 翻看 dubbo 和 motan 两个国内知名度数一数二的 RPC 框架(或者叫服务治理框架可能更合适)的文档,他们都有专门的一章介绍自身对多种协议的支持。RPC 框架
AI 科技评论按:语义分析(semantic parsing)是人工智能的一个分支,是自然语言处理技术的几个核心任务,涉及语言学、计算语言学、机器学习,以及认知语言等多个学科。近年来,随着人工智能的发展,语义分析也越发重要。
本文将从上往下,循序渐进的介绍一系列相关.NET的概念,先从类型系统开始讲起,我将通过跨语言操作这个例子来逐渐引入一系列.NET的相关概念,这主要包括:CLS、CTS(CLI)、FCL、Windows下CLR的相关核心组成、Windows下托管程序运行概念、什么是.NET Framework,.NET Core,.NET Standard及一些VS编译器相关杂项和相关阅读链接。完整的从上读到下则你可以理解个大概的.NET体系。
如今我们构建了整个互联网后端架构,跨语言通信需求非常多,比如原有的系统是用Java开发的,但是在一些非常适合Node.js发挥场景的地方又要使用Node.js来开发,而两者之间的通信方法也有多种,目前跨语言最流行和轻量级的通信方式就是用HTTP的RESTful,也可以选择性能更好的Thrift。
在自然语言处理技术的整个发展历史中,如何把最小语义元素「单词」做数字化表示,一直都是一个研究热点。
server端stub又被称为skeleton(骨架)。可以理解为代理类。而实际上基于Java的RPC框架stub基本上也都是使用动态代理。
这篇论文的作者是来自于Google Research的Telmo Pires,Eva Schlinger和Dan Garrette。既然BERT能够在每一层都学习到特殊的表层、句法以及语义特征表示,那么多语言BERT(M-BERT)在上面学到了什么呢?多语言BERT在零样本迁移学习上又表现如何呢?
选自code.facebook 作者:Ves Stoyanov、Necip Fazil Ayan 机器之心编译 传统的自然语言处理系统只能对应于特定语言,如果想要让其应用支持多种语言,则需要从头开始构建相应数量的新系统。Facebook 最近提出的多语言嵌入方法可以在一些「已知」语言上训练 Classifier,应用于「未知」语言上,成功解决了社交平台中 AI 应用的多语言支持问题。本文将向你简要介绍这一技术背后的原理。 在 Facebook 上,超过一半的用户使用非英语语言。整个平台上,人们使用的语言超过
RPC协议是基于TCP、UDP等底层协议传输,在应用层用于协定服务方与调用方如何通信的规范。通过统一的协议,可以让服务方与调用方可以正确解析互相发送的数据。
虽然目前传统的跨模态检索工作已取得了巨大的进展,但由于缺少低资源语言的标注数据,这些工作通常关注于高资源语言(比如英语),因此极大地限制了低资源语言在该领域的发展。为了解决这一问题,作者针对跨语言跨模态检索任务(CCR)展开了研究,该任务旨在仅使用人工标注的视觉-源语言(如英语)语料库对模型进行训练,使其可以适用于其他目标语言(非英语)进行评估【如下图所示】。
这个模型在跨语言分类任务(15个语言的句子蕴含任务)上比其他模型取得了更好的效果,并且显著提升了有预训练的机器翻译效果。
PTM 通常是基于大规模文本语料训练通用的语言表示,而缺乏领域特定的知识。通过外部知识库引入领域知识被证明可以提升模型结果。这些外部知识包括:语言知识、语义知识、常识知识、事实知识和其他领域特定的知识等。
协议(Protocol)是个很广的概念,RPC 被称为远程过程调用协议,HTTP 和 TCP 也是大家熟悉的协议,也有人经常拿 RPC 和 RESTFUL 做对比,后者也可以被理解为一种协议… 我个人偏向于把“协议”理解为不同厂家不同用户之间的“约定”,而在 RPC 中,协议的含义也有多层。
领取专属 10元无门槛券
手把手带您无忧上云