首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

资源 | FAIR & NYU开发XNLI语料库:15种语言(含低资源语言)

的测试集和开发集扩展到 15 种语言,包括斯瓦西里语和乌尔都语等低资源语言。...研究者使用文本蕴含标注这些句对,然后将这些句子翻译成 14 种语言:法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印度语、斯瓦西里语和乌尔都语,这就有 11.25...这些语言涉及多个语系,包括斯瓦西里语和乌尔都语这两种低资源语言。...XNLI 为低资源语言(如斯瓦西里语和乌尔都语)提供额外的开放平行数据。...本研究将 MultiNLI 的开发集和测试集扩展到 15 种语言(包括斯瓦西里语和乌尔都语等低资源语言),从而构建了一个 XLU 的评估集。

1.8K30

Facebook全新无监督机器翻译法,BLUE测试提升超过10分!

这个单语模型比较好获得,只要有小语种(比如乌尔都语)的大量单语数据集就可以。英语的单语模型则更好构建了。 通过使用单语模型对逐字翻译模型进行优化,就得到了一个比较原始的机器翻译系统。...接下来,Facebook研究人员再将这些机器翻译所得到的句子(从乌尔都语到英语的翻译)作为ground truth,用于训练从英语到乌尔都语的机器翻译。这种技术最先由R....不可否认,由于第一个系统(从乌尔都语到英语的原始机器翻译系统)的翻译错误,作为训练数据输入的英语句子质量并不高,因此第二个反向翻译系统输出的乌尔都语翻译效果可想而知。...不过,有了刚才训练好的那个乌尔都语单语模型,就可以用它来对第二个反向翻译系统输出的乌尔都语译文进行校正,从而不断优化、迭代,逐渐完善第二个反向翻译系统。...研究人员还测试了在语种上相隔较远的语种(英俄),训练资源较少的语种(英语—罗马尼亚语),以及语种相隔极远且训练资源极少的语种(英语—乌尔都语)的翻译。

90720
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    脸书采用无监督机器学习提供翻译服务

    由于缺少从一种语言到另一种语言的很多翻译示例——例如从英语到乌尔都语(Urdu),Facebook(脸书)公司已经开始使用无监督的机器学习来翻译其平台上的内容。...在实验中,该方法的表现与经过10万次翻译训练的有监督模型相当,并且在翻译示例很少的情况下,其表现优于Facebook的语言匹配系统。...Bordes说:“当你处理像英语到乌尔都语这样的案例很少的翻译任务时,我们系统的表现超过了有监督的系统。因此,在没有足够数据的时候,训练无监督系统比有监督系统更好。”...作为FAIR的一名老员工,Bordes表示这项研究是他见过的最好的翻译系统。Bordes说:“我们现在可以去一个使用未知语言的星球—或者说,跟外星人交谈—你可以尝试对他们所说的内容进行合理的翻译。...然后,使用大量数据(如书籍或其他书面文本)训练的语言模型被用于按照英语或乌尔都语使用者能够理解的结构来安排句子。最后,使用反向翻译来改进通过逐字翻译和语言模型获得的翻译结果。

    52640

    Facebook无监督机器学习翻译突破,表现优于监督模型

    当从一种语言到另一种语言的翻译示例没有很多时(例如从英语到乌尔都语),Facebook使用无监督的机器学习来翻译其平台上的内容。...该方法的表现与执行100000次翻译的监督模型一样,并且对于Facebook几乎没有示例的语言配对系统,它的表现更优。 “当你处理像英语到乌尔都语这样的案例时,翻译示例很少,我们的系统比监督系统更好。...“现在即使是一种没人会说的语言,甚至是外星人,我们也可以尝试对他们所说的内容进行合理的翻译,”Bordes说。...“你可以去一本古老的手稿上找到尚未破译的语言,你可以真正了解它的作用,所以这就是这项工作取得的突破。” 与其他FAIR项目一样,AI系统将是开源的,可以在GitHub上下载。...这个词嵌入方法是在去年秋天Lample和Ranzato共同撰写的一篇论文中提出的。 然后,用大量数据训练的语言模型(如书籍或其他书面文本)用于排列对于英语使用者或乌尔都语说话者有意义的结构中的句子。

    50210

    solr初探-安装使用

    前言碎语 Solr是一个高性能,基于Lucene的全文搜索服务器。...://apache.fayea.com/lucene/solr/6.4.1/ 如上图有两种方式可供选择: 1.下载src的源文件,solr是使用ant构建的,所以需要安装ant,自己构建,使用ant...://localhost:8983/solr/,如看到如下界面,恭喜你安装成功了 solr的基础使用-导入mysql数据测试 1.新增Core solr的管理已Core为单元,配置文件以及索引文件都存放在...Core里面,如下图,创建test的Core 注意的点: 如图箭头所指的目录需要自己在solr-6.4.1\server\solr目录下创建,如solr-6.4.1\server\solr\new_coro...(2).在solrconfig.xml同层目录新增如上箭头所指文件,然后配置数据库链接相关,如下 箭头所指为你要同步过来的查询结果 更加详细的配置可参考如下地址: 官方wiki:https://cwiki.apache.org

    1.1K90

    海量数据搜索---搜索引擎

    我们都知道是因为百度的搜索引擎,那么搜索引擎到底是个什么东西呢?可能有的程序员会想到es,但是es并不能代表搜索引擎,它只是其中的一种工具,不过这种工具确实好用,效率很高。...如果用专业的语言解释的话就是: 倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。...首先,对词典文件中的关键词进行了压缩,关键词压缩为,例如:当前词为“阿拉伯语”,上一个词为“阿拉伯”,那么“阿拉伯语”压缩为语>。...其次大量用到的是对数字的压缩,数字只保存与上一个值的差值(这样可以减小数字的长度,进而减少保存该数字需要的字节数)。...下载地址 http://lucene.apache.org/solr/downloads.html 解压后: [1542019660033039985.png] cmd 进入solr的bin目录,使用命令

    3.1K40

    第00篇-Solr与ElasticSearch对比

    07.Elasticsearch中的映射方式—简洁版教程 08.Elasticsearch中的分析和分析器应用 网上有很多Apache Solr和ElasticSearch之间的比较,我来写写我的看法...关于ElasticSearch的部署教程,推荐大家看这篇文章:elasticsearch初学终极教程: 从零到一 Apache Solr - Apache Solr提供了Lucene的功能,在一个简单易用...ElasticSearch—它是一个基于Apache Lucene之上构建的开源(Apache 2)、分布式、RESTful、搜索引擎。...Solr和ElasticSearch的产品乍听起来非常相似,都使用了相同的后端搜索引擎,即Apache Lucene。...因此,将ElasticSearch与最近推出的Amazon CloudSearch进行比较可能是最有用的,因为两者都声称在原理上涵盖了相同的用例。

    1.6K00

    真实 VS 合成,我们需要的真实数据微乎其微?| 一周最火AI论文

    这些数据包括28万多小时的广播中近28亿字的转录语音,以及有关语音的元数据。 本研究使用一个转录系统检查新的音频文件并将其转录后写回到数据中。...未来可能会发布新版本的RadioTalk,附带额外的转录音频和当前语料库的改进转录。...该模型在四种不同的语言情感数据集上进行了评估,包括乌尔都语数据集,该数据集还包含了其他语言,这些语言的标签数据很难找到,而且主流社会对这些语言的研究也不多。...乌尔都语是巴基斯坦的官方民族语言和印度宪法承认的22种官方语言之一。 结果表明,该模型可以显著提高所有数据集(包括非主流的乌尔都语数据)的基线跨语言SER性能,而不需要任何标签。...首先,研究人员设计并训练了一个实时二维姿态探测器来确定人体重要关键点的精确像素位置,并设计了一个双流神经网络来将检测到的二维关键点映射成三维姿态。 ? ?

    1.6K10

    文字转语音

    语音选项尝试使用不同的语音(alloy, echo, fable, onyx, nova, 和 shimmer)来找到与您期望的语气和受众相匹配的语音。当前的语音都针对英语进行了优化。...AAC:用于数字音频压缩,YouTube、Android、iOS 首选。FLAC:用于无损音频压缩,音频爱好者偏爱用于存档。WAV:无压缩的 WAV 音频,适用于低延迟应用以避免解码开销。...尽管当前的语音优化为英语,Whisper 支持以下语言并表现良好:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语...、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、...毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、塔加洛语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语

    41810

    将Elasticsearch直接连接到Java EE应用程序

    时髦的大数据来自3 V:音量,种类和速度。卷是指数据的大小,品种是指不同类型的数据,而速度是指数据处理的速度。为了处理持久性大数据,NoSQL数据库可以更快地写入和读取数据。...Elasticsearch是用Java开发的,并根据Apache License的条款作为开源发布。Elasticsearch是Apache Solr最受欢迎的企业搜索引擎,后者也基于Lucene。...例如,字符过滤器可用于将印度语 - 阿拉伯数字转换为其阿拉伯语 - 拉丁语等价物或从流中去除HTML元素。 甲标记生成器接收字符流,其分成单独的标记(通常是单个单词),并输出记号流。...private String street; @Column private String city; @Column private Integer number; } 定义模型后,让我们设置映射...映射是确定文档及其包含的字段如何存储和索引的过程。对于此示例,字段通常是类型关键字, 并且这些字段只能按其确切值进行搜索。此外,还有我们使用自定义分析器定义为文本的语言字段。

    1K30

    面试之Solr&Elasticsearch

    不需要其他组件,分发是实时的,被叫做”Push replication”。 2.Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。...倒排索引,先抽取文档中词,并建立词与文档id的映射关系,然后查询的时候会根据词去查询文档id,并查询出文档 Solr过滤器 Solr的过滤器对接收到的标记流(TokenStream )做额外的处理过滤查询...而数据库中并不是所有的字段都建立的索引,更何况如果使用like查询时很大的可能是不使用索引,所以使用solr查询时要比查数据库快 solr索引库个别数据索引丢失怎么办 首先Solr是不会丢失个别数据的。...和Apache Solr一样,它也是基于Lucence的索引服务器,而ElasticSearch对比Solr的优点在于: 轻量级:安装启动方便,下载文件之后一条命令就可以启动。...Elasticsearch是用Java开发的,根据Apache许可条款作为开源发布。 可以在那些文档上执行哪些基本操作?

    2.1K10

    CNVD-2023-34111|Apache Solr 8.3.1 RCE

    (Solr的主页) Apache Solr 的版本是 8.3.1,运行在 Windows 上。请注意,这次渗透测试是在 2020 年进行的,远早于log4j的发现。...(Solr 的索引页披露有趣的信息) Apache Solr 基于Cores。每个core都是一个独立的数据库,可以从网络界面查询和删除。...(instanceDir 设置为 configsets 目录的路径) (新core已创建) 对于 Solr 的以前 CVE(例如 CVE-2019-17558),这也是一个很好的工具,因为它们中的大多数都需要至少有一个内核才能被利用...》可以通过核心创建模块接口返回的不同错误来发现计算机上是否存在文件。 》Solr 的大部分参数都容易受到路径遍历的影响。 0x02 上传文件 在core中,可以上传文件和发送数据以供后端处理。...我没有找到其他可能泄露 UUID 的地方,但由于服务器运行在 Windows 上,因此可以使用 Windows 短文件名的技巧: 在 Windows 上,文件可以有一个更简单的名称,由 6 个字母数字字符后跟一个平铺字符和一个数字组成

    85530

    分布式--solr搜索引擎

    一、简介 搜索是项目中常用的功能,对于大数据量的搜索,查询关系型数据库是非常低效的,好在有三方专门用于搜索的工具,常用的搜索解决方案为: 基于Apache Lucene实现 基于百度API实现 基于谷歌...Web项目,所以需要先装好JDK 官网下载:https://solr.apache.org/downloads.html 1....修改配置文件 上面提到solr使用Document存储,Document包含的属性和属性类型都定义在managed-schemel中,争对中文的分词,我们需要自定义一个属性并赋予它类型 编辑对应核心的managed-schemel...新建配置文件 在同一个目录下新建配置文件,用于连接数据库以及做数据库字段和属性的映射: vi data-dept.xml 内容为: <?...-- 实现数据库的列和索引库的字段的映射 column 指定数据库的列表 name 指定索引库的字段名字

    74720

    四、SolrCloud的安装

    安装Zookeeper 1.下载Zookeeper 官网地址:https://www.apache.org/dyn/closer.lua/zookeeper/zookeeper-3.6.3/apache-zookeeper...-3.6.3-bin.tar.gz 或者也可访问地址:http://archive.apache.org/dist/zookeeper/ 自行选择版本下载 下载完Zookeeper的压缩包后,解压压缩包...apache-zookeeper-3.6.3-bin/data下创建一个文件myid,在myid文件中写入数字1,然后保存并关闭 2.启动zookeeper 进入zookeeper解压目录下的bin...\example-DIH\solr\solr\conf -confname solrconfig INFO - 2021-09-16 17:31:54.525; org.apache.solr.common.cloud.ConnectionManager...zookeeper的配置文件,我们上述步骤上传的配置文件名称为solrconfig,在shards中可以指定shard的名称,不过router必须要选择Implicit才可自行定义shard名称,一切都选择好后点击

    54010

    Solr在分布式环境中的应用

    solr集群搭建 1、单机版运行正常 2、搭建zookeeper集群(最好也安装到solr集群目录下) 3、复制能够运行solr单机版的tomcat到solr集群目录下 4、修改tomcat端口号...,数据库和索引库文档的映射关系,数据库的列明和索引库的字段完成映射(导入数据库表到solr中) solr在分布式项目中的应用 前提: 搭建一个mvc环境 步骤: 1、添加solr和zookeeper...-- 实例化访问solr集群的api对象 --> apache.solr.client.solrj.impl.CloudSolrServer...xml中定义的关键字 package ah.szxy.search.entity; import org.apache.solr.client.solrj.beans.Field; /** *...; import org.apache.solr.client.solrj.beans.DocumentObjectBinder; import org.apache.solr.client.solrj.response.QueryResponse

    88920

    ubuntu输入法ibus

    人生的旅程就是这样,用大把时间迷茫,在几个瞬间成长。——瑞卡斯 IBus 全称 Intelligent Input Bus是下一代输入法框架(或者说“平台”)。...项目现托管于 Google Code - https://code.google.com/p/ibus/ 此项目包含了世界多数语言的文字输入需求——由世界多个国家开发者维护。...sudo apt-get install ibus-m17n 这个软件包包含了几乎所有除了英语,中日韩等的其他输入法,如:阿拉伯语,阿姆哈拉语,阿萨姆语,阿萨帕斯坎诸语,奥杰布瓦语,白俄罗斯语,波斯语,...尼泊尔语,旁遮普语,普什图语,日语,瑞典语,瑞典,塞尔维亚语,僧加罗语,世界语,斯洛伐克语,四川彝族语,泰卢固语,泰米尔语,泰语,维吾尔语,乌兹别克语,乌尔都语,希伯来语,现代希腊语,信德语,亚美尼亚语...如果您使用的是 fcitx,请安装相应的包。 sudo apt-get install fcitx-m17n

    38510
    领券