首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

干货 | 元旦,一起NLP!(上)

第一部分 | NLP的诞生史 《圣经》关于巴别塔的故事 1.从前,巴比伦人想建造一座塔直通天堂。 建塔的人都说着同一种语言,心意相通、齐心协力。上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。...因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”。...2.虽然巴别塔停建了,但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢? 机器翻译被视为“重建巴别塔”的伟大创举。...数据集的任务是,给定前4句话组成的一个小故事,在候选的两句话中选出更合适作为当前故事的结尾的那句——所以是一个二分类任务。...并且因为这些故事是人为干预的,所以保证在涵盖标准答案的5句话中,不会有杂乱无关的信息,所有信息都是为核心故事服务的。来看一个例子: 这些好玩的东西是怎么实现的?机器真的可以代替川普发言吗?

93260

一心二用:高性能端到端语音翻译模型同时识别声音和翻译

道格拉斯·亚当斯(Douglas Adams)在小说《银河系漫游指南》(《The Hitchhiker’s Guide to the Galaxy》)里畅想了一种叫巴别鱼(Babelfish)的神奇生物...人们携带巴别鱼后,就能够在它的帮助下听懂任何异国语言。巴别鱼的名字来源于《圣经》里著名的故事“巴别塔”:人类想上天堂,开始建造叫做巴别塔的通天巨塔。上帝为阻止人类登天,迫使人类说不同的语言。...由于沟通不畅,巴别塔计划最终半途而废。 那么是否可以将一种语言的语音直接转换为另外一种语言的文字呢? 这就是语音翻译需要解决的问题。...在这个过程中存在非常严重的错误累积和延迟累积问题,因此,基于端到端建模的自动语音翻译研究方法应运而生。在端到端系统中,不再有两个独立模块,而是一个统一的模型直接把音频转换为翻译后的文本。...猜测翻译错误的原因可能是音频片段的相似发音问题,从而使翻译模型的推理发生混淆。 case3中,基准模型错误地翻译了大部分内容,虽然COSTT也将音频中的“today”识别为“to day”。

1.9K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言

    机器之心报道 编辑:Panda 在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。...到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。...然后,基于具体的语音任务(比如多语言语音识别或语言辨识),研究者再对所得模型进行微调。 结果 研究者在一些已有基准上评估了新开发的模型。...在 61 种 FLEURS 语言的基准测试上,随语言数量增长的字符错误率变化情况,错误率越高,模型越差。...接下来,使用之前已有的数据集(如 FLEURS 和 CommonVoice)和新数据集,Meta 的研究者还训练了一个语言辨识(LID)模型,并在 FLEURS LID 任务上进行了评估。

    35330

    华为敏捷DevOps实践:如何开好站立会议

    阅读字数:2175 | 6分钟阅读 摘要 愿大家能够更好的开好站立会议,提升团队成员的协同,建造自己的巴别塔。 大家好,我是华为云的产品经理恒少。...一、开篇小故事 巴别塔,也叫通天塔;据《圣经·旧约·创世记》第11章记载:当时人类联合起来兴建希望能通往天堂的高塔,高塔越来越接近天堂,上帝紧张了,他看到人们这样齐心协力,统一强大,心想:如果人类真的修成宏伟的通天塔...为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,并让人类分散世界各地,最终巴别塔没有建成。...————以上摘自互联网:) 这个小的宗教故事,揭示如果语言相通,目标一致产生的巨大作用,都可以建成一个通天塔。 而软件开发的过程却又是一个离不开协作、沟通的过程。...因为站在累,所以时间久了,就开不下去了,哈哈哈…… 愿大家能够更好的开好站立会议,提升团队成员的协同,建造自己的巴别塔:) 以上为今天的分享内容,谢谢大家!

    90640

    CDA原创 | 机器翻译之路-再造巴别塔

    本文为CDA原创文章,作者曾科,转载请注明来源 巴别塔的轰塌 圣经旧约第十一章,讲到了巴别塔的故事:人类联合起来兴建希望能通往天堂的高塔;为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通...由此机器翻译由此陷入低潮,此时上帝笑了,你们永远别想再造巴别塔,那么机器翻译之路就这么被打断吗,人类的动力来自希望,可此时,希望变成了绝望… 基于规则的机器翻译-不尽如人意 到了上个世纪七十年代,计算机性能与全球化的发展使得机器翻译重回人们视野...在现成的翻译的句子中,有些词可以被翻译成多个词,有些则完全不需要翻译,这里一个句子中的每个词语便有各种翻译的概率,并且还有相对于平行文本句子中的位置的概率,于是这些都成了统计学意义上的参数,机器本身并不需要知道词的含义...此时,上帝打了个喷嚏,额,我没事,这个貌似有点靠谱,但是你们还是造不出巴别塔。 再造巴别塔-任重道远 虽然统计机器翻译表现出色,但是机器翻译本身还很多问题,机器取代不了人类。...也就是说,机器翻译最终还是受制于人类对语言本身的了解,它到底是怎么产生的,大脑中是如何运行的......路漫漫其修远兮啊,但还是要有信心,总有一日人类能够重塑圣经,再造巴别塔!

    1.1K80

    一个听不见的人,也想要看懂每一个新闻 | 搜狗发布全球首个手语AI合成主播

    由于上帝在这座城改变了人类的语言,将人们打散,因此这座城被称为「巴别」(混乱的意思),虽然这个故事不可考,但这座半途而废的巴别塔如今正静静地躺在伊拉克巴格达南部的平原上。...但是在世界上仍然有这样一群人,似乎被遗忘在巴别塔的角落:他们看起来与常人无异,但是在他们的世界里则是一片宁静:没有世界的喧嚣,同时也切断了与其他人正常沟通的渠道。 ?...但是这一套独特的语言体系相当于将这一特殊的群体局限在自己的圈子里:他们相互之间可以交流沟通,但是与健听人之间在无形中就被自然分隔在了巴别塔下。...帮助TA们重建「巴别塔」 随着越来越多年轻的听障人士受教育程度不断提升,有不少人已经可以通过文字来从外界传达以及获取信息,但是对于更多的听障人士,比如中老年以及内陆地区的听障人士,看懂文字仍然是一件十分困难的事情...另一方面,消除恐怖谷效应还需要通过数字人在表达能力上是否有新的突破来进行评估。 因为即便外观看似像一个人,但是无法和人类自然交流,依然会让人害怕。这需要大量数据的「投喂」,来训练更好的模型。

    69740

    「非广告」程序员如何才能不被裁?

    那你的学习方向能不能和「减少获客成本」或者「提高转化率」挂钩呢? 比如,别家都是放马车的图片,你能不能做马车的3D全景展示呢? 将你的努力方向,尽可能与公司核心业务挂钩,你在公司的位置就会稳固。...即使公司经营不善,你被裁了,你的产出也能帮你很快找到新工作。 现在市面上很多程序员的简历,都是「精通这个技术,熟练那个技术」。 但很少有会从「我对业务创造了什么价值的角度」来谈技术的。...圣经旧约中记载,人类修建通往天堂的巴别塔。 为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通。...做业务就像是修巴别塔,不同的工种会说不同的语言: 产品的语言是原型图、各种AB test的数据 开发的语言是 Java、JS、SQL等 测试的语言是各种用例 这些语言都是对业务的描述,但是这些工种互相之间听不懂对方的语言...产品与开发互相敌视,就能稳固领导的地位。 如果你能听懂不同工种的语言,将他们团结起来,当巴别塔建成之时,你就是最大的功臣。 这一切的前提,就是「懂业务」。

    63830

    「非广告」程序员如何才能尽量避免被裁?

    持续组织了近一年的源码共读活动,感兴趣的可以 点此扫码加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。...那你的学习方向能不能和「减少获客成本」或者「提高转化率」挂钩呢? 比如,别家都是放马车的图片,你能不能做马车的3D全景展示呢? 将你的努力方向,尽可能与公司核心业务挂钩,你在公司的位置就会稳固。...圣经旧约中记载,人类修建通往天堂的巴别塔。 为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通。...做业务就像是修巴别塔,不同的工种会说不同的语言: 产品的语言是原型图、各种AB test的数据 开发的语言是 Java、JS、SQL等 测试的语言是各种用例 这些语言都是对业务的描述,但是这些工种互相之间听不懂对方的语言...产品与开发互相敌视,就能稳固领导的地位。 如果你能听懂不同工种的语言,将他们团结起来,当巴别塔建成之时,你就是最大的功臣。 这一切的前提,就是「懂业务」。

    45720

    新的AI上帝来了!有一天AI或取代一切旧宗教

    Wells的短篇小说《蚂蚁帝国》改编的电影中的台词。...这样来看,有形的AI霸主的想法仍超出了我们的理解范围。 AI使宗教失效 最后,人工智能有可能促成无神论的兴起和世界宗教的最终解体。...AI是否能够完全证明或反驳神的存在?或者,就像巴别塔的故事一样,AI的发展是否会造出一座足够高的塔以直达天堂,引发造物主制造出新的混乱和遗弃?...(译者注:巴别塔是《圣经》中记载,当时人类联合起来兴建希望能通往天堂的高塔;为了阻止人类的计划,上帝让人类说不同的语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。)...《圣经》中的巴别塔 我没有答案,但我确实希望如果AI真的变得超级聪明,它可以成为造福世界的有益力量,帮助我们变得更“神圣”而不是更弱小——或者至少更充满爱,不管我们是否信仰宗教。

    74750

    大话胡安: 我为什么创立协议实验室?

    ——[马可福音8:37,马太福音16:26] 大约是2007年,大学二年级的时候,我读到了伟大阿根廷作家博尔赫斯于1944年写的一篇著名的短篇小说:《巴别图书馆》。...为了传播和理解基督教的教义,现代大学被广泛设立。为了人类的未来,我决心构建人类知识和信息的巴别图书馆。 毕业之后,大概是2013年,我一直在研究一大堆的知识工具。...我认为这里的潜力没有被充分利用。 带着这些思考,我在纸上写写画画,居然画出了下面的图形: 但巴别塔的前车之鉴让我重新思考博尔赫斯关于巴别图书馆的隐喻:协议。...巴别塔的故事:当时地球上的人们都说同一种语言,当人们离开东方之后,他们来到了示拿之地。在那里,人们想方设法烧砖好让他们能够造出一座城和一座高耸入云的塔来传播自己的名声,以免他们分散到世界各地。...从古腾堡到人类信息的全球基础设施,已经涌现了很多类似的破坏性技术,而协议实验室的工作,更接近博尔赫斯的巴别图书馆,其结果我们无法完全预测。

    55210

    托尔斯泰《安娜·卡列尼娜》主要人物

    —温文尔雅 扎哈尔·尼基季奇——斯季瓦秘书 谢尔巴茨基一家: 谢尔巴茨基公爵 谢尔巴茨卡娅公爵夫人 (下面按照年龄顺序排列) 谢尔巴茨基——多莉和吉提,娜塔莉的哥哥——与列文一起温习功课并同时考进大学...卡塔瓦索夫——列文大学里的老同学、自结婚后还未见过面的卡塔瓦索夫教授。卡塔瓦索夫以其明朗而又纯朴的世界观赢得了列文的好感。...卡塔瓦索夫,费奥多尔·瓦西里伊奇,早已打算履行对列文许下的去他家造访的诺言,于是乘车同他一起前往。...娜坚卡——利季娅·伊万诺夫娜的侄女,是在她身边受教育的 别特西公爵夫人(彼得戈夫的美人,特韦尔卡娅公爵夫人)——别特西是安娜的表嫂,与渥伦斯基同姓,她每年有十二万卢布的收入。...安娜刚进入社交界,别特西公爵夫人就特别喜欢她,处处照应她,把她拉进自己的圈子里,同时嘲笑利季娅·伊万诺夫娜伯爵夫人那个社交圈。 图什克维奇——别特西的情人。

    5K20

    懂「印度方言」的多语言机翻模型挑战0资源翻译,论文已被ACL2021接收

    近期,一篇由ACL2021接收的论文或许可以带我们一窥巴别塔之后的世界。 据统计,目前世界上存在的语言超过6900种。 ?...《圣经·旧约·创世记》中记载着「巴别塔」的传说:人类联合起来兴建能通往天堂的高塔。 机器翻译的终极使命就是构建人工智能时代的「巴别塔」。 ?...有意思的是,LaSS同时还表现出极强的通用性,能够在保证不影响原来语言对的效果的前提下,在几分钟之内扩展到新的语对并取得相当好的表现。...零资源翻译最大的挑战之一是目标偏离(off-target issue) [5],即模型翻译到错误的目标语言。...为了更好地说明LaSS能够缓解目标偏离的问题,作者同时还采样了部分翻译例子。 ? 可以看到LaSS极大地改善了翻译语言的准确性,而基线模型翻译的句子虽然意思上是正确的,但翻译到的目标语言则是错误的。

    49830

    腾讯信息安全部征战世界机器翻译大赛获不俗战绩

    北京时间5月22日下午4点,在刚结束的世界机器翻译大赛(WMT)中,信安代表队(由信息安全部北京基础研究组bojiehu(胡博杰)、ambyera(阿敏巴雅尔)、springhuang(黄申)三人组成)...近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以 WMT 数据集作为实验数据,并以 BLEU 评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估。...信安代表队作为一个汉族和蒙古族的联合小团队,由springhuang(黄申)博士负责,员工bojiehu(胡博杰)和实习生ambyera(阿敏巴雅尔)组成,成员连续几日彻夜未眠训练模型、调整参数、优化算法...最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。...如演示视频: 维吾尔语-汉语同声传译系统 (确保清晰度,建议全屏播放) 同时,信息安全部希望通过在这个领域的多年积累和打磨,旨在打通藏语,蒙语,朝鲜语等小语种到汉语的巴别塔。

    2.1K50

    腾讯征战CWMT2018获英汉翻译和总成绩第一

    英语英汉新闻EC英语-汉语蒙汉日常用语MC蒙古语-汉语藏汉政府文献TC藏语-汉语维汉新闻UC维吾尔语-汉语多语言翻译任务英、日、汉多语言翻译任务JE日语-英语翻译质量评估任务汉英翻译质量评估CE-QE汉语...-英语英汉翻译质量评估EC-QE英语-汉语 机器翻译尤其是民族语言机器翻译,一直是部门的业务刚需。...我国是一个56个民族,200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造民汉交流的巴别塔,一直是团队的目标...最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。...打造出符合自身业务特点的参赛技术系统。比赛中,团队汉族成员胡博杰,黄申,蒙古族成员阿敏巴雅尔鏖战数夜,从技术调研,训练模型,优化算法,后处理到提交评测结果短短一周时间。

    1.7K40

    赛博仓颉,在线造字!Stable Diffusion:没人比我更懂汉字

    在Reddit上,有一个「r/ChineseLanguage」的话题,里头专门发一些外国人学中文遇到的问题的吐槽。 对大部分学习中文的外国人来说,汉字永远是个跨不过去的坎。...例如,用火腿组成的「肉」字, 以及用绳子组成的「绳」字。 博主分享了图像的生成方式,在模型中输入需要呈现的材质照片,Depth2Image就会生成该材质对应的中文汉字。 此贴一出便引来广泛讨论。...网友在热情分享自己创作的文字同时,也激动地表示:这在教育领域的应用未来可期! 其实在两年前,已经有人从事文字图像化的研究。...可以发现,当时AI生成的图像更属于艺术字的范畴。例如右下角的图像,小编看了好久才认出是「制」字。 经过两年的发展,文字图像化的技术更加成熟。...巴别塔后,人类文字不通,无法交流;现代科技在克服语言壁垒的同时,又在建造一座新的「巴别塔」。这次,人类会成功吗?

    1.1K50

    给外行能看懂的科普:这就叫自然语言处理

    如果能够通过机器翻译准确地进行语言间的翻译,将大大提高人类沟通和了解的效率。 《圣经》里有一个故事说巴比伦人想建造一座塔直通天堂。建塔的人都说着同一种语言,心意相通、齐心协力。...上帝看到人类竟然敢做这种事情,就让他们的语言变得不一样。因为人们听不懂对方在讲什么,于是大家整天吵吵闹闹,无法继续建塔。后来人们把这座塔叫作巴别塔,而“巴别”的意思就是“分歧”。...虽然巴别塔停建了,但一个梦想却始终萦绕在人们心中:人类什么时候才能拥有相通的语言,重建巴别塔呢?机器翻译被视为“重建巴别塔”的伟大创举。...三十年沧海桑田,此时研究者已经认识到简单的语言规则的堆砌无法实现对人类语言的真正理解。研究发现,通过对大量的文本数据的自动学习和统计,能够更好地解决自然语言处理问题,如语言的自动翻译。...我们注意到:正确的单词切分取决于对文本语义的正确理解,而单词切分又是理解语言的最初的一道工序。这样的一个“鸡生蛋、蛋生鸡”的问题自然成了(中文)自然语言处理的第一条拦路虎。

    1.4K70

    Webpack基本使用

    Webpack介绍:主要用于web项目中打包资源进行自动构建,Webpack将所有资源视为JS的模块来进行构建,所以对于CSS,Image等非JS类型的文件,Webpack会使用相应的加载(loader...--dev-save 如果你使用Webpack 4+ 版本, 你还需要安装CLI. npm install -D webpack-cli 要安装特定版本 npm install -D webpack...,模块,在Webpack里,一切皆模块,Webpack会从配置的entry开始递归找出所有依赖的模块,最常用的是rules配置项,功能是匹配对应的后缀,从而针对代码文件完成格式转换和压缩合并等指定的操作...创建webpack.config.js 指定项目打包的入口 指定项目打包后文件的名称和输出路径 配置代码错误源 如果报错了,是这样子的: ?...我们需要知道代码的具体错误,如图: ? 修改配置文件: webpack.config.js devtool: 'inline-source-map', <!

    70830

    Webpack基本使用

    Webpack介绍:主要用于web项目中打包资源进行自动构建,Webpack将所有资源视为JS的模块来进行构建,所以对于CSS,Image等非JS类型的文件,Webpack会使用相应的加载(loader...--dev-save 如果你使用Webpack 4+ 版本, 你还需要安装CLI. npm install -D webpack-cli 要安装特定版本 npm install -D webpack...,模块,在Webpack里,一切皆模块,Webpack会从配置的entry开始递归找出所有依赖的模块,最常用的是rules配置项,功能是匹配对应的后缀,从而针对代码文件完成格式转换和压缩合并等指定的操作...创建webpack.config.js 指定项目打包的入口 指定项目打包后文件的名称和输出路径 配置代码错误源 如果报错了,是这样子的: ?...我们需要知道代码的具体错误,如图: ? 修改配置文件: webpack.config.js devtool: 'inline-source-map', <!

    44720

    微信翻译出Bug上热搜,程序员又背锅?

    幸好后来谷歌公司回应道,“这只是将无意义的话放进系统,再产生无意义的话的一种功能。” 潜台词是大家别那么无聊,都散了吧。 机器翻译的不足与未来 大家还记得几年前的机器翻译是如何吗?...一位译者表示:目前机翻仍会存在复杂句语法分析错误,断词错误,漏掉关键字、词、定状补语等。所以平常他们是让机器做到初翻,再结合人工翻译。 为什么迄今为止一直没有准确的语言翻译?...一个单词的意思要放在句子中理解,句子的意思则要放在段落中分析,而文本的意思又取决于大背景下的含义,即文化和说话人意图等。”...因为大家都想建造一座技术的“巴别塔”来实现不同语种间的无障碍沟通。例如让不懂外语的人也能轻松出国,这需要翻译工具;一家中国公司需要在国外开拓市场,也需要在翻译。...别慌!听听技术专家、语言学家怎么说》 (本文为AI科技大本营转载文章,转载请联系原作者)

    71320

    2015-2017 年阿拉斯加通量塔站点的 CO2 和 CH4 通量及气象情况

    阿拉斯加巴罗的三个塔点:巴罗环境观测站 (BEO) 塔、南部生物复杂性实验 (BES) 塔以及气候监测和诊断实验室 (CMDL) 塔。...数据集概述 该数据集提供了位于阿拉斯加巴罗(三个地点)、阿特卡苏克(ATQ)和伊沃图克(IVO)的五个涡度协方差(EC)塔点的二氧化碳和甲烷通量以及气象参数。...,包括巴罗环境观测站 (BEO) 塔、生物复杂性实验南塔 (BES) 以及气候监测和诊断实验室 (CMDL) 塔。...质量评估 利用 Watts 等人(2014 年)所述的卫星数据驱动建模方法,对三个塔的观测数据进行了间隙填充。填补空白的数据容易受到模型误差的影响。...伊沃图克 伊沃图克塔是最南端的塔址,位于布鲁克斯山脉山麓的 IVO 简易机场附近,巴罗以南约 300 公里,地处极地苔原。站点海拔为 579 米(ASL),仪器高度为 4 米。

    8510
    领券