首页
学习
活动
专区
圈层
工具
发布

学界 | 微软基于短语的神经机器翻译方法NPMT:不使用任何注意机制

近日,微软发布了基于短语的神经机器翻译方法NPMT, 在 IWSLT 2014 德英翻译任务上取得了顶尖成果。此外,论文中提到NPMT 不使用任何注意机制。...论文链接:https://arxiv.org/abs/1706.05565 摘要 在此论文中,我们提出了基于短语的神经机器翻译(NPMT)。...传统基于短语的统计机器学习方法已经表示这种方法超越了基于单词的方法(Koehn et al., 2003; Koehn, 2009; Lopez, 2008),另一方面,现代神经机器翻译方法 (Sutskever...我们的基于短语的神经机器翻译方法尝试探索两者的结合。NPMT 建立在Sleep-WAke 网络(SWAN)之上,这是一种基于分割的序列建模技术(Wang et al., 2017)。...章节2展示了基于短语的神经机器翻译模型,章节3 证明了我们的方法在IWSLT 2014 的德英翻译任务上的有效性。在章节4 中我们总结了该工作,并进行了讨论。 ?

85170

有道新推的人机翻译告诉你协作才能共赢

从技术角度来看,与传统的基于短语的翻译相比,YNMT能够对整个句子进行编码,更充分地利用上下文信息,判定多义词的词义,生成较高质量的译文。 传统机器翻译,就是把一个固定的字词或者词组翻译成目标语言。...根据剑桥大学自然语言处理(NLP)组的陈村在一篇文章中的描述,传统机器翻译界的主流方法都是 Phrased-Based Machine Translation (PBMT),此前连 Google 翻译使用的也是基于这个框架的算法...PBMT 翻译模式会将这几个词逐一做翻译,然后根据自然语言处理重新排序,最后所呈现的结果让它看起来像一句话。...,实现了以句子为整体的上下翻译环境,在单句中翻译结果更加具有逻辑性,尤其是当一个长句子出现时,这种翻译模型就比更传统的 PBMT 更加有序。...与传统的基于短语的翻译相比,有道宣布 YNMT(Youdao-NMT) 翻译质量的提升是 SMT 过去两年累计提升的总和,YNMT(Youdao-NMT)在新闻类语料和英语学习类语料两方面的的盲测 BLEU

66540
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    洞见|如何评价谷歌刚刚上线的神经机器翻译(GNMT)系统?

    其中基于短语的机器学习(PBMT)将输入句子分解成词和短语,然后对它们的大部分进行独立翻译,而神经网络机器翻译(NMT)则将整个输入句子视作翻译的基本单元。...这种方法的优点是:相比之前的基于短语的翻译系统,这种方法所需的调整更少。...以前是基于短语的翻译,这个方法直接用待翻译的句子来预测目标语言中的词,去年大家就都用这个方法了,但是效果没有宣传的那么好。...我看过一些试验数据,基于短语的统计机器翻译我比较熟悉和完全基于NN的效果没有特别大的差距。同样语料训练的话基于NN的有所提升,但不很显著。...在同等语料的情况下,相较于基于短语的统计机器翻译,神经机器翻译(GNMT)系统能在更少工程量的基础上实现相同的效果。

    1.4K50

    神经机器翻译来袭,传统翻译从业人员何去何从?

    早在2015年百度就已经发布了基于深度神经网络的端到端翻译系统,微软的必应翻译也同样使用神经网络技术来改善自身的翻译质量。...与传统的基于短语的翻译(PBMT)相比,基于神经网络的翻译系统对整个输入句子进行编码,能够更充分的利用上下文信息,生成较高质量的译文。...复杂语句翻译 1. 定语从句(用一个句子修饰一个名词短语): 我没有可以跟你说的事情。 ? ? ? 从上至下依次为Google翻译、百度翻译、必应翻译 2. 多个修饰形容词 ? ? ?...口语化表达翻译 1. 修饰词,如:的、了、好 ? ? ? 2. 省略与重复叠加短语句子 ? ? ? 在口语化翻译部分中,涉及到修饰词部分,Google与百度翻译大同小异,必应翻译与本意出入较大。...从上至下依次为Google翻译、百度翻译 总结 从上面的各项对比中可以看到,采用了神经机器系统的翻译相比之前基于短语的翻译确实要进步了许多。

    87680

    基于依存句法分析的关键短语抽取算法实战

    由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具。...目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是TFIDF,Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。...算法流程 由于最近在做一些无监督的关键词短语(实体)抽取工作,其实最大的背景还是没有标注好的实体识别训练数据;所以想到采用无监督的关键短语抽取算法折中去抽取一些实体,于是调研了一波关键短语抽取算法和工具...目前无监督关键短语抽取算法和关键词抽取算法差不多:主要是TFIDF,Textrank 等特征为候选短语的打分。然后抽取得分高的候选短语。 ?...总之,最后我们通过各种特征可以计算出每个短语的得分,然后排序后取topk得候选短语就可以得到我们的关键短语了。

    1.7K10

    Google短网址的API

    2009年底,Google发布了短网址服务goo.gl。 ? Google声称: "......(这是)互联网上最稳定、最安全、最快速的短网址服务。" 有人做了比较,证明确实如此。 ?...从上图可以看到,goo.gl的响应和跳转时间是最短的。 除了速度快,goo.gl还提供详细的点击统计。...====================================== 但是当时,这个服务只供Google内部使用,不向外部使用者开放,大家只好眼睁睁地流口水。 上周,这个限制终于取消了。...Google宣布,正式公开goo.gl的API。这意味着,所有外部使用者都能利用它,得到自己想要的短网址。感兴趣的同学,可以自己去研究这个API,还是很简单的。...根据这个API,我写了一个"短网址生成器",欢迎访问,网址是: http://www.ruanyifeng.com/webapp/url_shortener.html 另外,我还提供一个Bookmarklet

    5.2K20

    基于 ChatGPT API 的划词翻译浏览器脚本实现

    前言 最近 GitHub 上有个基于 ChatGPT API 的浏览器脚本,openai-translator, 短时间内 star 冲到了 9.7k, 功能上除了支持翻译外,还支持润色和总结功能,除了浏览器插件外...实现划词翻译 划词翻译是一种常见的网页功能,用户选择一个单词或一段文本时,自动弹出一个小窗口,显示该单词或文本的翻译。...但是翻译结果需要等 api 完全返回,才会显示出来,这样会等待较慢,我们可以使用 Stream,OpenAI 的接口支持流渲染吗,这样结果就会一个字一个字蹦出来。...这样响应的内容就会根据 Server-sent events(服务器发送的事件)逐个显示了。 文本转语音 一般翻译插件都有语音播放的功能,我们可以利用 可以使用 Web Speech API。...小结 本文介绍了如何实现划词翻译的基本功能,包括使用 OpenAI 提供的接口进行翻译、在 HTML 页面中添加触发翻译的按钮和鼠标抬起事件监听事件、使用 AJAX 请求从接口获取翻译结果并将其显示在

    1.9K30

    深度|Google神经网络机器翻译上线历程回顾

    而在前不久,Google 官方对翻译进行一次脱胎换骨的升级——将全产品线的翻译算法换成了基于神经网络的机器翻译系统(Nueural Machine Translation,NMT)。...还在几年前,机器翻译界的主流方法都是 Phrased-Based Machine Translation (PBMT),Google 翻译使用的也是基于这个框架的算法。...所谓 Phrased-based,即翻译的最小单位由任意连续的词(Word)组合成为的词组(Phrase),比如下图中的“北风呼啸”。 PBMT是怎么把一句英文翻译成中文的呢?...而且,相比传统 PBMT 一个词组一个词组的独立翻译,NMT这样 end-to-end 翻译出来的语言更加自然流畅。...稍微区别于上面描述的Encoder-Decoder 方法,基于 Attention 的 Decoder 逻辑在从隐层 h 中读取信息输出的时候,会根据现在正在翻译的是哪个词,自动调整对隐层的读入权重。

    1.5K40

    Google JavaScript API 的使用

    入门 您可以使用JavaScript客户端库与Web应用程序中的Google API(例如,人物,日历和云端硬盘)进行交互。请按照此页面上的说明进行操作。...设定 取得Google帐户 首先,如果您还没有Google帐户,请注册一个。 创建一个Google项目 转到Google API控制台。单击创建项目,输入名称,然后单击创建。...启用Google API 接下来,确定您的应用程序需要使用哪些Google API,并为您的项目启用它们。使用API资源管理器浏览JavaScript客户端库可以使用的Google API。...要为您的项目启用API,请执行以下操作: 在Google API控制台中打开API库。如果出现提示,请选择一个项目或创建一个新项目。API库按产品系列和受欢迎程度列出了所有可用的API。...获取您的应用程序的访问密钥 Google定义了两个级别的API访问权限: 水平 描述 要求: 简单 API调用不会访问任何私人用户数据 API密钥 已授权 API调用可以读写私有用户数据或应用程序自己的数据

    4.6K20

    基于IBM Model 1的词对齐与短语抽取Python实现

    基于词的翻译模 简介 基于词的翻译模型起源于上世纪IBM关于统计机器翻译的原创性工作,教材主要介绍的是IBM Model 1模型。该模型能够从大量句对齐的语料中自动实现词对齐。...详细的推导详见教材第4章。 ? ? ? 基于词的翻译模型 代码解释 本小节我们基于Python使用EM算法实现一个IBM Model 1模型,算法的伪代码位于教材图4.3。...基于短语的翻译模型 简介 基于词的翻译模型并不符合语言学,可以使用短语来作为基本的翻译单元。显然,基于短语的翻译系统性能取决于从基于词的翻译模型中得到的短语翻译表。...短语抽取实验 代码解释 本小节我们使用Python实现一个短语抽取的模型,该模型能根据之前实验得到的词对齐,从大量句对齐的语料中通过实现短语自动抽取(抽取的短语不一定具有语言学意义)。...神经机器翻译基于深度的神经网络模型,比如CNN和RNN。

    2.6K40

    百度翻译 API 的申请 与 百度通用翻译 API 的接入

    百度翻译 API 的申请 与 百度通用翻译 API 的接入 申请 进入百度翻译开放平台,选择 立刻使用。 图片 选择我的服务,开通 通用翻译,填信息后秒过。 图片 建议 实名认证,提高免费额度。...图片 设置翻译引擎为百度翻译。 输入应用程序 ID 和 密钥。 图片用 Java 的代码方式接入 百度通用翻译 API API 的信息建议看官方文档,更全面。...百度通用翻译 API 接入文档 主要查找到 API url、输入参数、输出参数。...API URL 通用翻译的对外 API 接口 http 版:https://fanyi-api.baidu.com/api/trans/vip/translate https 版:http://api.fanyi.baidu.com...解析输出的 JSON 字符串 我使用的类库是:com.google.code.gson。 <!

    5K20

    折腾Google Docs API 的坑

    google docs api 起步 有关链接 快速开始 https://developers.google.cn/docs/api/quickstart/nodejs#step_2_install_the_client_library...https://github.com/gsuitedevs/node-samples/blob/master/docs/quickstart/index.js 登录谷歌账号后 否则后面的按钮点击后没有反应的...打开https://developers.google.com/docs/api/quickstart/nodejs 点击 获取api使用凭据 点击按钮后会显示 然后点击下载凭据 保存到项目中 等下运行程序会读取这个文件...把github上的代码下载下来 记得执行 安装相应的包 npm install googleapis --save 运行 node index.js 会出现以下信息 这个时候就要点击链接 进行屏幕授权...headers: { 'Content-Type': 'application/x-www-form-urlencoded', 'User-Agent': 'google-api-nodejs-client

    1.8K20

    浅谈神经机器翻译

    基于语法的统计机器翻译, 2017. 使用最广泛的技术是基于短语的, 并着重于分段翻译源文本的子序列....几十年来, 统计机器翻译(SMT)一直是主流的翻译范式.SMT的具体实施通常是基于短语的系统(phrase-based systems, PBMT), 其翻译长度可能不同的单词或短语序列 Google神经机器翻译系统...传统的基于短语的翻译系统由许多独立调整的小型子部件组成, 与之不同的是, 神经机器翻译试图建立和训练单个大型神经网络可以读取一个句子并输出一个正确的翻译....评论文章: 基于实例的机器翻译, 1999. 使用RNN学习短语表示的编码器 - 解码器统计机器翻译, 2014年. 联合学习对齐和翻译的神经机器翻译, 2014年....用于基于短语的统计机器翻译的连续空间翻译模型, 2013. 补充 机器翻译档案 神经机器翻译 - 维基百科 第13章, 神经机器翻译, 统计机器翻译, 2017.

    3.3K51

    django 1.8 官方文档翻译: 3-4-5 内建基于类的视图的API

    内建基于类的视图的API 基于类的视图的API 参考。另请参见基于类的视图 的简介。...基于类的视图在URL 模式中的部署使用as_view() 类方法: urlpatterns = [ url(r'^view/$', MyView.as_view(size=42)), ] 视图参数的线程安全性...参数必须对应于在类中已经存在的属性(hasattr 检查可以返回True)。 基础视图 VS. 通用视图 基于类的基础视图可以认为是父视图,它们可以直接使用或者继承它们。...大部分通常视图需要queryset 键 ,它是一个查询集 实例;关于查询集对象的更多信息,请参见执行查询。 译者:Django 文档协作翻译小组,原文:API reference。...Django 文档协作翻译小组人手紧缺,有兴趣的朋友可以加入我们,完全公益性质。

    1.1K20

    谷歌翻译服务(Google Translator)的跨站漏洞

    在这篇文章里,越南籍作者通过发现了谷歌翻译服务(Google Translator)越翻英界面中存在的跨站漏洞(XSS),最后经测试验证,获得了谷歌官方奖励的$3133.70,我们一起来看看。...临睡前准备放松一下,打算找部电影看看,但记不起电影的准确英文名了,于是打开了谷歌翻译网站translate.google.com,在其中输入了越南语,想把它转换成英语,之后,我突然发现了一些端倪,于是尝试在其中输入了其它验证性...于是我尝试看看谷歌的其它语言翻译界面是否存在该漏洞,但是好像不行,它们都实施了过滤编码,只有这里的越南语(Primary language)翻译为英语(Language after translation...为了更好地验证该XSS漏洞,我构造了HTML代码试图让translate.google.com反弹出当前域名和用户Cookie信息,这里比较难的是对字符长度的控制,最后的HTML Payload如下:...这里的translate.google.com就不在谷歌所述的sandbox domain之内,他们绝对是搞错了。 之后,我又向谷歌发送了相关说明,他们接收并提高了该漏洞的威胁级别,还给了我奖励。

    2.2K20

    探索Google的Gemini语言模型的API

    深入了解 Gemini API 的参数,展示如何在各种应用程序中最大化生成内容的有效性。...译自 Exploring the API of Google’s Gemini Language Model,作者 Janakiram MSV。...仔细了解 API 参数 Gemini API 提供了一套参数来微调文本生成,使用户能够有效地在创造性和准确性之间取得平衡。以下是关键参数的概述,以及它们对 LLM 响应的创造性和准确性的影响。...例如,通过定义模型可以根据其接收的输入调用的函数,开发人员可以创建更动态、更响应且更有用的 AI 应用程序。这可以从从外部 API 获取实时数据到基于复杂的外部数据集处理和生成输出。...Google 已将 Vertex AI Search 与 Gemini 集成,为 LLM 提供 Grounding 功能。

    81010

    机器翻译之Facebook的CNN与Google的Attention

    传统的seq2seq facebook的cnn 结构 特点 position embedding 卷积的引入 GLU控制信息的流动 attention google的attention 结构 特点 KVQ...机器翻译的常用架构是seq2seq,可是seq2seq中的核心模型RNN是序列模型,后面的计算依赖于前面的计算,如何并行提高效率很是苦恼。...最近,Facebook和Google的研究人员分别尝试用CNN与Attention代替seq2seq进行机器翻译,提高了训练效率,结构与思想也很予人启迪。 传统的seq2seq ?...卷积的引入,有以下几个优点: 使计算可以做并行化 卷积层可以stack起来,不同的层的可视域不同,底层的是细节信息,高层的是全局信息。...attention的上文信息,通过低层的CNN和高层的CNN组合获得, 反映了词的细节信息和全局主旨信息。 google的attention 结构 ? 特点 K,V,Q的思维架构 ? ?

    1.4K90

    浅谈神经机器翻译

    机器翻译的统计方法很快就超越了传统的基于语法的方法,成为实际上的标准技术。 自从20世纪80年代末这个领域的开端以来,最流行的统计机器翻译模型就是基于序列的。...最广泛适用的技术是基于短语的,并且着重于分段翻译源文本的子序列。 统计机器翻译(SMT)几十年来一直是主流的翻译范式。...SMT的实际实现通常是基于短语的系统(PBMT),由其翻译长度可能不同的单词或短语的序列 摘自《Google’s Neural Machine Translation System: Bridging...统计机器翻译方法虽然有效,但对于被翻译的短语的关注度不高,失去了目标文本的广泛性。对数据驱动方法的关注也意味着方法可能忽略了语言学家已知的重要语法区别。...与传统的基于短语的翻译系统不同,它由许多独立可调整的小型子部件组成,神经机器翻译试图建立和训练单个大型神经网络,读取一个句子并输出一个正确的翻译。

    1.3K80

    基于google protobuf的gRPC实现

    1.Protobuf简介 Protobuf(Google Protocol Buffers)提供一种灵活、高效、自动化的机制,用于序列化结构数据。...由于网络协议是基于二进制的,内存中的参数值要序列化成二进制的形式,也就是序列化(Serialize)或编组(marshal),通过寻址和传输将序列化的二进制发送给B服务器。...5.基于google protobuf的gRPC实现 我们可以利用protobuf实现序列化和反序列化,但如何实现RPC通信呢。...为简单起见,我们先介绍gRPC,gRPC是google构建的RPC框架,这样我们就不再考虑如何写通信方法。 5.1gRPC安装 首先安装gRPC,安装命令如下所示。...6.基于google protobuf的RPC实现 因为RPC需要我们实现通信,所以会有一定难度,代码量很大程度上也有增加,不方便在文中展现出来。

    1.8K20

    为支持两个语言版本,我基于谷歌翻译API写了一款自动翻译的 webpack 插件

    无需写多套语言文件,正常开发使用中文进行编写即可 需要一个翻译的API,且翻译要准确,经测试简繁体转换谷歌翻译是最准确的。 2....翻译API 需要一个免费、准确、且不易挂的翻译服务,但是谷歌翻译API是需要付费的,有钱付费的很方便就能享受这个服务,但是为了一个简体转繁体产生额外的支出,不太现实。...所以最终采用: 基于puppeteer的访问谷歌https://translate.google.cn 获得翻译结果,比其他方案都要稳定。...但是注意,基于 translateer 启动API服务, 存在几个可以优化的点: 先看下为什么需要优化, 首先我们得要知道谷歌翻译网页端最大支持多少字符,测试得知如下最大支持一页最大支持 5000字符,...插件 读取代码中所有的中文 请求翻译API, 获得翻译后的结果 将翻译后的结果写入至代码中 额外的功能:将每次读取的源文本与目标文本输出至日志中, 特别是在翻译返回的文本长度与源文本长度不一致时用于对照

    3.7K10
    领券