前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI技术讲座精选:用端到端训练模型进行语法智能纠错

AI技术讲座精选:用端到端训练模型进行语法智能纠错

作者头像
AI科技大本营
发布于 2018-04-26 02:31:41
发布于 2018-04-26 02:31:41
2K00
代码可运行
举报
运行总次数:0
代码可运行

现有的拼写检查系统可以识别拼写错误,但无法识别出语法错误,本文的亮点在于使用流行的 seq2seq + attention 模型,在大规模拼写检查数据集上进行训练,用以简单的语法错误识别任务。

对上下文敏感的拼写检查系统(例如 Autocorrect)虽然可以纠正大量的来自于即时消息、电子邮件和短消息中的输入错误,但却对即便是最最简单的语法错误无能为力。举个例子,信息“ I’m going to store ”将不会被自动纠错系统报错,但人们通常更倾向于说“ I’m going to the store ”。

最近自然语言处理(NLP),在深度学习的驱动下取得了一些进展(例如Bahdanau 等人2014年在 Neural Machine Translation 中的工作),受这些进展的启发,我决定训练神经网络来解决这个问题。确切来说,我将从构建序列到序列模型着手,这些模型能够处理书面用语对话样本,并能够生成样本正确的表达形式。

在这篇博客里,我将会描述如何构建这些“深度文本纠错器”系统,并展示一些鼓舞人心的初步结果。

用深度学习来纠正语法错误

这个项目背后的基本思想是我们可以从语法正确的样本入手,引入一些小错误来产生输入输出对,然后生成大的数据集用于执行语法纠正的任务。关于如何构建这些数据集,如何用它们训练模型以及如何预测这些任务等细节问题将在以下内容中描述。

  • 数据集

我从大量以语法正确的书面英语对话为主的语料入手,来创造用于训练深度文本纠错的数据集。这个项目首要考虑的数据集是“康奈尔电影对话库(Cornell Movie-Dialogs Corpus)”,这个对话集包含了超过30万条来自于电影剧本中的台词。这是我能找到的最大相关数据集了。

拿到类似这样的样本后,下一步就是生成输入输出对,用于训练。该过程按以下步骤完成:

  1. 从数据集中摘取一条样本句子。
  2. 给这个句子加入一些噪声,然后设定一个输入序列对应这个句子。
  3. 将输出序列设定为没有加入噪声的句子。

步骤2中的噪声是故意引入的语法错误,也是我们希望模型能够纠正的错误。目前这些噪声限定于以下范围:

  • 从文章中删去("a","an","the")。
  • 从动词缩略语中删去第二部分(如"ve","ll","s","m")。
  • 替换某些单词体为其同音的常用词。(如将"their"替换为"there",将"then"替换为"than")

举个例子,给定以下样本句子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
And who was the enemy?

与之对应生成的输入输出对为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
("And who was enemy?","And who was the enemy?")

引入这些噪声的依据是 CoNLL2014 语法错误纠错分享任务(“ CoNLL 2014 Shared Task on GrammaticalError Correction ”)的统计数字。在这个项目中,每一次噪声都以25%的概率随机施加在可能发生的情况中。

  • 训练

为了扩充训练序列到序列模型时需要的数据集。我对电影对话数据多次应用了上文描述的抽样方法,以获得原对话2-3倍的数据集。通过扩充后的数据集,训练按照“ TensorFlow 的序列到序列模型教学”(“TensorFlow’s sequence-to-sequence tutorial”)中提出的模型。换句话说,我训练包含了LSTM编码器和解码器的序列到序列模型,如同2014年 Bahdanau 等人用注意力模型将编码器和解码器关联起来。

解码

这个项目并非使用基于最大后验概率进行解码,而是利用本问题的独特结构,将所有已解码序列的符号(token)要么存在于输入序列中,要么属于“已纠错”的符号集合中。“已纠错”的符号集合通过训练构建,并且对应于训练集合中至少一个样本,包含所有在目标中而非来源中出现的符号。这样做的理由是训练中遇到的错误主要包含对少数常用词汇(如“the”,“an”,“their”)的误用,而本文提出的模型应当只允许在这一领域中纠正这些错误。

这部分工作是通过对TensorFlow的序列到序列模型进行修改后执行的,是用来解决未登录词(OOV)问题的预处理过程。

有偏解码

为了将解码限制在仅从输入序列或已纠错符号集中选取符号,该项目对模型的逻辑回归先验概率用二值掩码(binary mask)表示,并将掩码输入下一阶段的预测模块。

这个步骤通过构建掩码完成:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
mask[i] == 1.0 if i in (input or corrective_tokens) else 0.0 

然后通过以下方式在解码过程使用:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
token_probs = tf.softmax(logits)
biased_token_probs = tf.mul(token_probs, mask)
decoded_token = math_ops.argmax(biased_token_probs, 1)

因为该掩码用于结果的softmax变换(其保证了所有的输出为正),我们能够确保只有输入和已纠错的符号能被选出。

注意在训练中没有使用这里的逻辑回归先验概率,因为它只能用来隐藏模型中可能有用的信号。

处理未登录词(out of vocabulary)符号

由于上述的有偏解码出现在该模型使用的删减词汇中,我们仍然会见到未知的符号出现在任意集外词汇符号的模型输出中。解决更为普遍的集外词汇符号问题十分重要,但在这个项目中我们可以再次利用该问题的独特结构,创造一个非常直接的集外词汇符号解决方案。

尤其是,如果我们假设输入序列中的集外词汇符号集合等同于输出序列的集外词汇符号集合,则可以简单地为解码过程中遇到的每个未知的符号分配一个合适的符号。

例如,在下面这个场景中:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Input sequence: "Alex went to store"
Target sequence: "Alex went to the store"
Decoding from model: "UNK went to the store"

根据上述逻辑,UNK将被替换为Alex。

从经验和直觉上讲,这是一个很合理的假设,因为训练这个模型处理的错误都相对简单,绝不会插入或移走某个特殊符号。

实验和结果

以下是使用深度文本纠错器模型和康奈尔电影对话数据集来试验的的一些有趣的和整体的结果。该数据集包含304713条来自于电影对白中的台词。其中243758条用于训练模型,30474条用于验证和测试。对于训练集,对话库中的每一条台词都如之前描述的那样,抽取两个样本。集合都按以下原则选取:不允许有同一部电影的台词同时出现在训练集和测试集中。

下面用于评价的模型是一个序列到序列模型,其编码器和解码器以注意力机制连接,都是2层,512个隐藏单元的 LSTMs。该模型在训练时,词表包含出现在训练集中的2000个常用词词汇(需注意由于我们的集外词汇解决方案,可以用更少的词汇来训练)。该模型使用了与2014年 Bahdanau 等人类似的成组(bucketing)方案,产生了输入输出对容量分别低于10,15,20和40的四个模型。

  • 整体表现

下面是从测试数据集上计算得到的 BLEU(由NLTK计算)和精确度,用于评测训练模型和基准模型。这里使用的基准模型仅仅是一个分辨函数,假设输入端不存在错误。其动机是测试引入训练模型是否有助于提高当前没有语法纠错系统的模型的分数。

振奋人心的是,在所有组别中,本文提出的训练模型在精确度上都战胜了这个基准模型,而在BLEU分数上只有一项未能战胜基准模型。

这告诉我们,平均来看,在针对可能出现错误的书写样本使用深度文字纠错模型能够生成语法更为正确的书写样本。该模型针对性地训练了几种错误,任何倾向于犯类似错误人都可以让用该模型检测他们的信息。

Bucket (seq length)

Baseline BLEU

Model BLEU

Baseline Accuracy

Model Accuracy

Bucket 1 (10)

0.8341

0.8516

0.9083

0.9384

Bucket 2 (15)

0.8850

0.8860

0.8156

0.8491

Bucket 3 (20)

0.8876

0.8880

0.7291

0.7817

Bucket 4 (40)

0.9099

0.9045

0.6073

0.6425

  • 例子

除了模型的整体结果令人振奋,我们还能预见可以将其拓展到超出电影对话数据集的特定语言形式之外,只要用一小段编造的,有语法问题的句子来测试一下就行。下面给了一些例子,你也可以用样本来验证你的例子。

解码丢失成分的句子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
In [31]: decode("Kvothe went to market")
Out[31]: 'Kvothe went to the market'

解码混淆then/than的句子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
In [30]: decode("the Cardinals did better then the Cubs in the offseason")
Out[30]: 'the Cardinals did better than the Cubs in the offseason'

注意除了纠正语法错误外,这个系统还能顺利地处理未登录词符号。

未来的工作

虽然当前的结果很鼓舞人心,但仍有很大的提升空间。阻碍这个项目发展的最大问题是缺少一个大的数据集-康奈尔电影对话数据集的30万样本相对于现代深度学习标准来说还是太少了。不幸的是,我并不知道任何一个公开的(大部分)语法正确的英文数据集。近似的数据集可以是“高质量”在线论坛中的评论,比如黑客新闻或 Reddit 的某个子板块。我之后会去试试。

有了更大的数据集,我还会考虑在训练样本中引入许多不同的错误。目前可用的噪声局限于相当常见的语法错误;如果这个模型能够学会纠正更为细微的错误如主谓一致等,那将是十分有趣的。

在应用前沿,我可以预见,这个系统将会作为“纠错” API 的一部分,应用于多种消息应用的程序界面中。

本文代码:

https://github.com/atpaino/deep-text-correcter

本文 Demo:

http://atpaino.com/dtc.html


相关数据集

https://archive.org/details/stackexchange

http://trec.nist.gov/data/qamain.html

http://opus.lingfil.uu.se/OpenSubtitles2016.php

http://corpus.byu.edu/full-text/wikipedia.asp

https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia

http://opus.lingfil.uu.se/

Hacker News 上的评论

Jmiserez:

从互联网收集一个大型的,高质量的数据集可能不是那么容易。HN 、Reddit 以及论坛上的许多内容在语法上是低质量的,而且通常是由母语不是英语的读者写的(比如我自己)。电影中的对话也不像我们写信一样,可能会有语法不正确的句子。或许有一些公共领域(不受限制)的当代文学可以用来替代或者辅助对话。

与这次的项目无关,我对这种针对低质量的评论或者电子邮件进行训练的语言推荐工具是有些担心的。简单的词典和语法检查足以帮助人们在写作时找到正确的词。但是,一个工具如果可以理解我的意图,然后提出重组或者找到相似的句子或词语来传达相同的意思,那么它会是一个真正的杀手级应用程序。

Brandonb:

有趣的观点!我认为这跟在计算机视觉中的降噪自动编码器的想法类似。这篇文章不是在像素级引入高斯噪声或者使用CNN,而是在世界水平上引入语法“噪声”,并且使用LSTM。

我认为一般框架是适用于许多不同领域的。比如,我们在HealthKit数据(步数和心率测量的序列)的基础上训练降噪序列自动编码器,以便在这些身体指标的基础上,预测某人是否可能患有糖尿病,高血压或心律失常。我也看到类似的想法应用于EMR数据(类似于word2vec文本深度表示模型)。值得阅读的是"Semi-Supervised Sequence Learning"(“半监督序列学习”),其中他们使用非去噪序列自编码器作为预训练步骤,并比较两种不同的技术:https://papers.nips.cc/paper/5949-semi-supervised-sequence-learning.pdf

最后,你开始考虑引入不同类型的语法错误,如主语-动词分歧。我认为这是一种很好的思考方式。在极限情况下,你甚至可能有一个神经网络生成越来越难的错误语法,目的是“愚弄”校正神经网络,当你的产生错误的神经网络与校正神经网络相互竞争时,你就可能会产生生成式对抗网络:https://arxiv.org/abs/1701.00160

本文作者 Alex Paino 毕业于密苏里大学,目前在Sift Science研究机器学习领域,专注于建立精准的模型用于协助各种防滥用现象的产品。


编译: AI100

原文地址:http://atpaino.com/2017/01/03/deep-text-correcter.html


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-01-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【论文解读】基于Transformer增强架构的中文语法纠错
语法纠错(Grammatical Error Correction, GEC)任务,旨在利用自然语言处理技术,自动识别并纠正非中文母语学习者书写的文本中所包含的语法错误,拼写错误,语序错误,标点错误等等,是自然语言处理的一项重要任务。下面这对语句就是语法纠错任务的一个示例,每个输入对应一个输出,左侧输入的是一句可能带有错误的文本,右侧输出的是纠正后的结果,句中红色的字是有修改的地方。
zenRRan
2020/04/17
2K0
【论文解读】基于Transformer增强架构的中文语法纠错
学界 | Google Brain提出基于固定尺寸记忆表示的注意力模型,翻译任务推理速度提高20%
AI科技评论按:Attention模型是近些年来自然语言处理领域重要的进展之一。注意力模型是从认知心理学中人脑注意力模型中引入的概念,在人观察世界时,对不同对象的关注程度是不同的,比如你在看书仔细品味文章中的一句话时,虽然你能看到整页的文字,但是注意力的焦点集中在这个句子上,其他文字虽然还在你的眼中,但是实际分配到的注意力是很少的。自然语言处理中也是同理,输入文本的不同部分对输出的贡献是不同的,即需要分配的注意力权重不同。使用注意力模型能够得到更好的生成结果。 由于标准的基于内容的attention机制主要
AI科技评论
2018/03/13
8070
学界 | Google Brain提出基于固定尺寸记忆表示的注意力模型,翻译任务推理速度提高20%
中文文本纠错工具推荐:pycorrector
中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。
致Great
2023/08/25
1.9K0
你的英语不行!微软亚研自动语法纠错系统达到人类水平
用于语法纠错(GEC)的序列到序列(seq2seq)模型(Cho et al., 2014; Sutskever et al., 2014)近年来吸引了越来越多的注意力(Yuan & Briscoe, 2016; Xie et al., 2016; Ji et al., 2017; Schmaltz et al., 2017; Sakaguchi et al., 2017; Chollampatt & Ng, 2018)。但是,大部分用于 GEC 的 seq2seq 模型存在两个缺陷。第一,seq2seq 模型的训练过程中使用的纠错句对有限,如图 1(a)所示。受训练数据的限制,具备数百万参数的模型也可能无法实现良好的泛化。因此,如果一个句子和训练实例有些微的不同,则此类模型通常无法完美地修改句子,如图 1(b)所示。第二,seq2seq 模型通常无法通过单轮 seq2seq 推断完美地修改有很多语法错误的句子,如图 1(b)和图 1(c)所示,因为句子中的一些错误可能使语境变得奇怪,会误导模型修改其他错误。
机器之心
2018/07/26
5690
你的英语不行!微软亚研自动语法纠错系统达到人类水平
从模型到算法,详解一套AI聊天机器人是如何诞生的
您是否曾经利用 Siri、Alexa 或者 Cortana 以对话方式设置闹钟、呼叫朋友甚至是安排会议日程?相信大多数朋友和我一样,感觉虽然这些方案在日常生活与工作中能够起到一定作用,但仍然很难与之谈论一般性、特别是哲学层面的话题。 通过自然语言与机器交互属于通用型人工智能方案的基本要求之一。这一 AI 研究领域被称为对话系统、口语对话系统或者是聊天机器人。在这类场景下,机器需要能够结合对话背景为用户提供翔实的答案,而且在理想情况下应实现与人类无异的沟通效果。 但在实践当中,最后一项要求往往很难达成。不过
BestSDK
2018/03/01
4.7K0
从模型到算法,详解一套AI聊天机器人是如何诞生的
AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错
今天给大家介绍北京大学计算语言学教育部重点实验室的Zewei Zhao和Houfeng Wang在AAAI 2020发表的文章“MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking”。作者在文章中提出了一种通过动态掩蔽改进基于神经机器翻译的语法纠错模型的方法,该方法解决了模型对“错误-正确”句子对的语料库的需求。
DrugAI
2021/02/01
7390
AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错
想研究BERT模型?先看看这篇文章
序列转换方式由基于复杂递归神经网络(RNN)和卷积神经网络(CNN)的编码器和解码器模型主导。表现最佳的模型也只是通过一个注意力机制来连接了编码器和解码器。我们提出一个新的简单网络架构——Transformer。相比表现最佳的模型,该架构仅仅基于注意力机制,完全摒弃了递归和卷积。从两个机器翻译任务的实验结果显示,Transformer的效果更优秀,同时有更好的并行性,显著的减少了训练的时间。我们的模型在WMT2014年发布的“英-德”翻译任务上达到了28.4 BLEU【注解1】,超越了该任务上现有的最好的记录2个BLEU,包括总体效果。在英-法翻译任务上,我们的模型在8块GPU上训练了3.5天,并创造了单模型最好BLEU分数——41.8。相比文献中的最佳模型,这个训练成本不高。Transformer在其它任务上也有好的泛化能力,我们将其应用于English constituency parsing(英语成分句法分析),无论在大量的训练数据上还是有限的训练数据上都获得了成功。
AI粉嫩特工队
2019/09/23
8290
想研究BERT模型?先看看这篇文章
文本智能校对大赛冠军方案!已落地应用,来自苏州大学、达摩院团队
近期参加了2022 蜜度中文文本智能校对大赛,经过2个月的比赛,在600余名参赛者中取得了第一名的成绩,相关技术也已在钉钉文档等产品落地应用。借此机会,笔者想和大家分享下对中文文本纠错任务的一些看法。
Datawhale
2022/10/31
1.7K0
文本智能校对大赛冠军方案!已落地应用,来自苏州大学、达摩院团队
大幅提升ASR系统识别准确率:云从科技语义纠错模型解析
近些年来,随着自动语音识别(ASR)技术的发展,识别准确率有了很大的提升。但是,在ASR转写结果中,仍然存在一些对人类来说非常明显的错误。我们并不需要听音频,仅通过观察转写的文本便可发现。对这类错误的纠正往往需要借助一些常识和语法知识,甚至推理的能力。
AI科技评论
2021/04/16
1.3K0
大幅提升ASR系统识别准确率:云从科技语义纠错模型解析
【论文】赛尔原创 | EMNLP 2019基于知识库检索器的实体一致性端到端任务型对话系统
任务型对话系统可以用来帮助用户完成订购机票、餐厅预订等业务,越来越受到研究者的关注。近几年,由于序列到序列(sequence-to-sequence)模型和记忆网络(memory-network)的强大建模能力,一些工作直接将任务型对话建模为端到端任务型对话任务。如图一所示,输入输出定义如下:
zenRRan
2019/12/26
6700
【论文】赛尔原创 | EMNLP 2019基于知识库检索器的实体一致性端到端任务型对话系统
推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger
序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种文本生成任务的首选工具,如文本摘要、句子融合和语法纠错。模型架构改进(如 Transformer)以及通过无监督训练方法利用大型无标注文本数据库的能力,使得近年来神经网络方法获得了质量上的提升。
机器之心
2020/02/24
6700
推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger
与谷歌翻译持平,华为诺亚方舟实验室全新深度机器翻译模型,提高译文忠实度
【新智元导读】华为诺亚方舟实验室在他们一篇被 AAAI 2017 录用的论文里提出了一个新的神经机器翻译(NMT)模型,引入基于重构的忠实度指标,结果显示该模型确实有效提高了机器翻译的表现。华为诺亚方舟实验室的研究人员表示,他们的 NMT 技术与谷歌持平。 基于深度学习的机器翻译,简称深度机器翻译近两年来取得了惊人的进展,翻译的准确度综合评比已经超过传统的统计机器翻译,研究单位主要有蒙特利尔大学[1,2],斯坦福大学[3,4],清华大学[5,6],谷歌[3,7,8],微软[9]和百度[5,10],以及华为诺
新智元
2018/03/27
9860
与谷歌翻译持平,华为诺亚方舟实验室全新深度机器翻译模型,提高译文忠实度
中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错
中文语法纠错任务旨在对文本中存在的拼写、语法等错误进行自动检测和纠正,是自然语言处理领域一项重要的任务。同时该任务在公文、新闻和教育等领域都有着落地的应用价值。但由于中文具有的文法和句法规则比较复杂,基于深度学习的中文文本纠错在实际落地的场景中仍然具有推理速度慢、纠错准确率低和假阳性高等缺点,因此中文文本纠错任务还具有非常大的研究空间。 达观数据在CCL2022汉语学习者文本纠错评测比赛的赛道一中文拼写检查(Chinese Spelling Check)任务中取得了冠军,赛道二中文语法纠错(Chinese Grammatical Error Diagnosis)任务中获得了亚军。本文基于赛道二中文语法纠错任务的内容,对比赛过程中采用的一些方法进行分享,并介绍比赛采用的技术方案在达观智能校对系统中的应用和落地。赛道一中文拼写检查的冠军方案会在后续的文章分享。
用户10103085
2022/12/22
1K0
中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错
序列模型——吴恩达深度学习课程笔记(五)
输入或者输出中包含有序列数据的模型叫做序列模型。以循环神经网络RNN为基础建立的序列模型在自然语言处理,语音识别等领域中引起了巨大的变革。以下是一些序列模型的典型应用:
lyhue1991
2020/07/20
3.1K0
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/10
6160
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
一种用于短文本的神经响应机
导语 : 这篇文章是翻译别人的,来源是https://arxiv.org/abs/1503.02364 摘要 我们提出了神经响应机(NRM),一种基于神经网络的响应用于短文本的方法。NRM采用通用
MelonTeam
2018/01/04
9900
一种用于短文本的神经响应机
NLP任务之中文拼写 语法纠错 介绍与综述
在很多中文NLP相关的落地场景都会涉及到文本纠错的相关技术,例如跟各种形式机器人的语音或者文字对话,或者用手机扫描相关的PDF或者图片,或者跟人聊天时用输入法打字等等,无论是通过ASR识别的语音信息,通过OCR识别得到的图片信息,还是用户真实通过输入法的文字,都有可能出现错误。这些错误会影响文本的可读性,不利于人和机器的理解,如果这些错误不加处理,会传播到后续的环节,影响后续任务的效果。常见的中文错误类型包括以下几种:
大鹅
2022/07/20
4.3K1
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
选自谷歌 机器之心编译 参与:机器之心编辑部 近日,谷歌官方在 Github 开放了一份神经机器翻译教程,该教程从基本概念实现开始,首先搭建了一个简单的NMT模型,随后更进一步引进注意力机制和多层 LSTM 加强系统的性能,最后谷歌根据 GNMT 提供了更进一步改进的技巧和细节,这些技巧能令该NMT系统达到极其高的精度。机器之心对该教程进行简要的描述,跟详细和精确的内容请查看项目原网站。 GitHub 链接:https://github.com/tensorflow/nmt 机器翻译,即跨语言间的自动翻译,
机器之心
2018/05/09
1.8K0
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
2018 NLPCC Chinese Grammatical Error Correction 论文小结
这一段时间,笔者一直在研究语音识别后的文本纠错,而就在八月26-30日,CCF的自然语言处理和中文计算会议召开了,笔者也从师兄那里拿到了新鲜出炉的会议论文集,其中重点看的自然是其shared task2:grammatical error correction的overview以及优胜团队的论文。本文总结了优胜团队的论文并给出了一些可能的改进方向。
zenRRan
2018/10/09
2.3K0
2018 NLPCC Chinese Grammatical Error Correction 论文小结
【TensorFlow 谷歌神经机器翻译】从零开始打造属于你的翻译系统
【新智元导读】谷歌今天公布了一个用 TensorFlow 构建神经机器翻译(NMT)系统的教程,全面解释 seq2seq 模型,并演示如何从零开始构建 NMT 翻译模型。这个教程从 NMT 的背景知识讲起,详细讲解如何构建并训练一个 NMT 模型,并提供代码,绝对有用。 机器翻译——自动在两种语言之间进行翻译的任务——是机器学习中最活跃的研究领域之一。在多种机器翻译方法中,序列到序列(“seq2seq”)模型最近取得了巨大的成功,并已经成为大多数商业翻译系统的事实上的标准,例如谷歌翻译。这是由于 seq2s
新智元
2018/03/27
2.3K0
【TensorFlow 谷歌神经机器翻译】从零开始打造属于你的翻译系统
推荐阅读
【论文解读】基于Transformer增强架构的中文语法纠错
2K0
学界 | Google Brain提出基于固定尺寸记忆表示的注意力模型,翻译任务推理速度提高20%
8070
中文文本纠错工具推荐:pycorrector
1.9K0
你的英语不行!微软亚研自动语法纠错系统达到人类水平
5690
从模型到算法,详解一套AI聊天机器人是如何诞生的
4.7K0
AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错
7390
想研究BERT模型?先看看这篇文章
8290
文本智能校对大赛冠军方案!已落地应用,来自苏州大学、达摩院团队
1.7K0
大幅提升ASR系统识别准确率:云从科技语义纠错模型解析
1.3K0
【论文】赛尔原创 | EMNLP 2019基于知识库检索器的实体一致性端到端任务型对话系统
6700
推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger
6700
与谷歌翻译持平,华为诺亚方舟实验室全新深度机器翻译模型,提高译文忠实度
9860
中文语法纠错全国大赛获奖分享:基于多轮机制的中文语法纠错
1K0
序列模型——吴恩达深度学习课程笔记(五)
3.1K0
NLP教程(6) - 神经机器翻译、seq2seq与注意力机制
6160
一种用于短文本的神经响应机
9900
NLP任务之中文拼写 语法纠错 介绍与综述
4.3K1
谷歌开放GNMT教程:如何使用TensorFlow构建自己的神经机器翻译系统
1.8K0
2018 NLPCC Chinese Grammatical Error Correction 论文小结
2.3K0
【TensorFlow 谷歌神经机器翻译】从零开始打造属于你的翻译系统
2.3K0
相关推荐
【论文解读】基于Transformer增强架构的中文语法纠错
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验