对于刚入门NLP的伙伴来说,看到NLP任务很容易觉得眼花缭乱,找不到切入点。总的来说,NLP分为五大类无数小类,虽然种类繁多,却环环相扣。无论我们一开始学习的是什么方向,当做过的东西越来越多,学习范围越来越大的时候,总可以形成闭环。
论文名称:Cross-Lingual Machine Reading Comprehension
机器阅读理解和问答是自然语言处理领域的一个火热主题。该任务旨在让机器像人类一样阅读理解。前面两篇文章对BERT的官方源码以及在序列标注上的应用进行了介绍,本篇文章将介绍如何利用BERT来解决阅读理解与问答问题。
此次比赛所用数据集RACE,全称:Large-scale ReAding Comprehension Dataset From Examination,是一个从初中和高中试题中收集的大型英文阅读理解数据集。
信息抽取 (Information Extraction: IE)是把文本里包含的信息进行结构化处理,变成计算机能够处理的结构,实体抽取、关系抽取、事件抽取等都属于信息抽取的范畴。在NLP领域,信息抽取的应用场景十分的广泛,是一个非常重要的基础任务。
下载地址:https://github.com/ymcui/Chinese-BERT-wwm
本文中蓝色字体为外部链接,部分外部链接无法从文章中直接跳转,请点击【阅读原文】以访问。
在这篇文章中,我们将使用一种直观的方法来理解NLP的发展,包括BERT。预训练策略使BERT如此强大和流行,并且BERT可针对大多数NLP任务进行微调。
这篇文献是字节跳动实验室李航博士在8月份发布的一篇文献,他的核心内容还是在bert的基础上的一个变体模型。
BERT(来自 Transformers 的双向编码器表示)是 Google 开发的革命性自然语言处理 (NLP) 模型。它改变了语言理解任务的格局,使机器能够理解语言的上下文和细微差别。在本文[1]中,我们将带您踏上从 BERT 基础知识到高级概念的旅程,并配有解释、示例和代码片段。
实验说明,BERT是依靠数据集里“虚假的统计学线索 (Spurious Statistical Cues) ”来推理的。
在机器阅读理解顶级水平测试SQuAD1.1中,Google AI团队新发布的BERT模型,交出了一份惊人的成绩单。
今天带来的这篇文章,详细的讲解了 BERT 以及和其他模型之间的区别。由深思考人工智能(iDeepWise Artificial Intelligence)投稿。
Bert 给人们带来了大惊喜,不过转眼过去大约半年时间了,这半年来,陆续出现了与 Bert 相关的不少新工作。
Bert 给人们带来了大惊喜,不过转眼过去大约半年时间了,这半年来,陆续出现了与Bert相关的不少新工作。
TextBrewer是一个基于PyTorch的、为实现NLP中的知识蒸馏任务而设计的工具包,
作者张俊林,中国中文信息学会理事,中科院软件所博士。目前担任新浪微博机器学习团队 AI Lab 负责人。在此之前,张俊林曾经在阿里巴巴任资深技术专家并负责新技术团队,以及在百度和用友担任技术经理及技术总监等职务。他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届优秀图书奖)、《大数据日知录:架构与算法》的作者。
这两天,XLNet 貌似也引起了 NLP 圈的极大关注,从实验数据看,在某些场景下,确实 XLNet 相对 Bert 有很大幅度的提升。就像我们之前说的,感觉 Bert 打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而 XLNet 就是其中比较引人注目的一位。当然,我估计很快我们会看到更多的这个模式下的新工作。未来两年,在两阶段新模式 ( 预训练 + Finetuning ) 下,应该会有更多的好工作涌现出来。根本原因在于:这个模式的潜力还没有被充分挖掘,貌似还有很大的提升空间。当然,这也意味着 NLP 在未来两年会有各种技术或者应用的突破,现在其实是进入 NLP 领域非常好的时机。原因有两个,一个是 NLP 正面临一个技术栈大的改朝换代的时刻,有很多空白等着你去填补,容易出成绩;另外一点,貌似 Bert+Transformer 有统一 NLP 各个应用领域的趋向,这意味着此时进入 NLP 领域,具备学习成本非常低的好处,和之前相比,投入产出比非常合算。这是两个原因。当然,即使如此,想要学好 NLP ,持续的精力投入是必不可少的。有句老话说得好:“永恒的爱大约持续三个月”,这句话其实对于很多对 NLP 感兴趣的同学也成立:“对 NLP 的永恒的热情大约能够持续3到5天”,希望真的有兴趣的同学能坚持一下,起码持续7到8天,凑够一个星期…..
http://www.tensorinfinity.com/paper_160.html
这两天,XLNet貌似也引起了NLP圈的极大关注,从实验数据看,在某些场景下,确实XLNet相对Bert有很大幅度的提升。就像我们之前说的,感觉Bert打开两阶段模式的魔法盒开关后,在这条路上,会有越来越多的同行者,而XLNet就是其中比较引人注目的一位。
在自然语言处理和知识图谱中,实体抽取、NER是一个基本任务,也是产业化应用NLP 和知识图谱的关键技术之一。BERT是一个大规模预训练模型,它通过精心设计的掩码语言模型(Masked Language Model,MLM)来模拟人类对语言的认知,并对数十亿个词所组成的语料进行预训练而形成强大的基础语义,形成了效果卓绝的模型。通过 BERT来进行实体抽取、NER的方法是当前在NLP和知识图谱的产业化应用中最常用的方法,是效果与成本权衡下的最佳选择。本文详细讲解使用BERT来进行实体抽取,看完本文就会用当前工业界最佳的模型了。
近日,微软语音与对话研究团队在斯坦福机器对话式问答数据挑战赛CoQA Challenge中夺冠,并且单模型和集成模型分别位列第二和第一,让机器阅读理解向着人类水平又靠近了一步。
在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP圈,其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10,性能却依然能与BERT、RoBERTa等模型相媲美。
BERT 通过改变 NLP 模型的训练方式迎来了 NLP 领域的 ImageNet 时刻。自此之后的预训练模型分别尝试从 mask 范围,多语言,下文预测,模型轻量化,预训练方式,模型大小,多任务等方向谋求新突破,有的效果明显,有的只是大成本小收益。
知乎链接:https://zhuanlan.zhihu.com/p/54934304
近两年,以 BERT、XLNet 为代表的无监督预训练技术在多个自然语言处理任务上取得了技术突破。基于大规模数据的无监督预训练技术在自然语言处理领域变得至关重要。
https://github.com/PaddlePaddle/models/tree/v1.5.1/PaddleNLP
单词的先后顺序会影响句子的意思,RNN擅长捕捉序列关系,不过对于翻译来说,句子间的单词数量不是一一对应的。
目前这篇arXiv预印版为短文篇幅,不过小编发现,OpenReview上有匿名提交的完整版本,下载地址:
日前,谷歌 AI 团队发布 BERT 模型,在机器阅读理解水平测试 SQuAD1.1 中表现出相当不错的成绩:在 11 项 NLP 任务中刷新当前最优性能记录。BERT 的 GLUE 基准提升至 80.4%(绝对改进:7.6%),MultiNLI 准确率达到 86.7%(绝对改进:5.6%),在 SQuAD v1.1 的问答测试中,F1 得分提升至 93.2 分(提高 1.5 分),比人类表现高出 2 分。
一部问答系统发展史就是一部人工智能发展史。早在1950年的图灵测试就提出:如果人类无法通过问答将机器和人区分开,那么这个机器就可以被认为具有智能。问答系统和人工智能有着密不可分的关系。从基于规则和结构化数据的自动问答,到基于精细设计神经网络的文本问答,再到T5[1]将一切文本任务都转化为问答,我们足以看出自动问答系统在走向机器智能的过程中的重要性。
2019 年 5 月 ACM 图灵大会上,朱松纯教授(加州大学洛杉矶分校)与沈向洋博士(微软全球执行副总裁)在谈到「人工智能时代的道路选择」这个话题时,沈向洋博士认为人工智能发展在工业界将会迎来黄金十年,而朱松纯教授也表示人工智能的发展趋势将会走向大一统,从小任务走向大任务,从 AI 六大学科走向统一。
当地时间周三,西雅图艾伦人工智能研究所正式推出新 AI 系统 Aristo,该系统在八年级的科学测试中答对了 90%以上的问题,并在十二年级的测试中答对了 80%以上的问题。
摘要:本篇从业务实践的角度分享NLP各任务的baseline。首先介绍背景以及CLUE社区提供的NLP公共数据集;然后分别介绍了NLP各子任务的公共数据集、技术方案以及实践源码,主要包括文本分类任务、文本匹配任务、关键词识别任务、自动标题任务和图像描述生成任务。对于希望又快又好的解决实际业务中的NLP相关业务的小伙伴可能有所帮助。
【磐创AI 导读】:本文将会带大家在3分钟内理解GPT,BERT和XLNet的概念差异,欢迎大家转发、留言。
去年可以说是语言模型快速发展的一年,BERT、XLNET、Albert等等模型不断刷新各个NLP榜单。在NLP榜单中比较引人注目的应该属于阅读理解型的任务,例如SQuAD等等。以SQuAD为例,模型需要阅读一段给定的文本,然后回答几个问题,问题如果存在答案,答案一定可以在文章中找到。所以说虽然叫阅读理解,但其实和序列标注有点相像,是在给定序列中标出答案段。而这篇论文针对的问题叫开放领域问答(Open-domain QA),对于一个问题Q,模型需要从包含大量文档的知识库中找到答案,而不是像SQuAD数据集一样从一篇文章中寻找。
基于微软大规模真实场景数据的阅读理解数据集MS MARCO,美团搜索与NLP中心提出了一种针对该文本检索任务的BERT算法方案DR-BERT,该方案是第一个在官方评测指标MRR@10上突破0.4的模型。
想象一下自己正在进行一个非常好的数据科学项目,还为了获得较好的结果用了最前沿的数据库。然后几天后,新一代前沿框架的出现,导致现有模型已经落后了。
本篇主要给大家介绍两篇文章:一篇是清华大学发表的XQA,该篇文章主要是针对开放式问答构建了一个跨语言的开放式问答数据集,该数据集(训练集、测试集)主要包括九种语言,9万多个问答。第二篇是澳洲昆士兰阳光海岸发表的Katecheo,该篇文章构建了一个模块化系统,它可以轻易的部署在Kubernetes集群(当前很多大公司都会使用Kubernetes)上用作商用。
作者 | Henny Jones 译者 | 平川 策划 | 刘燕 本文最初发布于 HData Systems 博客,经 InfoQ 翻译。 我们每个人都知道谷歌是做什么的。你可能就是在谷歌的帮助下找到这篇博文的。真的,谷歌搜索结果的准确性令人折服。谷歌搜索实际上是一个搜索引擎。虽然它是我们生活中不可分割的一部分,但对于搜索引擎,我们大多数人了解得并不多。 搜索引擎有许多,如雅虎、必应和 Ask.com,但我们甚至不知道或从未使用过,因为我们对 Google.com 如此习惯。我们迷上谷歌的原因之一是,我们认
谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。
机器阅读理解,笔者认为他是NLP中最有意思的任务了。机器阅读一份文档之后,可以“理解”其中的内容,并可以回答关于这份文档的问题。听上去,有一种很强的“人工智能”的Feel。
近期的NLP方向,ELMO、GPT、BERT、Transformer-XL、GPT-2,各种预训练语言模型层出不穷,这些模型在各种NLP任务上一次又一次刷新上线,令人心驰神往。但是当小编翻开他们的paper,每一个上面都写着四个大字:“弱者退散”,到底该怎么将这些顶尖工具用到我的模型里呢?答案是Hugging Face的大神们开源的pytorch-pretrained-BERT。
机器是如何理解我们的文字的呢?最早的技术是1-of-N encoding,把每一个词汇表示成一个向量,每一个向量都只有一个地方为1,其他地方为0。但是这么做词汇之间的关联没有考虑,因为不同词之间的距离都是一样的。
👆点击“博文视点Broadview”,获取更多书讯 如果你是一名自然语言处理从业者,那你一定听说过大名鼎鼎的 BERT 模型。 BERT(Bidirectional Encoder Representations From Transformers)模型的“荣耀时刻”是2018年:称霸机器理解测试SQuAD,横扫其他10项NLP测试,达成“全面超过人类”成就。 BERT模型使用预训练和微调的方式来完成自然语言处理(Natural Language Processing,NLP)任务。这些任务包括问答系统
XLNet:NLP领域中一个新的预训练方法,相比BERT可以显著提高20个任务的准确率。
机器之心发布 机器之心编辑部 机器之心《2020-2021 全球 AI 技术趋势发展报告》节选:顶会趋势(NeurIPS)分析。 2021 年伊始,机器之心发布《2020-2021 全球 AI 技术趋势发展报告》,基于顶会、论文及专利等公共数据、机器之心专业领域数据仓库,通过数据挖掘定位七大趋势性 AI 技术领域。 此外,该报告还邀请了近 100 位专家学者通过问卷调查,形成对这七大技术领域近年发展情况、成熟度与未来趋势的综合总结,并基于 2015-2020 年间的开源论文与专利语料,结合机器之心自有的新闻
领取专属 10元无门槛券
手把手带您无忧上云