开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在掩蔽语言建模期间掩蔽每个输入句子中的特定标记

在掩蔽语言建模期间，掩蔽每个输入句子中的特定标记是一种自然语言处理技术，用于处理文本数据中的特定标记或词语。该技术通常用于文本生成、机器翻译、文本分类等任务中。

掩蔽语言建模是指在训练语言模型时，将输入文本中的某些标记或词语进行掩盖，然后让模型预测被掩盖的标记或词语。这样可以提高模型对上下文的理解和预测能力。

掩蔽每个输入句子中的特定标记的步骤如下：

首先，将输入句子中的特定标记或词语进行掩盖，可以使用特殊的掩盖符号或将其替换为通用的占位符。
然后，将掩盖后的文本输入到语言模型中进行训练或推理。
最后，模型会根据上下文和语言模型的学习，预测被掩盖的标记或词语。

这种技术的优势包括：

提高模型对上下文的理解能力：通过掩蔽特定标记，模型需要根据上下文来预测被掩盖的标记或词语，从而促使模型更好地理解上下文信息。
增强模型的泛化能力：通过掩蔽特定标记，模型需要学习到更多的语义和语法规则，从而提高模型在不同任务和领域的泛化能力。
改善文本生成和机器翻译的质量：通过掩蔽特定标记，模型可以更准确地生成符合语法和语义规则的文本，提高文本生成和机器翻译的质量。

掩蔽每个输入句子中的特定标记在以下场景中有广泛应用：

文本生成：通过掩蔽特定标记，模型可以生成符合语法和语义规则的文本，如自动摘要、对话系统等。
机器翻译：通过掩蔽特定标记，模型可以更准确地进行源语言到目标语言的翻译，提高翻译质量。
文本分类：通过掩蔽特定标记，模型可以更好地理解文本的语义和上下文信息，提高文本分类的准确性。
信息抽取：通过掩蔽特定标记，模型可以更好地识别和提取文本中的实体、关系等信息。

腾讯云相关产品和产品介绍链接地址：

腾讯云自然语言处理（NLP）：https://cloud.tencent.com/product/nlp
腾讯云机器翻译（MT）：https://cloud.tencent.com/product/mt
腾讯云文本审核（TAS）：https://cloud.tencent.com/product/tas
腾讯云智能对话（Chatbot）：https://cloud.tencent.com/product/chatbot

相关搜索:BERT:是否可以在掩蔽语言建模中过滤预测的标记？是否有可能查看所有用于掩蔽语言建模的标记排名？掩蔽在语言理解转换器的scaled_dot_product_attention中是如何工作的？在Powershell中强制输入/输出编码到特定的语言环境/代码页？在汇编语言nasm 32位中单独访问输入的每个字符从超文本标记语言文本(嵌套在shinyServer中)到特定闪亮tabPanel (在shinyUI中)的链接如何设置超文本标记语言表格的布局，使其在通过JS在<td>中输入值时不会更改？python中反斜线 python事件绑定 python全局差分

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

王者对决：XLNet对比Bert！！

【磐创AI 导读】：本文将会带大家了解XLNet在语言建模中优于BERT的原因，欢迎大家转发、留言。

01

理解NLP中的屏蔽语言模型(MLM)和因果语言模型(CLM)

在本文章中，我们将讨论两种流行的训练前方案，即掩蔽语言建模(MLM)和因果语言建模(CLM)。

02

学界 | 超越 BERT 和 GPT，微软亚洲研究院开源新模型 MASS！

AI 科技评论按：自 2018 年以来，预训练无疑是自然语言处理（NLP）领域中最热门的研究课题之一。通过利用 BERT、GPT 和 XLNet 等通用语言模型，该领域的研究者们在自然语言理解方面已经取得了许多重大的突破。然而，对于序列到序列的自然语言生成任务，这些主流的预训练方法并没有带来显著的改进，对此，微软亚洲研究院提出了一个全新的通用预训练方法——MASS，在该任务中可以得到比 BERT 和 GPT 更好的效果。

02

T5，一个探索迁移学习边界的模型

T5 是一个文本到文本迁移 Transformer 模型，通过将所有任务统一视为一个输入文本并输出文本，其中任务类型作为描述符嵌入到输入中。该模型使单个模型可以执行各种各样的有监督任务，例如翻译、分类、Q＆A、摘要和回归（例如，输出介于 1 到 5 之间两个句子之间的相似性得分。实际上，这是一个 21 类分类问题，如下所述）。该模型首先在大型语料库上进行无监督的预训练（像 BERT 中一样的隐蔽目标），然后进行有监督训练，其中包含代表所有这些任务的输入文本和相关带标签的数据，也就是文本（其中输入流中的特定标记“将英语翻译为法语”或“ stsb句子1：…句子2”，“问题” /“上下文”等对任务类型进行编码，如上图所示，模型经过训练输出与标记数据匹配的文本。）通过这种为监督学习指定输入和输出的方法，该模型在所有不同的任务之间共享其损失函数、解码器等。

00

理解BERT:一个突破性NLP框架的综合指南

想象一下——你正在从事一个非常酷的数据科学项目，并且应用了最新的最先进的库来获得一个好的结果!几天后，一个新的最先进的框架出现了，它有可能进一步改进你的模型。

03

万字综述！从21篇最新论文看多模态预训练模型研究进展

在传统的NLP单模态领域，表示学习的发展已经较为完善，而在多模态领域，由于高质量有标注多模态数据较少，因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型，通过海量无标注数据进行预训练，然后使用少量有标注数据进行微调即可。

02

人大团队研究：面向文本生成，预训练模型进展梳理

作者 | 刘媛媛来源 | 数据实战派文本生成是 NLP 中最重要且颇具挑战性的任务之一。近年来，预训练语言模型 (Pretrained Language Models ，下文简称 “PLM”) 的范式，极大地推动了该领域的发展。例如，我们曾介绍过 AI 在古诗生成上的突破《清华团队最新成果：可致特朗普能咏比特币，AI 写古诗 “更上一层楼”》。最近，一项由中国人民大学团队完成的预印本论文 Pretrained Language Models for Text Generation: A Survey，

01

【The boundaries of AI | AI 边界系列】什么是 XLNet，为何它会超越 BERT？

原文：https://towardsdatascience.com/what-is-xlnet-and-why-it-outperforms-bert-8d8fce710335towardsdatascience.com

04

势如破竹！169 篇论文带你看 BERT 在 NLP 中的 2019 年！

2019 年，可谓是 NLP 发展历程中具有里程碑意义的一年，而其背后的最大功臣当属 BERT ！

02

ICCV2023 | Masked Diffusion Transformer：增强扩散模型对上下文关系的理解

在这项工作中，我们首先观察到DPMs通常难以学习图像中物体部分之间的关联关系，导致训练过程缓慢。为了解决这个问题，提出了一种有效的掩码扩散变换器（Masked Diffusion Transformer，MDT），以提高DPMs的训练效率。MDT引入了一个蒙面潜在建模方案，专门为基于Transformer的DPMs设计，以明确增强上下文学习能力并改进图像语义之间的关联关系学习。MDT在潜在空间中进行扩散过程以节省计算成本。它对某些图像标记进行掩码，并设计了一个不对称的掩码扩散变换器（AMDT），以一种扩散生成的方式预测被掩码的标记。MDT可以从其上下文不完整的输入中重建图像的完整信息，学习图像语义之间的关联关系。

04

ACL 2020 | CASREL: 不受重叠三元组影响的关系抽取方法

今天为大家分享的文章是ACL 2020录用的一篇关于关系抽取的文章，是吉林大学人工智能学院常毅教授团队的研究成果。针对目前既存模型处理重叠关系三元组（多个关系三元组共享同一个实体）效果不好的问题，提出了一种新的级联二元标注框架——CASREL。不同于以往模型将关系建模为实体的离散标签（即将关系抽取作为分类任务处理），作者从一个新的视角审视这个问题，认为可以在一句话中将关系建模成一个使头实体映射到尾实体的函数。这样我们只需要找出尽可能多的三元组即可，而以往关系分类任务中却存在许多关系被遗漏的问题。

06

字节跳动 AI Lab 总监李航：语言模型的过去、现在和未来

作者 | 李航编译 | 李梅、黄楠编辑 | 陈彩娴从俄国数学家 Andrey Markov （安德烈·马尔可夫）提出著名的「马尔科夫链」以来，语言建模的研究已经有了 100 多年的历史。近年来，自然语言处理（NLP）发生了革命性的变化。2001年，Yoshua Bengio 用神经网络进行参数化的神经语言模型，开启了语言建模的新时代。其后，预训练语言模型如 BERT 和 GPT 的出现再次将 NLP 提高到一个新的水平。最近，字节跳动 AI Lab 的总监李航博士在《ACM通讯》（The Commu

01

李航老师对预训练语言模型发展的一些看法

每天给你送来NLP技术干货！ ---- 作者 | 李航编译 | 李梅、黄楠编辑 | 陈彩娴从俄国数学家 Andrey Markov （安德烈·马尔可夫）提出著名的「马尔科夫链」以来，语言建模的研究已经有了 100 多年的历史。近年来，自然语言处理（NLP）发生了革命性的变化。2001年，Yoshua Bengio 用神经网络进行参数化的神经语言模型，开启了语言建模的新时代。其后，预训练语言模型如 BERT 和 GPT 的出现再次将 NLP 提高到一个新的水平。最近，字节跳动 AI Lab 的总监李

02

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

大数据文摘授权转载自AI科技评论编译：Jocelyn 编辑：陈彩娴本文对视觉-语言（VL）智能按时间顺序进行了全面调研，并将这一领域的发展总结为三个阶段：第一个阶段是2014-2018年，其间，专门的模型被设计用于不同的任务。第二个时代是2019-2021年，在此期间，通过使用有着高质量标签的VL数据集进行预训练，神经网络模型能够学习视觉和语言的联合表征。最后，随着2021年CLIP的出现，第三个时代开始了，此时研究人员寻求在更大的弱标签数据集上预训练VL模型，并通过VL预训练获得性能强大的基于零样

02

30页论文！俞士纶团队新作：AIGC全面调查，从GAN到ChatGPT发展史

---- 新智元报道编辑：桃子【新智元导读】2022年，可以说是生成式AI的元年。近日，俞士纶团队发表了一篇关于AIGC全面调查，介绍了从GAN到ChatGPT的发展史。刚刚过去的2022年，无疑是生成式AI爆发的奇点。自2021年起，生成式AI连续2年入选Gartner的「人工智能技术成熟度曲线」，被认为是未来重要的AI技术趋势。近日，俞士纶团队发表了一篇关于AIGC全面调查，介绍了从GAN到ChatGPT的发展史。论文地址：https://arxiv.org/pdf/2303.0

03

万字深度好文！VL最强总结！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路本文转自AI科技评论本文对视觉-语言（VL）智能按时间顺序进行了全面调研，并将这一领域的发展总结为三个阶段：第一个阶段是2014-2018年，其间，专门的模型被设计用于不同的任务。第二个时代是2019-2021年，在此期间，通过使用有着高质量标签的VL数据集进行预训练，神经网络模型能够学习视觉和语言的联合表征。最后，随着2021年CLIP的出现，第三个时代开始了，此时研究人员寻求在更大的弱标签数据集上预训练VL模型，并通过VL预

03

万字深度好文！视觉-语言（VL）智能：任务、表征学习和大型模型

编译丨Jocelyn 编辑丨陈彩娴本文对视觉-语言（VL）智能按时间顺序进行了全面调研，并将这一领域的发展总结为三个阶段：第一个阶段是2014-2018年，其间，专门的模型被设计用于不同的任务。第二个时代是2019-2021年，在此期间，通过使用有着高质量标签的VL数据集进行预训练，神经网络模型能够学习视觉和语言的联合表征。最后，随着2021年CLIP的出现，第三个时代开始了，此时研究人员寻求在更大的弱标签数据集上预训练VL模型，并通过VL预训练获得性能强大的基于零样本或少样本的视觉模型。我们相信这

01

5分钟NLP：从 Bag of Words 到 Transformer 的时间年表总结

本文不是 NLP 研究的完整列表，因为太多了无法总结的这么完整！但是本文对影响NLP研究的一些重要的模型进行总结，并尽量让它简约而不是简单，如果你刚刚进入NLP领域，本文可以作为深入研究该领域的起点。

02

TabTransformer：用于表格数据的Transformer

首先，我们将回答为什么可以将transformer应用于表格数据。然后，我们将看到他们如何处理表格数据。

04

大道至简，何恺明新论文火了：Masked Autoencoders让计算机视觉通向大模型

11 月 12 日，一篇由 Facebook AI 研究院完成、何恺明一作的论文《Masked Autoencoders Are Scalable Vision Learners》成为了计算机视觉圈的热门话题。

06

tensorflow 2.0+ 预训练BERT模型的文本分类

多分类也称为单标签问题，例如，我们为每个样本分配一个标签。名称中的"多"表示我们处理至少 3 个类，对于 2 个类，我们可以使用术语二进制分类(binary classification)。另一方面，多标签任务更为一般，允许我们为每个样本分配多个标签，而不仅仅是一样本一标签。

04

BERT适应业务遇难题？这是小米NLP的实战探索

近年来，预训练模型在自然语言处理（Natural Language Processing, NLP）领域大放异彩，其中最重要的工作之一就是 Google 于 2018 年发布的 BERT 预训练模型 [1]。自被发布以来，BERT 预训练模型就在多项自然语言理解任务上取得了优异的效果，并开启了预训练-微调的 NLP 范式时代，启发了 NLP 领域后续一系列的预训练模型工作。与此同时，BERT 模型在 NLP 相关工业领域也得到了广泛应用，并取得了良好的效果。但由于工业领域相关业务的数据格式的复杂性，以及工业应用对推理性能的要求，BERT 模型往往不能简单直接地被应用于 NLP 业务之中，需要根据具体场景和数据对 BERT 模型加以调整和改造，以适应业务的现实需求。

01

BERT适应业务遇难题？这是小米NLP的实战探索

近年来，预训练模型在自然语言处理（Natural Language Processing, NLP）领域大放异彩，其中最重要的工作之一就是 Google 于 2018 年发布的 BERT 预训练模型 [1]。自被发布以来，BERT 预训练模型就在多项自然语言理解任务上取得了优异的效果，并开启了预训练-微调的 NLP 范式时代，启发了 NLP 领域后续一系列的预训练模型工作。与此同时，BERT 模型在 NLP 相关工业领域也得到了广泛应用，并取得了良好的效果。但由于工业领域相关业务的数据格式的复杂性，以及工业应用对推理性能的要求，BERT 模型往往不能简单直接地被应用于 NLP 业务之中，需要根据具体场景和数据对 BERT 模型加以调整和改造，以适应业务的现实需求。

02

nlp-with-transformers系列-03_剖析transformers模型

在第2章中，我们看到了微调和评估一个Transformer所需要的东西。现在让我们来看看它们在引擎盖下是如何工作的。在本章中，我们将探讨Transformer模型的主要组件以及如何使用PyTorch实现它们。我们还将提供关于如何在TensorFlow中做同样事情的指导。我们将首先专注于建立注意力机制，然后添加必要组件，使Transformer编码器工作。我们还将简单了解一下编码器和解码器模块之间的结构差异。在本章结束时，你将能够自己实现一个简单的Transformer模型!

02

多模态理解与生成，西南交大&MSRA提出统一的"视频和语言预训练"模型：UniVL！

本文分享论文『UniVL: A Uniﬁed Video and Language Pre-Training Model for Multimodal Understanding and Generation』，由西南交大&MSRA提出《UniVL》，用于多模态理解和生成的统一视频和语言预训练模型！

01

5 分钟入门 Google 最强NLP模型：BERT

BERT (Bidirectional Encoder Representations from Transformers)

03

【ACL 2021】四篇好文简读-专题1

Self-Alignment Pretraining for Biomedical Entity Representations

03

用不匹配的图文对也能进行多模态预训练？百度提出统一模态的预训练框架：UNIMO（ACL2021）

本文分享 ACL 2021 论文『UNIMO: Towards Uniﬁed-Modal Understanding and Generation via Cross-Modal Contrastive Learning』，由百度提出统一模态的预训练框架《UNIMO》、用不匹配的图文对也能进行多模态预训练？

03

BERT, RoBERTa, DistilBERT, XLNet的用法对比

导读：BERT, RoBERTa, DistilBERT, XLNet到底哪家强？在不同的研究领域和应用场景如何选择成了大难题。凡事莫慌，这篇文章帮你理清思路。

02

BERT模型详解

1 简介 BERT全称Bidirectional Enoceder Representations from Transformers，即双向的Transformers的Encoder。是谷歌于2018年10月提出的一个语言表示模型（language representation model）。 1.1 创新点预训练方法（pre-trained）：用Masked LM学习词语在上下文中的表示；用Next Sentence Prediction来学习句子级表示。 1.2 成功强大，效果好。出来之时，

03

基于CLIP，浙大提出：ActionCLIP，用检索的思想做视频动作识别！性能SOTA！代码已开源！

本文分享论文『ActionCLIP: A New Paradigm for Video Action Recognition』，假设视频动作识别不是分类问题，而是检索问题？并基于 CLIP，浙大提出 ActionCLIP，用检索的思想做视频动作识别！性能 SOTA！代码已开源！

01

【LLM系列之GLM】GLM: General Language Model Pretraining with Autoregressive Blank Infilling

目前，已经有各种类型的预训练架构，包括自编码模型（例如BERT），自回归模型（例如GPT）和编码器-解码器模型（例如T5）。然而，没有一个预训练框架对三个主要类别的所有任务（自然语言理解（NLU），无条件生成和有条件生成）都表现最佳。本文主要贡献：

05

NLP领域中的迁移学习现状

在过去一年多的时间里，以预训练模型形式进行的迁移学习已经成为NLP领域的主流，许多任务的基准都因而得到极大地提升。然而事实上迁移学习在NLP中并不是最近才出现的。

04

ERNIE 3.0 Titan：最强中文预训练模型

本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架，用于预训练大规模知识增强模型，并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能，作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外，作者设计了一个自监督的对抗损失和一个可控的语言建模损失，使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放，作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架，其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明，ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。

04

加速视觉-语言对比学习 | 基于像素强度的图像块屏蔽策略！

图像包含大量冗余信息，这使得在大规模上高效地从图像中学习表示变得具有挑战性。最近的工作通过在视觉-语言对比学习过程中 Mask 图像块来解决这个问题[15, 33, 36, 70]。一种简单的方法是随机丢弃大量图像块，通过减少每次训练迭代的计算成本和内存使用来提高训练效率[36]。另一种策略是 Mask 语义相关的图像块集合[15, 33, 70]，比如属于同一物体的块。这迫使学习到的模型从上下文中预测描述缺失场景结构的单词，从而改进了学习的表示。然而，这种方法需要单独的机制来将语义相关的块分组在一起，这增加了学习过程的复杂性并且计算成本高昂。

01

【综述】NLP领域迁移学习现状

在过去一年多的时间里，以预训练模型形式进行的迁移学习已经成为NLP领域的主流，许多任务的基准都因而得到极大地提升。然而事实上迁移学习在NLP中并不是最近才出现的。

02

深入解析序列模型：全面阐释 RNN、LSTM 与 Seq2Seq 的秘密

序列建模是许多领域的一个重要问题，包括自然语言处理 (NLP)、语音识别和语音合成、时间序列预测、音乐生成和「生物信息学」。所有这些任务的共同点是它们需要坚持。接下来的事情的预测是基于历史的。例如，在“哈桑以前踢足球，而且他踢得非常好”的序列中。只有将“哈桑”的信息推进到该特定点，才能对“他”进行预测。因此，您需要某种历史记录块来存储以前的信息并将其用于进一步的预测。传统的人工神经网络在这方面失败了，因为它们无法携带先前的信息。这就催生了一种名为“循环神经网络（RNN）”的新架构。

02

最新！NLG顶会INLG2021最佳长论文出炉！一作华人学生代表出席今晚INLG

周杰伦三词作曲，曹植七步成诗。近年来，约束文本生成任务（在特定前提条件下生成自然语言输出）引起越来越多人的兴趣。

01

如何利用多任务学习提升模型性能？

提升模型性能的方法有很多，除了提出过硬的方法外，通过把神经网络加深加宽（深度学习），增加数据集数目（预训练模型）和增加目标函数（多任务学习）都是能用来提升效果的手段。（别名Joint Learning，Learning to learn，learning with auxiliary task....等）

03

新一届最强预训练模型上榜，出于BERT而胜于BERT

【导读】预训练方法设计有不同的训练目标，包括语言建模、机器翻译以及遮蔽语言建模等。最近发表的许多论文都使用了微调模型，并预先训练了一些遮蔽语言模型的变体。然而，还有一些较新的方法是通过对多任务微调提高性能，结合实体嵌入，跨度预测和自回归预训练的多种变体。它们通常在更大数据上训练更大的模型来提高性能。本文的目标是通过复制、简化和更好地微调训练BERT，以作为更好理解上述方法的相对性能的参考值。

04

大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍

预训练属于迁移学习的范畴。现有的神经网络在进行训练时，一般基于反向传播（Back Propagation，BP）算法，先对网络中的参数进行随机初始化，再利用随机梯度下降（Stochastic Gradient Descent，SGD）等优化算法不断优化模型参数。而预训练的思想是，模型参数不再是随机初始化的，而是通过一些任务进行预先训练，得到一套模型参数，然后用这套参数对模型进行初始化，再进行训练。

01

图神经网络的自监督学习

当标记样本有限时，作为一种利用大量未标记样本的新范式, 自监督学习（Self-Supervised Learning，SSL）正在兴起。SSL在自然语言和图像学习任务上取得了很好的性能。最近，有一种趋势是使用图神经网络将这种成功扩展到图数据。

02

Bert预训练新法则！

论文简介：还应在遮蔽语言模型中使用 15% 的遮蔽概率吗？论文标题：Should You Mask 15% in Masked Language Modeling? 论文链接：https://a

03

【中文版 | 论文原文】BERT：语言理解的深度双向变换器预训练

本文介绍一种称之为BERT的新语言表征模型，意为来自变换器的双向编码器表征量(BidirectionalEncoder Representations from Transformers)。不同于最近的语言表征模型(Peters等，2018; Radford等，2018)，BERT旨在基于所有层的左、右语境来预训练深度双向表征。因此，预训练的BERT表征可以仅用一个额外的输出层进行微调，进而为很多任务(如问答和语言推理)创建当前最优模型，无需对任务特定架构做出大量修改。

03

AAAI 2020 | MaskGEC:通过动态掩蔽改善语法纠错

今天给大家介绍北京大学计算语言学教育部重点实验室的Zewei Zhao和Houfeng Wang在AAAI 2020发表的文章“MaskGEC: Improving Neural Grammatical Error Correction via Dynamic Masking”。作者在文章中提出了一种通过动态掩蔽改进基于神经机器翻译的语法纠错模型的方法，该方法解决了模型对“错误-正确”句子对的语料库的需求。

04

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（二）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 2 期进行连载，共介绍 10 个在文本生成任务上曾取得 SOTA 的经典模型。第 1 期：Seq2Seq（RNN）、Seq2Seq（LSTM）、Seq2Seq+

02

一文读懂“语言模型”

【摘要】自然语言处理(NLP)近年来发生了革命性的变化，特别预训练语言模型的开发和使用，在许多应用方面都取得了显著的成绩。预训练语言模型有两个主要优点：一个是可以显著提高许多 NLP 任务的准确性。例如，可以利用 BERT 模型来获得比人类更高的语言理解能力，可以利用 GPT-3模型来生成类似于人类文字的生成文本。第二个优点是通用的语言处理工具。如果在传统的自然语言处理中进行基于机器学习的任务，需要标记大量的数据来训练模型。相比之下，目前只需要标记少量数据就可以对预先训练好的语言模型进行微调即可。

03

预训练语言模型合辑~

针对有两个及两个以上连续字组成的词，随机mask字割裂了连续字之间的相关性，使模型不太容易学习到词的语义信息。比如一句话：‘北京是中国的首都，是一座美丽的城市’，在bert的随机mask LM任务中，可能是把‘京’mask掉在再做预测，这样就把‘北京’两个字的语义割裂了。

02

「X」Embedding in NLP｜初识自然语言处理（NLP）

为了方便大家能够深入了解向量数据库与 NLP 的关系及应用，我们上线了「X」Embedding in NLP 系列专题，分为初阶和进阶两部分。本文为初阶第一篇，将详细介绍 NLP 以及以 Zilliz Cloud、Milvus 为代表的向量数据库是如何为 NLP 赋能的。

01

MG-BERT:利用无监督原子表示学习来预测分子性质

今天给大家介绍一篇来自浙江大学侯廷军教授课题组和中南大学曹东升教授课题组合作发表在2021年5月份发表在Briefings in Bioinformatics上的一篇文章《MG-BERT: leveraging unsupervised atomic representation learning for molecular property prediction》。本文使用了无监督原子表达学习来进行分子的性质预测。

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭