bert 序列标注_bert序列标注_多词序列标注 - 腾讯云开发者社区

序列标注是NLP中一项重要的任务，它主要包括分词，词性标注，命名实体识别等子任务。通过对预训练后的BERT模型进行finetune，并与CRF进行结合，可以很好地解决序列标注问题。上篇文章对BERT官方源码进行了介绍，本篇文章将介绍如何通过BERT解决序列标注问题。同时本篇文章将BERT+CRF模型与其他模型进行了对比，并且对BERT在序列标注上任务上存在的问题进行了分析。

012

EMNLP2022 & 天津大学 | 基于Bert的无监督边界感知模型BABERT「中文序列标注」

边界信息是各种中文自然语言处理任务的关键，如分词、词性标注和命名实体识别。之前的研究往往使用高质量的外部词典提供显式的边界信息。然而为保证词典的质量，往往需要大量的人力。为此，在本文使用无监督的统计边界信息，并提出一种将信息直接编码到预训练语言模型中的架构，从而产生边界感知BERT(BABERT)，并将BABERT应用于中文序列标注任务的特征归纳。在十个中文序列标记基准上的实验结果表明，BABERT在所有数据集上都具有较好的结果。

您找到你想要的搜索结果了吗？

是的

没有找到

【完结】 12篇文章带你完全进入NLP领域，掌握核心技术

BERT原理解读及HuggingFace Transformers微调入门

自BERT（Bidirectional Encoder Representations from Transformer）[1]出现后，NLP界开启了一个全新的范式。本文主要介绍BERT的原理，以及如何使用HuggingFace提供的 transformers 库完成基于BERT的微调任务。

SFFAI分享 | 罗玲：From Word Representation to BERT【附PPT，视频】

在自然语言处理任务中，词向量技术是将自然语言中的词转化为稠密的向量，语义相似的词会有相似的向量表示。Word2Vec等传统的词向量预训练模型都是静态且上下文无关的，不能很好的处理同一个词不同语义。Google发表的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》提出了BERT模型解决了这样的问题。作为刷新GLUE榜单11项NLP任务（句子关系判断，分类任务，序列标注任务等）成绩的预训练模型，BERT不仅沿袭将词向量和下游任务结合在一起实现上下文相关的优点，并且通过masked语言模型实现了真正的深度双向模型。同时BERT不仅能更好的处理sentence-level的任务，在token-level的语言任务上也达到了不错的效果。BERT不仅带来了研究的热潮，它对NLP任务的影响也在持续发酵中。

COLING 2020 | 字符感知预训练模型CharBERT

本期推送介绍了哈工大讯飞联合实验室在自然语言处理重要国际会议COLING 2020上发表的工作，提出了一种字符感知预训练模型CharBERT，在多个自然语言处理任务中取得显著性能提升，并且大幅度提高了模型的鲁棒性。本文以高分被COLING 2020录用，且获得审稿人的最佳论文奖推荐（Recommendation for Best Paper Award）。

WWW`22丨中科院信工所提出：面向多场景低资源加密流量分类的加密流量预训练技术

1 研究简介加密流量分类在网络负载管理和安全威胁检测中逐渐成为自动识别目标应用、服务和协议的主要方式。现有的模型通常使用大规模带有准确标注的会话样本来提取流量深层的可识别特征，比如证书链、包长序列和方向序列。但是在网络环境（例如局域网）中，流量包含的场景多样，这些方法不具备健壮的通用能力来适应不同场景下的迁移，以及在小规模的标注样本下达到预期效果。在WWW 20222这篇文章中，中科院信工所的研究者提出了一种流量表征模型， ET-BERT，有效学习无标注流量中的隐式关系，从而提升不同场景下流量分类的效

fastNLP工具包，快速实现序列标注模型

fastNLP是一款轻量级的自然语言处理（NLP）工具包，目标是快速实现NLP任务以及构建复杂模型。

谷歌终于开源BERT代码：3 亿参数量，机器之心全面解读

今日，谷歌终于放出官方代码和预训练模型，包括 BERT 模型的 TensorFlow 实现、BERT-Base 和 BERT-Large 预训练模型和论文中重要实验的 TensorFlow 代码。在本文中，机器之心首先会介绍 BERT 的直观概念、业界大牛对它的看法以及官方预训练模型的特点，并在后面一部分具体解读 BERT 的研究论文与实现，整篇文章的主要结构如下所示：

【干货推荐】基于 TensorFlow 的实体及关系抽取

https://github.com/yuanxiaosc/Entity-Relation-Extraction/blob/master/README.md

【NLP-NER】什么是命名实体识别？

命名实体识别（Named Entity Recognition，NER）是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度，决定了下游任务的效果，是NLP中非常重要的一个基础问题。作者&编辑 | 小Dream哥

谷歌终于开源BERT代码：3 亿参数量，机器之心全面解读

最近谷歌发布了基于双向 Transformer 的大规模预训练语言模型，该预训练模型能高效抽取文本信息并应用于各种 NLP 任务，该研究凭借预训练模型刷新了 11 项 NLP 任务的当前最优性能记录。如果这种预训练方式能经得起实践的检验，那么各种 NLP 任务只需要少量数据进行微调就能实现非常好的效果，BERT 也将成为一种名副其实的骨干网络。

面经 | NLP算法岗(腾讯)

提前批投递时可以自主选择部门，有些部门的hc几乎全都留给实习生转正，建议无法实习的童鞋们，提前做好调研，避开这些部门。

【NLP-NER】什么是命名实体识别？

命名实体识别（Named Entity Recognition，NER）是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。

AAAI 2020「自然语言处理（NLP）」【哈尔滨工业大学】多任务自监督学习的文本顺滑

各位小伙伴，最近全国各地陆续发现新型冠状病毒感染的肺炎疫情，又赶上春节，大家出门请注意戴口罩，做好防护~~

基于Bert-NER构建特定领域中文信息抽取框架

本文通过多个实验的对比发现，结合Bert-NER和特定的分词、词性标注等中文语言处理方式，获得更高的准确率和更好的效果，能在特定领域的中文信息抽取任务中取得优异的效果。

Bert最新进展，继续在NLP各领域开花结果！

Bert 给人们带来了大惊喜，不过转眼过去大约半年时间了，这半年来，陆续出现了与 Bert 相关的不少新工作。

object object_无监督命名实体识别

实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。实体识别可以简单理解为一个序列标注问题：给定一个句子，为句子序列中的每一个字做标注。因为同是序列标注问题，除去实体识别之外，相同的技术也可以去解决诸如分词、词性标注（POS）等不同的自然语言处理问题。

LaserTagger: 文本生成任务的序列标注解决方案

今天要和大家分享的是2019年Google Research的一篇关于文本生成的论文[1]，已开源[2]。

Bert时代的创新：Bert在NLP各领域的应用进展

Bert 给人们带来了大惊喜，不过转眼过去大约半年时间了，这半年来，陆续出现了与 Bert 相关的不少新工作。

这篇文章告诉你，如何用阅读理解来做NER！

之前做过实体关系抽取/联合抽取等任务，是用LSTM+CRF模型+BIO标注的方法，最近看到有一篇ACL用MRC（Machine Reading Comprehension）的方法去做NER（Named Entity Recognition）任务，以下是对这篇论文的分享。

Bert时代的创新（应用篇）：Bert在NLP各领域的应用进展

Bert 给人们带来了大惊喜，不过转眼过去大约半年时间了，这半年来，陆续出现了与Bert相关的不少新工作。

广告行业中那些趣事系列31：关键词提取技术攻略以及BERT实践

摘要：本篇从理论到实际介绍了NLP领域常见的关键词提取技术。首先介绍了业务背景，包括NLP四大任务介绍、关键词提取是一种NER任务、线上使用关键词提取技术场景；然后重点详解了关键词提取技术，包括关键词提取技术整体流程、分词介绍、无监督学习提取关键词、有监督学习提取关键词；最后分别从无监督学习和有监督学习源码实践了关键词提取技术。对关键词提取技术感兴趣并希望应用到实际项目中的小伙伴能有所帮助。

用TensorFlow构建一个中文分词模型需要几个步骤

中文分词方法现在主要有两种类型，一种是jieba这样软件包中用隐马尔科夫（HMM）模型构建的。

美团搜索中NER技术的探索与实践

命名实体识别NER是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要的地位。

使用NeMo快速完成NLP中的信息抽取任务，英伟达专家实战讲解，内附代码

信息抽取(IE)是从非结构化、半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务。信息抽取技术为文本挖掘、智能检索、智能对话、知识图谱、推荐系统等应用提供了基本的技术支持。近日，英伟达x量子位发起的NLP公开课上，英伟达开发者社区经理李奕澎老师分享了【使用NeMo快速完成NLP中的信息抽取任务】，介绍了NLP、信息抽取、命名实体识别等相关理论知识，并通过代码演示讲解了如何使用NeMo快速完成NLP中的命名实体识别任务。以下为分享内容整理，文末附直播回放、课程PPT&代码。 ---- 大家晚上

深度学习知识抽取：属性词、品牌词、物品词

更具体的任务有，在解析一段工作经历长文本的时候，我们希望提取其中的动宾组合来表示该应聘者之于此段工作经历的主要工作内容。以“ 了解市场情况 , 进行一些项目的商务谈判 ”为例，HanLP分词器的结果为“ 了解市场情况 , 进行一些项目的商务谈判 ”，此时可以提取的粗动宾组合有“了解- 情况 ”和“ 进行 - 谈判 ”，而我们更希望得到更加完整且意义更加丰富的宾语，因此需要将“市场情况”合并为“市场情况”，将“商务谈判”合并为“商务谈判”。因此，我们需要一个能够准确提取名词短语（Noun Pharse）的序列标注模型来克服NP字典召回不足的问题。

美团BERT的探索和实践

2018年，自然语言处理（Natural Language Processing，NLP）领域最激动人心的进展莫过于预训练语言模型，包括基于RNN的ELMo[1]和ULMFiT[2]，基于Transformer[3]的OpenAI GPT[4]及Google BERT[5]等。下图1回顾了近年来预训练语言模型的发展史以及最新的进展。预训练语言模型的成功，证明了我们可以从海量的无标注文本中学到潜在的语义信息，而无需为每一项下游NLP任务单独标注大量训练数据。此外，预训练语言模型的成功也开创了NLP研究的新范式[6]，即首先使用大量无监督语料进行语言模型预训练（Pre-training），再使用少量标注语料进行微调（Fine-tuning）来完成具体NLP任务（分类、序列标注、句间关系判断和机器阅读理解等）。

美团BERT的探索和实践

他山之石，可以攻玉。美团点评NLP团队一直紧跟业界前沿技术，开展了基于美团点评业务数据的预训练研究工作，训练了更适配美团点评业务场景的MT-BERT模型，通过微调将MT-BERT落地到多个业务场景中，并取得了不错的业务效果。

0367

我的BERT！改改字典，让BERT安全提速不掉分（已开源）

当前，大部分中文预训练模型都是以字为基本单位的，也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型，比如创新工场的ZEN和字节跳动的AMBERT，但这类模型的基本单位还是字，只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少，据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型，但实测效果并不好。

广告行业中那些趣事系列32：美团搜索NER技术实践学习笔记

摘要：本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记。首先介绍了背景，包括NER任务定义、美团搜索场景下的NER以及美团搜索NER任务面临的挑战；然后重点介绍了美团基于实体词典匹配+模型在线预测框架。通过实体词典匹配可以解决头部搜索NER匹配问题，而长尾复杂的搜索则通过模型在线预测解决。对于想了解美团搜索NER技术实践的小伙伴可能有所帮助。

美团BERT的探索和实践 | CSDN原力计划

BERT微调效果不佳？不如试试这种大规模预训练模型新范式

BERT模型自发布至今已整整两年了，但是其余热仍未消减。从一经问世的轰动，简单应用/微调便可达到某个领域或者任务的SOTA效果；到如今的各种『被吊打』，BERT巨人肩膀上的新宠大致可以分为以下这么几类：

缺少训练样本怎么做实体识别？小样本下的NER解决方法汇总

本文带你走进命名实体识别（NER）任务，首先介绍了解决NER任务的经典模型结构，然后通过3篇顶会论文介绍当缺少训练样本的时候，如何解决NER任务。

安利一个不错的NLP项目

经常有粉丝私信问我，有没有合适的NLP项目适合入门，一直跑网上的开源demo感觉收获不大。我邀请到了大厂NLP算法专家王老师。王老师目前在BAT某厂负责算法架构方面的工作，有7年以上的算法工作经验。在金融、媒体、电商等领域有众多NLP落地项目实践。王老师提炼总结了自己多年工作经验，输出成6个小时的《新闻文本分类项目实战班》，非常适合刚入门NLP的同学上手。这个项目实战最吸引我的有2点—— 01 数据集。基于头条新闻标题数据集，质量相对较高。 02 代码。提供企业级代码、遵循标准的面向对象范式。

BERT 原理解析

本文是对 BERT 原始论文（BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding ）的解读。

NLP新秀：BERT的优雅解读

恰逢春节假期，研究了一下BERT。作为2018年自然语言处理领域的新秀，BERT做到了过去几年NLP重大进展的集大成，一出场就技惊四座碾压竞争对手，刷新了11项NLP测试的最高纪录，甚至超越了人类的表现，相信会是未来NLP研究和工业应用最主流的语言模型之一。本文尝试由浅入深，为各位看客带来优雅的BERT解读。

NLP新秀：BERT的优雅解读

预训练模型，NLP的版本答案！

问题其实很多，模型训练慢，一个月迭代一次很正常（现在做业务，两周就要有一轮迭代），显卡内存动不动就给爆了。

BERT模型进军视频领域，看你和面就知会做蛋糕

尽管人类可以轻松地识别视频中发生的活动以及预测接下来可能发生的事件，但对机器而言这样的任务却要困难得多。然而，对于时间定位、动作检测和自动驾驶汽车导航等应用，理解视频的内容和动态对机器来说也越来越重要。为了训练神经网络执行这样的任务，使用监督式训练是常用的方法，其中训练数据由人逐帧精心标注的视频组成。这样的标注难以大规模地获取。因此，人们对自监督学习有非常浓厚的兴趣。使用这类方法，模型可以在各种代理任务上训练，而且这些任务的监督自然地存在于数据本身之中。

ACL 2019 | 清华等提出ERNIE：知识图谱结合BERT才是「有文化」的语言模型

自然语言表征模型最近受到非常多的关注，很多研究者将其视为 NLP 最重要的研究方向之一。例如在大规模语料库上预训练的 BERT，它可以从纯文本中很好地捕捉丰富的语义模式，经过微调后可以持续改善不同 NLP 任务的性能。因此，我们获取 BERT 隐藏层表征后，可用于提升自己任务的性能。

流水的NLP铁打的NER：命名实体识别实践与探索

作者：王岳王院长知乎：https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 编辑：yuquanle

NER的过去、现在和未来综述-现在

命名实体识别（NER, Named Entity Recognition），是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。

010

广告行业中那些趣事系列41：广告场景中NLP技术的业务应用及线上方案

摘要：本篇主要介绍了广告场景中NLP技术的业务应用和线上方案，主要介绍了三大类任务：第一类任务是文本分类任务，业务主要包括自然兴趣建模体系、搜索场景行业词包和在线分类以及商店/搜索/评论等舆情分析，同时介绍我们的线上方案以及在模型和样本上的优化实践；第二类任务是文本生成任务，介绍了头条巨量创意平台的妙笔以及我们自研的文案助手技术方案；第三类任务是相似文本召回任务，业务主要是广告算法词召回，线上主要使用基于对比学习simcse+faiss的相似文本召回方案。感兴趣的小伙伴可以多交流。

语言计算：序列标注前沿技术研究

大家知道，序列标注、文本分类、句对关系判断和生成式任务并称自然语言处理四大基础技术支柱。序列标注作为最基础的语言计算任务已在命名实体识别、词性标注、分词以及属性抽取等场景中得到了广泛的应用。这里顺便提一下，我们在属性抽取方面沉淀了诸多宝贵的经验，限于文章篇幅，本文将侧重序列标注理论的阐述，业务应用将在后续文章中体现。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐