命名实体识别(Named Entity Recognition,简称NER) , 是指识别文本中具有特定意义的词(实体),主要包括人名、地名、机构名、专有名词等等,并把我们需要识别的词在文本序列中标注出来。
信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。信息抽取主要包括三个子任务:关系抽取、命名实体识别、事件抽取。
fastNLP是一款轻量级的自然语言处理(NLP)工具包,目标是快速实现NLP任务以及构建复杂模型。
1991年Rau等学者首次提出了命名实体识别任务,但命名实体(named entity,NE)作为一个明确的概念和研究对象,是在1995年11月的第六届MUC会议(MUC-6,the Sixth Message Understanding Conferences)上被提出的。当时的MUC-6和后来的MUC-7并未对什么是命名实体进行深入的讨论和定义,只是说明了需要标注的实体是“实体的唯一标识符(unique identifiers of entities)”,规定了NER评测需要识别的三大类(命名实体、时间表达式、数量表达式)、七小类实体,其中命名实体分为:人名、机构名和地名 。MUC 之后的ACE将命名实体中的机构名和地名进行了细分,增加了地理-政治实体和设施两种实体,之后又增加了交通工具和武器。CoNLL-2002、CoNLL-2003 会议上将命名实体定义为包含名称的短语,包括人名、地名、机构名、时间和数量,基本沿用了 MUC 的定义和分类,但实际的任务主要是识别人名、地名、机构名和其他命名实体 。SIGHAN Bakeoff-2006、Bakeoff-2007 评测也大多采用了这种分类。
新加坡科技设计大学的研究者2018年在论文《Chinese NER Using Lattice LSTM》中提出了新型中文命名实体地识别方法Lattice LSTM。
推荐一个Github项目:ChineseNLPCorpus,该项目收集了一批中文自然语言处理数据集的相关链接,可以用来练手,点击阅读原文可以直达该项目链接:
本文对自然语言基础技术之命名实体识别进行了相对全面的简绍,包括定义、发展历史、常见方法、以及相关数据集,最后推荐一大波python实战利器,并且包括工具的用法。
大数据文摘作品 编译:糖竹子、吴双、钱天培 自然语言处理(NLP)是一种艺术与科学的结合,旨在从文本数据中提取信息。在它的帮助下,我们从文本中提炼出适用于计算机算法的信息。从自动翻译、文本分类到情绪分析,自然语言处理成为所有数据科学家的必备技能之一。 在这篇文章中,你将学习到最常见的10个NLP任务,以及相关资源和代码。 为什么要写这篇文章? 对于处理NLP问题,我也研究了一段时日。这期间我需要翻阅大量资料,通过研究报告,博客和同类NLP问题的赛事内容学习该领域的最新发展成果,并应对NLP处理时遇到的各类状
资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。
命名实体识别任务是自然语言处理领域中一项十分基本的任务,该任务的目的是识别自然语言文本中特定类型的实体,如人名、地名、机构名等。命名实体识别任务通常被建模为字符级别的序列标注任务,即对于一串输入的字符序列,命名实体识别模型需要预测出每个字符对应的命名实体标签。
下载地址:https://github.com/ymcui/Chinese-BERT-wwm
来源:PaperWeekly本文约2600字,建议阅读9分钟本文提出了一个统一命名实体识别框架,通过对词与词之间的关系进行分类的方式同时解决三种命名实体识别子任务。 引言 本研究重新审视了统一命名实体识别中的核心问题,即词与词之间的关系建模,并提出将所有类型的命名实体识别统一采用一种词对关系分类的方法进行建模。所提出的系统广泛地在 14 个命名实体识别数据集刷新了最好的分数。 论文题目: 基于词对关系建模的统一命名实体识别系统 Unified Named Entity Recognition as Wo
作者:伏草惟存 来源:http://www.cnblogs.com/baiboy/p/nltk2.html 1 Python 的几个自然语言处理工具 NLTK:NLTK 在用 Python 处理自然语言的工具中处于领先的地位。它提供了 WordNet 这种方便处理词汇资源的借口,还有分类、分词、除茎、标注、语法分析、语义推理等类库。 Pattern:Pattern 的自然语言处理工具有词性标注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(senti
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。
作者:Lars Kjeldgaard 翻译:王闯(Chuck)校对:和中华 本文约2500字,建议阅读7分钟本文基于丹麦团队研发的Python开源包NERDA演示了如何通过简单微调BERT Transformer来处理NER任务。
本文对自然语言基础技术之命名实体识别进行了相对全面的介绍,包括定义、发展历史、常见方法、以及相关数据集,最后推荐一大波 Python 实战利器,并且包括工具的用法。
假如你的公司发布了一款全新的手机产品,新产品的发布带来了来自不同媒体的相关报道、用户反馈。 面对这些数据,你可能希望了解
近年来,FLAT-lattice Transformer在中文命名实体识别(NER)中取得了巨大成功。然而,当处理较长的文本时,该方法会显著增加自注意模块的内存和计算成本。为此本文提出一种新的词汇增强方法InterFormer,实现NFLAT,该方法内存用量可减少50%,且实验结果优于最先进的character-word混合模型。
信息抽取(IE)是从非结构化、半结构化的可读文档或其他电子表示来源中自动提取结构化信息的任务。信息抽取技术为文本挖掘、智能检索、智能对话、知识图谱、推荐系统等应用提供了基本的技术支持。 近日,英伟达x量子位发起的NLP公开课上,英伟达开发者社区经理李奕澎老师分享了【使用NeMo快速完成NLP中的信息抽取任务】,介绍了NLP、信息抽取、命名实体识别等相关理论知识,并通过代码演示讲解了如何使用NeMo快速完成NLP中的命名实体识别任务。 以下为分享内容整理,文末附直播回放、课程PPT&代码。 ---- 大家晚上
了解知识图谱的基本概念,也做过一些demo的实践,毕竟是做问答方向的,所以就比较关注基于知识图谱的问答。其实构建知识图谱的核心在于命名实体识别和关系抽取,围绕这两个方面也有很多细致的工作,比如如何解决实体的歧义,进行实体消歧;如何进行多关系的抽取等。从最近各大公司举行的比赛,我们也可以看出来,今年的主要工作就在这上面,这也是技术落地的一个重要标志。最近也在捣鼓BERT,想着就将基于KB的QA流程撸一遍,于是就有了这个demo。
本文通过多个实验的对比发现,结合Bert-NER和特定的分词、词性标注等中文语言处理方式,获得更高的准确率和更好的效果,能在特定领域的中文信息抽取任务中取得优异的效果。
每天给你送来NLP技术干货! ---- 来自:AI有温度 大家好,我是泰哥。本篇文章从什么是命名实体讲到为什么要做命名实体,然后讲到了NER数据处理及建模经验,对于做NER的同学,不论你是新手还是老手都非常值得一看! 1 什么是NER 1.1 什么是实体 根据百度百科定义,实体是指客观存在、并可相互区别的事物。实体可以是具体的人、事、物,也可以是概念。 1.2 什么是命名实体 命名实体就是以名称为标识的实体。简单来说,若我们听到一个名字,就能知道这个东西是哪一个具体的事物,那么这个事物就是命名实体。比如我有
自然语言处理是什么?谁需要学习自然语言处理?自然语言处理在哪些地方应用?相关问题一直困扰着不少初学者。针对这一情况,作者结合教学经验和工程应用编写此书。《自然语言处理理论与实战》讲述自然语言处理相关学科知识和理论基础,并介绍使用这些知识的应用和工具,以及如何在实际环境中使用它们。由于自然语言处理的特殊性,其是一门多学科交叉的学科,初学者难以把握知识的广度和宽度,对侧重点不能全面掌握。《自然语言处理理论与实战》针对以上情况,经过科学调研分析,选择以理论结合实例的方式将内容呈现出来。其中涉及开发工具、Python语言、线性代数、概率论、统计学、语言学等工程上常用的知识介绍,然后介绍自然语言处理的核心理论和案例解析,最后通过几个综合性的例子完成自然语言处理的学习和深入。《自然语言处理理论与实战》旨在帮助读者快速、高效地学习自然语言处理和人工智能技术。
每天给你送来NLP技术干货! ---- 编辑:AI算法小喵 写在前面 之前我们曾分享过几篇 NER 的相关论文,大家应该还有点印象。这次小喵看到一篇比较系统的 NER 相关文章,特别适合小白。作者从什么是命名实体讲到为什么要做命名实体,然后讲到了 NER 数据处理、建模的经验,内容非常丰富,所以这次打算跟大家分享一下。 1. 什么是NER 1.1 什么是实体 根据百度百科定义,实体[1]是指客观存在、并可相互区别的事物。实体可以是具体的人、事、物,也可以是概念。 1.2 什么是命名实体 命名实体 就是以名称
“跟着雨哥学AI”是百度飞桨开源框架近期针对高层API推出的系列课。本课程由多位资深飞桨工程师精心打造,不仅提供了从数据处理、到模型组网、模型训练、模型评估和推理部署全流程讲解;还提供了丰富的趣味案例,旨在帮助开发者更全面清晰地掌握百度飞桨框架的用法,并能够举一反三、灵活使用飞桨框架进行深度学习实践。
今天给大家介绍我们湖南大学DrugAI课题组发表在Briefings in Bioinformatics上发表的一篇综述。这篇综述从“单一神经网络、多任务学习、迁移学习和混合模型”这4个方面,介绍了近年来深度学习如何从生物医学文献文中挖掘命名实体以及相关数据集。作者挑选了几个有代表性的方法,在6个常用的数据集上进行了实验比较。结果发现,深度学习的方法要普遍优于传统方法,并且不同的方法和数据集之间也有较大的差异。最后,作者总结了生物医学命名实体(BioNER)存在的一些挑战和未来的发展。
原文链接:https://github.com/fighting41love/funNLP
最近因读者要求,所以今天打算挑选一些和医疗相关的文章和大家分享,但是因为不可抗力只找到了一篇,(ps:医疗相关的文章真心不好找),所以Today只有一篇文章和大家分享,该文和临床医疗问答相关,其主要针对端到端特定任务模型和管道模型的弊端(缺乏数据集和误传播),提出一种基于临床文本结构(QA-CTS)的问答模型。
文字是传递信息的高效途径,利用OCR技术提取文本信息是各行业向数字智能化转型的第一步。与此同时,针对OCR提取的海量文本信息,利用NLP技术进一步加工提取、分析理解后才能最大化发挥文本信息的价值。NLP技术可以提升OCR准确率,并从文本中抽取关键信息、构建知识图谱,搭建检索、推荐、问答系统等。
**命名实体识别(Named Entity Recoginition, NER)**旨在将一串文本中的实体识别出来,并标注出它所指代的类型,比如人名、地名等等。具体地,根据MUC会议规定,命名实体识别任务包括三个子任务:
---- 新智元报道 来源:Paper Weekly 编辑:LRS 【新智元导读】对新冠的研究仍在继续! 来自浙江大学、北京大学、哈佛医学院、剑桥大学及西湖大学的交叉研究团队在NeurIPS 2022 Datasets and Benchmarks 发布数据集METS-CoV,是首个从医学角度标注新冠社交媒体文本的命名实体(NER)和目标实体情感分析(TSA)的数据,可帮助研究人员使用自然语言处理模型从社交媒体文本中挖掘更有价值的医学信息。 发表会议:NeurIPS 2022 论文地址:http
自然语言处理(NLP)领域中的命名实体识别(NER)是一项关键任务,旨在从文本中提取具有特定意义的实体,如人名、地名、组织机构、日期等。这项技术在信息提取、问答系统、机器翻译等应用中扮演着重要角色。本文将深入探讨NER的定义、工作原理、应用场景,并提供一个基于Python和spaCy库的简单示例代码。
deepnlp项目是基于Tensorflow平台的一个python版本的NLP套装, 目的在于将Tensorflow深度学习平台上的模块,结合 最新的一些算法,提供NLP基础模块的支持,并支持其他更加复杂的任务的拓展,如生成式文摘等等。 NLP 套装模块 分词 Word Segmentation/Tokenization 词性标注 Part-of-speech (POS) 命名实体识别 Named-entity-recognition(NER) 依存句法分析 Dependency Parsing (Pars
教程地址:http://www.showmeai.tech/tutorials/36
对于命名实体识别任务,现有的模型基本已经能够达到很好的结果。近期,在ICLR 2018上提出了使用active learning,可以在少量数据集下得到较优结果(可以参见专栏文章)。除此之外,本文提出了使用联合学习的方式提升序列标注的结果,虽然效果没有超过使用额外信息的模型,但是在已有的不使用额外信息的模型中可以达到state-of-the-art的结果。
之前做过实体关系抽取/联合抽取等任务,是用LSTM+CRF模型+BIO标注的方法,最近看到有一篇ACL用MRC(Machine Reading Comprehension)的方法去做NER(Named Entity Recognition)任务,以下是对这篇论文的分享。
实体链指是指对于给定的一个文本(如搜索Query、微博、对话内容、文章、视频、图片的标题等),将其中的实体与给定知识库中对应的实体进行关联。实体链指一般有两种任务设计方式:Pipeline式和端到端式。
bert自从在 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 中被提出后,因其性能卓越受到了极大的关注,在这里我们展示一下在fastNLP中如何使用Bert进行各类任务。其中中文Bert我们使用的模型的权重来自于 中文Bert预训练 。
本文介绍的是 ACL 2020 论文《Dice Loss for Data-imbalanced NLP Tasks》,论文作者来自香侬科技、浙江大学。
每天给你送来NLP技术干货! ---- ©作者 | 回亭风 单位 | 北京邮电大学 研究方向 | 自然语言理解 编辑 | PaperWeekly 自增强(self-augmentation)最近在提升低资源场景下的 NER 问题中得到了越来越多的关注,token 替换和表征混合是对于 NER 这类 token 级别的任务很有效的两种自增强方法。值得注意的是,自增强的方法得到的增强数据有潜在的噪声,先前的研究是对于特定的自增强方法设计特定的基于规则的约束来降低噪声。 本文提出了一个联合的 meta-rewe
本期给大家介绍的是康奈尔大学Fei Wang教授课题组在AAAI-19上发表的一篇关于医学命名实体识别和标准化的文章。该文章提出了一种新的深层神经多任务学习框架,该框架采用显示反馈策略来联合建模医学命名实体识别和标准化,并将这两个分层任务转化为并行多任务,同时保持了任务之间的相互联系,使得实体识别和标准化模型的性能都得到了很大的提升。
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。通常包括两部分:(1)实体边界识别;(2) 确定实体类别(人名、地名、机构名或其他)。
自然语言处理本身是为了让计算机能够处理、理解以及运用人类语言,从而达到人与计算机之间的有效通讯,为了研究信息检索、情感分析、文本分类、智能问答、摘要提取、文本挖掘,舆情分析、知识图谱等方面的问题,解决在词态、句法、语义上的歧义性,这里主要是介绍我个人在使用相关算法学习时使用的开源标注工具和标注平台,以供参考。
AI 科技评论消息,Google 近期提出的 BERT 模型,通过预测屏蔽的词,利用 Transformer 的多层 self-attention 双向建模能力,取得了很好的效果。但是,BERT 模型的建模对象主要聚焦在原始语言信号上,较少利用语义知识单元建模。这个问题在中文方面尤为明显,例如,BERT 在处理中文语言时,通过预测汉字进行建模,模型很难学出更大语义单元的完整语义表示。例如,对于乒 [mask] 球,清明上 [mask] 图,[mask] 颜六色这些词,BERT 模型通过字的搭配,很容易推测出掩码的字信息,但没有显式地对语义概念单元 (如乒乓球、清明上河图) 以及其对应的语义关系进行建模。
命名实体识别(Named Entity Recognition,NER)是 NLP 几个经典任务之一,通俗易懂的来说,就是从一段文本中抽取出需求的关键词,如地名,人名等。
媒体报道、微博内容、消费者购买评价等文本信息,正在成为大数据重要的组成部分。然而,人类使用的语言对计算机而言是模糊的、非结构化的,要处理和分析这部分数据,就必须用到自然语言处理技术。
文本分类任务(text classification)是指根据文本内容自动地将文本分配到预定义类别的过程,是自然语言处理最基本的任务。文本分类的应用很多,如新闻分类、情感识别等,并且能够为更复杂的语言理解任务提供基础,如意图识别、关系抽取、事件检测等。
论文名称:3D Gated Recurrent Fusion for Semantic Scene Completion
领取专属 10元无门槛券
手把手带您无忧上云