awesome-bert:BERT相关资源大列表 by Jiakui 本项目包含BERT 相关论文和 github 项目。 项目地址: https://github.com/Jiakui/awesom
摘要:本篇从理论到实际介绍了NLP领域常见的关键词提取技术。首先介绍了业务背景,包括NLP四大任务介绍、关键词提取是一种NER任务、线上使用关键词提取技术场景;然后重点详解了关键词提取技术,包括关键词提取技术整体流程、分词介绍、无监督学习提取关键词、有监督学习提取关键词;最后分别从无监督学习和有监督学习源码实践了关键词提取技术。对关键词提取技术感兴趣并希望应用到实际项目中的小伙伴能有所帮助。
实体识别和关系抽取是例如构建知识图谱等上层自然语言处理应用的基础。实体识别可以简单理解为一个序列标注问题:给定一个句子,为句子序列中的每一个字做标注。因为同是序列标注问题,除去实体识别之外,相同的技术也可以去解决诸如分词、词性标注(POS)等不同的自然语言处理问题。
命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。
作者:王岳王院长 知乎:https://www.zhihu.com/people/wang-yue-40-21 github: https://github.com/wavewangyue 编辑:yuquanle
中文分词方法现在主要有两种类型,一种是jieba这样软件包中用隐马尔科夫(HMM)模型构建的。
深度学习是一个由多个处理层组成的机器学习领域,用于学习具有多个抽象层次的数据表示。典型的层次是人工神经网络,由前向传递和后向传递组成。正向传递计算来自前一层的输入的加权和,并通过非线性函数传递结果。向后传递是通过导数链规则计算目标函数相对于多层模块堆栈权重的梯度。深度学习的关键优势在于表示学习的能力以及向量表示和神经处理赋予的语义合成能力。这允许机器输入原始数据,并自动发现分类或检测所需的潜在表示和处理。
之前做过实体关系抽取/联合抽取等任务,是用LSTM+CRF模型+BIO标注的方法,最近看到有一篇ACL用MRC(Machine Reading Comprehension)的方法去做NER(Named Entity Recognition)任务,以下是对这篇论文的分享。
这个系列我们来聊聊序列标注中的中文实体识别问题,第一章让我们从当前比较通用的基准模型Bert+Bilstm+CRF说起,看看这个模型已经解决了哪些问题还有哪些问题待解决。以下模型实现和评估脚本,详见 Github-DSXiangLi/ChineseNER
摘要:本篇从业务实践的角度分享NLP各任务的baseline。首先介绍背景以及CLUE社区提供的NLP公共数据集;然后分别介绍了NLP各子任务的公共数据集、技术方案以及实践源码,主要包括文本分类任务、文本匹配任务、关键词识别任务、自动标题任务和图像描述生成任务。对于希望又快又好的解决实际业务中的NLP相关业务的小伙伴可能有所帮助。
几年前,当我在一家初创公司做软件工程实习生的时候,我在一份发布网络应用程序的工作中看到了一个新特性。这个应用程序能够识别和解析简历中的重要信息,比如电子邮件地址、电话号码、学位信息等等。我开始与我们的团队讨论可能的方法,我们决定用python构建一个基于规则的解析器,以解析简历的不同部分。在开发解析器一段时间之后,我们意识到上述实现的答案可能不是基于规则实现的。我们开始用google搜索它是如何实现的,我们遇到了术语自然语言处理(NLP)以及与机器学习相关的更具体的命名实体识别(NER)。
《当人工智能遇上安全》系列博客将详细介绍人工智能与安全相关的论文、实践,并分享各种案例,涉及恶意代码检测、恶意请求识别、入侵检测、对抗样本等等。只想更好地帮助初学者,更加成体系的分享新知识。该系列文章会更加聚焦,更加学术,更加深入,也是作者的慢慢成长史。换专业确实挺难的,系统安全也是块硬骨头,但我也试试,看看自己未来四年究竟能将它学到什么程度,漫漫长征路,偏向虎山行。享受过程,一起加油~
命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度,决定了下游任务的效果,是NLP中非常重要的一个基础问题。 作者&编辑 | 小Dream哥
本文带你走进命名实体识别(NER)任务,首先介绍了解决NER任务的经典模型结构,然后通过3篇顶会论文介绍当缺少训练样本的时候,如何解决NER任务。
第一章我们简单了解了NER任务和基线模型Bert-Bilstm-CRF基线模型详解&代码实现,这一章按解决问题的方法来划分,我们聊聊多任务学习,和对抗迁移学习是如何优化实体识别中边界模糊,垂直领域标注样本少等问题的。Github-DSXiangLi/ChineseNER中提供了bert_bilstm_crf_mtl多任务, 和bert_bilstm_crf_adv对抗迁移两个模型,支持任意NER+NER,CWS+NER的Joint Training。
近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,而现有的研究对少量标注数据学习问题探讨较少。本文将整理介绍四种利用少量标注数据进行命名实体识别的方法。
最近一段时间在做商品理解的工作,主要内容是从商品标题里识别出商品的一些属性标签,包括不限于品牌、颜色、领型、适用人群、尺码等等。这类任务可以抽象成命名实体识别(Named Entity Recognition, NER)工作,一般用序列标注(Sequence Tagging)的方式来做,是比较成熟的方向。
本文通过多个实验的对比发现,结合Bert-NER和特定的分词、词性标注等中文语言处理方式,获得更高的准确率和更好的效果,能在特定领域的中文信息抽取任务中取得优异的效果。
作者:Erinlp(知乎同名) 方向:信息抽取 一、简介 在UIE出来以前,小样本NER主要针对的是英文数据集,目前主流的小样本NER方法大多是基于prompt,在英文上效果好的方法,在中文上不一定适用,其主要原因可能是: 中文长实体相对英文较多,英文是按word进行切割,很多实体就是一个词;边界相对来说更清晰; 生成方法对于长实体来说更加困难。但是随着UIE的出现,中文小样本NER 的效果得到了突破。 二、主流小样本NER方法 2.1、EntLM EntLM该方法核心思想:抛弃模板,把NER作为语言模型任
每天给你送来NLP技术干货! ---- ©作者 | 康洪雨 单位 | 有赞科技 研究方向 | NLP/推荐算法 来自 | PaperWeekly 最近一段时间在做商品理解的工作,主要内容是从商品标题里识别出商品的一些属性标签,包括不限于品牌、颜色、领型、适用人群、尺码等等。这类任务可以抽象成命名实体识别(Named Entity Recognition, NER)工作,一般用序列标注(Sequence Tagging)的方式来做,是比较成熟的方向。 ▲ 商品理解示例,品牌:佳丰;口味:蒜香味 本文主要记录
命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
本文翻译自GitHub博客上的原创文章,结尾有原文链接。文章没有晦涩的数学公式,而是通过实例一步一步讲解CRF的实现过程,是入门CRF非常非常合适的资料。
每天给你送来NLP技术干货! ---- ©作者 | 回亭风 单位 | 北京邮电大学 研究方向 | 自然语言理解 编辑 | PaperWeekly 自增强(self-augmentation)最近在提升低资源场景下的 NER 问题中得到了越来越多的关注,token 替换和表征混合是对于 NER 这类 token 级别的任务很有效的两种自增强方法。值得注意的是,自增强的方法得到的增强数据有潜在的噪声,先前的研究是对于特定的自增强方法设计特定的基于规则的约束来降低噪声。 本文提出了一个联合的 meta-rewe
A Survey on Deep Learning for Named Entity Recognition
近几年来,基于神经网络的深度学习方法在计算机视觉、语音识别等领域取得了巨大成功,另外在自然语言处理领域也取得了不少进展。在NLP的关键性基础任务—命名实体识别(Named Entity Recognition,NER)的研究中,深度学习也获得了不错的效果。
本文源码已经上传至 github.: https://github.com/HuBlanker/Keras-Chinese-NER
这个项目的作者是AINLP交流群里的慢时光同学,该项目收集了NLP相关的一些代码, 包括词向量(Word Embedding)、命名实体识别(NER)、文本分类(Text Classificatin)、文本生成、文本相似性(Text Similarity)计算等,基于keras和tensorflow,也收集了相关的书目、论文、博文、算法、项目资源链接,并且很细致的做了分类。
经典的细粒度情感分析(ABSA,Aspect-based Sentiment Analysis)主要包含三个子任务,分别为属性抽取、观点抽取以及属性-观点对的情感倾向判定三个级联任务。
最近遇到一个需要对算法加速的场景,了解到了一个比较简洁实用的方法:Bert-of-theseus[1], 了解了原理后参考代码实验后,验证了其有效性,总结一下。
新加坡科技设计大学的研究者2018年在论文《Chinese NER Using Lattice LSTM》中提出了新型中文命名实体地识别方法Lattice LSTM。
前两章我们分别介绍了NER的基线模型Bert-Bilstm-crf, 以及多任务和对抗学习在解决词边界和跨领域迁移的解决方案。这一章我们就词汇增强这个中文NER的核心问题之一来看看都有哪些解决方案。以下预测结果和代码详见Github-DSXiangLi/ChineseNER
NER是自然语言处理中相对比较基础的任务,但却是非常重要的任务。在NLP中,大部分的任务都需要NER的能力,例如,聊天机器人中,需要NER来提取实体完成对用户输入的理解;在信息提取任务中,需要提取相应的实体,以完成对信息的抽取。
其实实体识别这块看了挺久了的,今天就来好好聊一聊它。实体识别(Name Entity Recognition)是属于NLP任务中的序列标注问题:给定一个输入句子,要求为句子中的每一个token做实体标注(如人名、组织/机构、地名、日期等等)。
常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样,因而不同的任务难度、处理方式存在差异。
达观数据目前已经举行过两次围绕比赛的技术直播分享,并开源了baseline模型。本文是这两次技术直播的内容总结,包括信息抽取传统算法和前沿算法详解、比赛介绍,以及比赛baseline模型代码分析和改进建议。
每天给你送来NLP技术干货! ---- ©作者 | 回亭风 单位 | 北京邮电大学 研究方向 | 自然语言理解 来自 | PaperWeekly 论文标题: Few-Shot Class-Incremental Learning for Named Entity Recognition 收录会议: ACL 2022 论文链接: https://aclanthology.org/2022.acl-long.43 Abstract 之前的面向 NER 的类增量学习的工作都是基于新类有丰富的监督数据的情况,本文
摘要:本篇主要是学习美团技术团队分享的《美团搜索中NER技术的探索与实践》学习笔记。首先介绍了背景,包括NER任务定义、美团搜索场景下的NER以及美团搜索NER任务面临的挑战;然后重点介绍了美团基于实体词典匹配+模型在线预测框架。通过实体词典匹配可以解决头部搜索NER匹配问题,而长尾复杂的搜索则通过模型在线预测解决。对于想了解美团搜索NER技术实践的小伙伴可能有所帮助。
更具体的任务有,在解析一段工作经历长文本的时候,我们希望提取其中的动宾组合来表示该应聘者之于此段工作经历的主要工作内容。以“ 了解市场情况 , 进行一些项目的商务谈判 ”为例,HanLP分词器的结果为“ 了解市场情况 , 进行一些项目的商务谈判 ”,此时可以提取的粗动宾组合有“了解- 情况 ”和“ 进行 - 谈判 ”,而我们更希望得到更加完整且意义更加丰富的宾语,因此需要将“市场 情况”合并为“市场情况”,将“商务 谈判”合并为“商务谈判”。因此,我们需要一个能够准确提取名词短语(Noun Pharse)的序列标注模型来克服NP字典召回不足的问题。
作者:杨夕、芙蕖、李玲、陈海顺、twilight、LeoLRH、JimmyDU、艾春辉、张永泰、金金金
Wisdom in the mind is better than money in the hand.
本项目是作者们根据个人面试和经验总结出的自然语言处理(NLP)面试准备的学习笔记与资料,该资料目前包含 自然语言处理各领域的 面试题积累。
先说下感受吧。本人在今年3月1号(周日)投递简历,隔天周一hr就约了周四的面试,结果那天是2面视频技术面+hr面直接走完了,周五内推的学长就告诉我过了,紧接着就是offer call。整体投递+面试+发录用通知函的时间不到一周,而且面试官都是和简历对口的,整体体验非常棒。
在本文中,我将进一步介绍BERT,这是最流行的NLP模型之一,它以Transformer为核心,并且在许多NLP任务(包括分类,问题回答和NER)上均达到了最先进的性能。
---- 新智元报道 来源:Paper Weekly 编辑:LRS 【新智元导读】对新冠的研究仍在继续! 来自浙江大学、北京大学、哈佛医学院、剑桥大学及西湖大学的交叉研究团队在NeurIPS 2022 Datasets and Benchmarks 发布数据集METS-CoV,是首个从医学角度标注新冠社交媒体文本的命名实体(NER)和目标实体情感分析(TSA)的数据,可帮助研究人员使用自然语言处理模型从社交媒体文本中挖掘更有价值的医学信息。 发表会议:NeurIPS 2022 论文地址:http
领取专属 10元无门槛券
手把手带您无忧上云