前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

原创
作者头像
汀丶人工智能
修改于 2023-04-07 13:20:35
修改于 2023-04-07 13:20:35
54300
代码可运行
举报
文章被收录于专栏:NLP/KGNLP/KG
运行总次数:0
代码可运行

NLP专栏简介:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等

在这里插入图片描述
在这里插入图片描述

专栏链接:NLP领域知识+项目+码源+方案设计


订阅本专栏你能获得什么?

前人栽树后人乘凉,本专栏提供资料:数据增强、智能标注、意图识别算法|多分类算法、文本信息抽取、多模态信息抽取、可解释性分析、性能调优、模型压缩算法等项目代码整合省去你大把时间,效率提升。 帮助你快速完成任务落地,以及科研baseline。

本人后续会持续整合ML、DRL、NLP等相关领域的体系化项目课程,方便入门同学快速掌握相关知识,后续会不断增添实战环节(比赛、论文、现实应用等)。

  • 对于机器学习这块规划为:基础入门机器学习算法--->简单项目实战--->数据建模比赛----->相关现实中应用场景问题解决。一条路线帮助大家学习,快速实战。
  • 对于深度强化学习这块规划为:基础单智能算法教学(gym环境为主)---->主流多智能算法教学(gym环境为主)---->单智能多智能题实战(论文复现偏业务如:无人机优化调度、电力资源调度等项目应用)
  • 自然语言处理相关规划:除了单点算法技术外,主要围绕知识图谱构建进行:信息抽取相关技术(含智能标注)--->知识融合---->知识推理---->图谱应用

上述对于你掌握后的期许:

  1. 对于ML,希望你后续可以乱杀数学建模相关比赛(参加就获奖保底,top还是难的需要钻研)
  2. 可以实际解决现实中一些优化调度问题,而非停留在gym环境下的一些游戏demo玩玩。(更深层次可能需要自己钻研了,难度还是很大的)
  3. 掌握可知识图谱全流程构建其中各个重要环节算法,包含图数据库相关知识。

这三块领域耦合情况比较大,后续会通过比如:搜索推荐系统整个项目进行耦合,各项算法都会耦合在其中。举例:知识图谱就会用到(图算法、NLP、ML相关算法),搜索推荐系统(除了该领域召回粗排精排重排混排等算法外,还有强化学习、知识图谱等耦合在其中),后续会持续实现。

1.专栏目录如下

试读博文仅,简单展示一下目录流程,详细内容的xmind见:点击查看:详细版内容介绍

在这里插入图片描述
在这里插入图片描述

2.文章合集

2.1 数据标注(智能标注)

A.1[数据标注]:强烈推荐数据标注平台doccano----简介、安装、使用、踩坑记录

A.2【数据标注】:基于Label studio的训练数据标注指南:信息抽取(实体关系抽取)、文本分类等

A.3【数据标注】基于Label studio的训练数据标注指南:(智能文档)文档抽取任务、PDF、表格、图片抽取标注等

A.4.【数据标注】基于Label studio的训练数据标注指南:文本分类任务

A.5.[数据标注]:基于Label studio的训练数据标注指南:情感分析任务观点词抽取、属性抽取

B.1【智能标注】:基于 hugging face 预训练模型的实体识别方案:生成doccano要求json格式

B.2【智能标注】:主动学习(Active Learning)简介综述汇总以及主流技术方案

B.3【智能标注】:基于Labelstudio的UIE半监督深度学习的智能标注方案(云端版),提效。

B.4【智能标注】:基于Labelstudio的UIE半监督智能标注方案(本地版),赶快用起来啦。

2.2 信息抽取

2.2.1文本信息抽取

C.1 百度飞桨:ERNIE 3.0 、通用信息抽取 UIE、paddleNLP的安装使用[一]

C.2 产业应用实例:信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练

C.3 知识图谱项目实战(一):瑞金医院MMC人工智能辅助构建知识图谱--初赛实体识别

C.4.1快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化

C.4.2快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型

C.4.3 快递单信息抽取【三】--五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务

C.4.4 Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】

C.4.5 PaddleNLP UIE--小样本快速提升性能(含doccona标注)

C.6基线提升至96.45%:2022 司法杯犯罪事实实体识别+数据蒸馏+主动学习

C.7[信息抽取]基于ERNIE3.0的多对多信息抽取算法:属性关系抽取

C.9 文档级关系抽取:基于结构先验产生注意力偏差SSAN模型

C.10[完整版]文档级关系抽取:基于结构先验产生注意力偏差SSAN模型

2.2.2 多模态信息抽取

C.8 基于ERNIELayout&PDFplumber-UIEX的多方案学术论文信息抽取

持续更新中

2.3 意图识别分类算法

D.1应用实践:Paddle分类模型大集成者[PaddleHub、Finetune、prompt]

D.2 基于ERNIR3.0文本分类以中医疗搜索检索词意图分类(KUAKE-QIC)为例【多分类(单标签)】

D.3 基于ERNIR3.0文本分类以CAIL2018-SMALL数据集罪名预测任务为例【多标签】

D.4 基于Ernie-3.0 CAIL2019法研杯要素识别多标签分类任务

D.5 基于ERNIR3.0文本分类:WOS数据集为例(层次分类)

D.6 小样本学习在文心ERNIE3.0多分类任务应用--提示学习

D.7 UIE分类模型【以情感倾向分析新闻分类为例】含智能标注方案)

2.4 深度学习可解释性

E.1[可解释性分析]:AiTrust下预训练和小样本学习在中文医疗信息处理挑战榜CBLUE表现

E.2[可解释性分析]:推广TrustAI可信分析:通过提升数据质量来增强在ERNIE模型下性能

2.5 模型性能优化&模型压缩

F.1【性能优化模型压缩】UIE_Slim满足工业应用场景,解决推理部署耗时问题,提升效能,知识蒸馏,模型剪裁。

F.2【性能优化模型压缩】知识蒸馏相关技术【模型蒸馏、数据蒸馏】以ERNIE-Tiny为例

F.3【性能优化模型压缩】在数据增强、蒸馏剪枝下ERNIE3.0分类模型性能提升

F.4【性能优化模型压缩】Paddle模型性能分析工具Profiler:定位瓶颈点、优化程序、提升性能

F.5【性能优化模型压缩】VisualDL 2.0应用升级--基于「手写数字识别」模型的全功能展示

F.6【性能优化模型压缩】可视化分析工具VisualDL 2.4强势来袭!新增:动态图模型可视化和性能分析

2.6 其他NLP技术

G.1用python进行精细中文分句(基于正则表达式),HarvestText:文本挖掘和预处理工具

G.2 NLP领域任务如何选择合适预训练模型以及选择合适的方案【规范建议】【ERNIE模型首选】

G.3 PaddleHub--飞桨预训练模型应用工具{风格迁移模型、词法分析情感分析、Fine-tune API微调}【一】

G.4PaddleHub--{超参优化AutoDL Finetuner}【二】

G.5 PaddleHub实战篇{词法分析模型LAC、情感分类ERNIE Tiny}训练、部署【三】

G.6 PaddleHub实战篇{ERNIE实现文新闻本分类、ERNIE3.0 实现序列标注}【四】

3.部分效果展示

3.1 智能标注

3.2 命名实体识别,关系抽取

部分效果展示

代码语言:c#
AI代码解释
复制
黄峥,1980年出生于浙江杭州,拼多多公司创始人,本科毕业于浙江大学、硕士学位毕业于威斯康星大学麦迪逊分校。
 {'公司': [{'text': '拼多多', 'start': 16, 'end': 19, 'probability': 0.935215170074585, 'relations': {'高管': [{'text': '黄峥', 'start': 0, 'end': 2, 'probability': 0.9996391253586268}]}}]}
哔哩哔哩公司的创始人是徐逸,徐逸是最早的哔哩哔哩创始人,但一直在幕后,没有特别公开。曾经是Acfun弹幕网的会员,然后模仿Acfun建立了自己的网站,现在是董事。 {'公司': [{'text': '哔哩哔哩公司', 'start': 0, 'end': 6, 'probability': 0.7246855227849665, 'relations': {'高管': [{'text': '徐逸', 'start': 11, 'end': 13, 'probability': 0.9985462800938478}]}}]}
代码语言:python
代码运行次数:0
运行
AI代码解释
复制
城市内交通费75日金额114广州至佛山
从百度大厦到龙泽苑东区打车费二十元
上海虹桥高铁到杭州时间是924日费用是73元
上周末坐动车从北京到上海花费五十块五毛
昨天北京飞上海话费一百元

{"出发地": [{"text": "广州", "start": 15, "end": 17, "probability": 0.9073772252165782}], "目的地": [{"text": "佛山", "start": 18, "end": 20, "probability": 0.9927365183877761}], "时间": [{"text": "7月5日", "start": 6, "end": 10, "probability": 0.9978010396512218}]}
{"出发地": [{"text": "百度大厦", "start": 1, "end": 5, "probability": 0.968825147409472}], "目的地": [{"text": "龙泽苑东区", "start": 6, "end": 11, "probability": 0.9877913072493669}]}
{"目的地": [{"text": "杭州", "start": 7, "end": 9, "probability": 0.9929172180094881}], "时间": [{"text": "9月24日", "start": 12, "end": 17, "probability": 0.9953342057701597}]}
{#"出发地": [{"text": "北京", "start": 7, "end": 9, "probability": 0.973048366717471}], "目的地": [{"text": "上海", "start": 10, "end": 12, "probability": 0.988486130309397}], "时间": [{"text": "上周末", "start": 0, "end": 3, "probability": 0.9977407699595275}]}
{"出发地": [{"text": "北京", "start": 2, "end": 4, "probability": 0.974188953533556}], "目的地": [{"text": "上海", "start": 5, "end": 7, "probability": 0.9928200521486445}], "时间": [{"text": "昨天", "start": 0, "end": 2, "probability": 0.9731559534465504}]}

3.3意图识别多分类

在这里插入图片描述
在这里插入图片描述
代码语言:python
代码运行次数:0
运行
AI代码解释
复制
input data: 黑苦荞茶的功效与作用及食用方法
label: 功效作用
---------------------------------
input data: 交界痣会凸起吗
label: 疾病表述
---------------------------------
input data: 检查是否能怀孕挂什么科
label: 就医建议
---------------------------------
input data: 鱼油怎么吃咬破吃还是直接咽下去
label: 其他
---------------------------------
input data: 幼儿挑食的生理原因是
label: 病因分析
---------------------------------
代码语言:python
代码运行次数:0
运行
AI代码解释
复制
input data: a high degree of uncertainty associated with the emission inventory for china tends to degrade the performance of chemical transport models in predicting pm2.5 concentrations especially on a daily basis. in this study a novel machine learning algorithm, geographically -weighted gradient boosting machine (gw-gbm), was developed by improving gbm through building spatial smoothing kernels to weigh the loss function. this modification addressed the spatial nonstationarity of the relationships between pm2.5 concentrations and predictor variables such as aerosol optical depth (aod) and meteorological conditions. gw-gbm also overcame the estimation bias of pm2.5 concentrations due to missing aod retrievals, and thus potentially improved subsequent exposure analyses. gw-gbm showed good performance in predicting daily pm2.5 concentrations (r-2 = 0.76, rmse = 23.0 g/m(3)) even with partially missing aod data, which was better than the original gbm model (r-2 = 0.71, rmse = 25.3 g/m(3)). on the basis of the continuous spatiotemporal prediction of pm2.5 concentrations, it was predicted that 95% of the population lived in areas where the estimated annual mean pm2.5 concentration was higher than 35 g/m(3), and 45% of the population was exposed to pm2.5 >75 g/m(3) for over 100 days in 2014. gw-gbm accurately predicted continuous daily pm2.5 concentrations in china for assessing acute human health effects. (c) 2017 elsevier ltd. all rights reserved.
predicted result:
level 1: CS
level 2: 
----------------------------
input data: previous research exploring cognitive biases in bulimia nervosa suggests that attentional biases occur for both food-related and body-related cues. individuals with bulimia were compared to non-bulimic controls on an emotional-stroop task which contained both food-related and body-related cues. results indicated that bulimics (but not controls) demonstrated a cognitive bias for both food-related and body related cues. however, a discrepancy between the two cue-types was observed with body-related cognitive biases showing the most robust effects and food-related cognitive biases being the most strongly associated with the severity of the disorder. the results may have implications for clinical practice as bulimics with an increased cognitive bias for food-related cues indicated increased bulimic disorder severity. (c) 2016 elsevier ltd. all rights reserved.
predicted result:
level 1: Psychology
level 2: 
----------------------------
input data: posterior reversible encephalopathy syndrome (pres) is a reversible clinical and neuroradiological syndrome which may appear at any age and characterized by headache, altered consciousness, seizures, and cortical blindness. the exact incidence is still unknown. the most commonly identified causes include hypertensive encephalopathy, eclampsia, and some cytotoxic drugs. vasogenic edema related subcortical white matter lesions, hyperintense on t2a and flair sequences, in a relatively symmetrical pattern especially in the occipital and parietal lobes can be detected on cranial mr imaging. these findings tend to resolve partially or completely with early diagnosis and appropriate treatment. here in, we present a rare case of unilateral pres developed following the treatment with pazopanib, a testicular tumor vascular endothelial growth factor (vegf) inhibitory agent.
predicted result:
level 1: Medical
level 2: 

3.4 多模态信息抽取

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5 模型优化

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本专栏将持续更新

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
认证鉴权与API权限控制在微服务架构中的设计与实现(一)
引言: 本文系《认证鉴权与API权限控制在微服务架构中的设计与实现》系列的第一篇,本系列预计四篇文章讲解微服务下的认证鉴权与API权限控制的实现。 1. 背景 最近在做权限相关服务的开发,在系统微服务化后,原有的单体应用是基于session的安全权限方式,不能满足现有的微服务架构的认证与鉴权需求。微服务架构下,一个应用会被拆分成若干个微应用,每个微应用都需要对访问进行鉴权,每个微应用都需要明确当前访问用户以及其权限。尤其当访问来源不只是浏览器,还包括其他服务的调用时,单体应用架构下的鉴权方式就不是特别合适了
aoho求索
2018/04/03
3.3K0
认证鉴权与API权限控制在微服务架构中的设计与实现(一)
Spring Security---Oauth2详解
在说明OAuth2需求及使用场景之前,需要先介绍一下OAuth2授权流程中的各种角色:
大忽悠爱学习
2021/12/07
4.8K0
Spring Security---Oauth2详解
微服务架构下的统一身份认证和授权
本文讨论基于微服务架构下的身份认证和用户授权的技术方案,在阅读之前,最好先熟悉并理解以下几个知识点:
matinal
2020/11/27
4K0
微服务架构下的统一身份认证和授权
Spring Security入门4:各类软件技术架构中,如何保证安全性?
在架构设计中,应该考虑将安全防护机制分为多个层次,每个层次都有不同的安全措施和策略,确保全面覆盖系统的安全需求。在架构设计的早期阶段,应该对可能的威胁进行建模和分析,评估系统的风险,以便在设计中考虑相应的安全措施,在架构中加入严格的访问控制,包括身份验证、权限管理和安全策略等,确保只有授权的用户可以进行特定的操作,可以在系统中加入安全日志和监控机制,记录系统的操作和活动,及时发现和响应安全事件,以保证系统安全。
Designer 小郑
2023/11/21
3460
Spring Security入门4:各类软件技术架构中,如何保证安全性?
微服务安全认证架构是如何演进而来的?
之前有同事问为何要用基于JWT令牌的认证架构,然后近期又有童鞋在后台留言问微服务安全认证架构的实践,因此我决定花两篇推文来解答一下。为了答好这个话题,我们先来看看微服务的安全认证架构是如何演进而来的,从而更好地理解。
Edison Zhou
2020/07/25
4440
微服务安全认证架构是如何演进而来的?
微服务之服务监控和治理、容错隔离、Docker总结概述
1.Gauges(度量) 2.Counters(计数器) 3.Histograms(直方图) 4.Meters(TPS计算器) 5.Timers(计时器)
架构之家
2022/09/01
9520
微服务之服务监控和治理、容错隔离、Docker总结概述
微服务架构下的安全认证与鉴权
本文目录: 一、单体应用 VS 微服务 二、微服务常见安全认证方案 三、JWT介绍 四、OAuth 2.0 介绍 五、思考总结 从单体应用架构到分布式应用架构再到微服务架构,应用的安全访问在不断的经受考验。为了适应架构的变化、需求的变化,身份认证与鉴权方案也在不断的变革。面对数十个甚至上百个微服务之间的调用,如何保证高效安全的身份认证?面对外部的服务访问,该如何提供细粒度的鉴权方案?本文将会为大家阐述微服务架构下的安全认证与鉴权方案。 一、单体应用 VS 微服务 随着微服务架构的兴起,传统的单体应用场景下
yuanyi928
2018/03/30
3.6K0
微服务架构下的安全认证与鉴权
基于 Spring Security OAuth2和 JWT 构建保护微服务系统
常见的应用场景如下图,用户通过浏览器进行登录,一旦确定用户名和密码正确,那么在服务器端使用秘钥创建 JWT,并且返回给浏览器;接下来我们的请求需要在头部增加 jwt 信息,服务器端进行解密获取用户信息,然后进行其他业务逻辑处理,再返回客户端
allsmallpig
2021/02/25
1.2K0
认证鉴权也可以如此简单—使用API网关保护你的API安全
随着企业数字化进程的发展,企业正在大量使用 API 来连接服务和传输数据,API 在带来巨大便利的同时也带来了新的安全问题,被攻击的 API 可能导致重要数据泄漏并对企业业务造成毁灭性影响。因此,API 安全正受到业界和学术界的广泛关注。
克莱尔小熊
2021/12/26
10.8K2
认证鉴权也可以如此简单—使用API网关保护你的API安全
整合spring cloud云架构 - SSO单点登录之OAuth2.0登录认证(1)
之前写了很多关于spring cloud的文章,今天我们对OAuth2.0的整合方式做一下笔记,首先我从网上找了一些关于OAuth2.0的一些基础知识点,帮助大家回顾一下知识点:
庞小明
2018/07/30
1.9K1
微服务Token鉴权设计:概念与实战
在微服务架构中,鉴权是确保服务安全的重要环节。由于微服务往往由多个独立的服务组成,这些服务之间的通信需要一种高效、安全的鉴权机制。Token鉴权作为一种常用的鉴权方式,为微服务架构提供了简洁而有效的解决方案。本文将详细介绍几种Token鉴权方案,并通过实战示例展示其应用。
小马哥学JAVA
2024/04/30
1.3K0
OAuth 2.0 授权认证详解
点击上方“芋道源码”,选择“设为星标” 管她前浪,还是后浪? 能浪的浪,才是好浪! 每天 10:33 更新文章,每天掉亿点点头发... 源码精品专栏 原创 | Java 2021 超神之路,很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 MyCAT 源码解析 作业调度中间件 Elastic-Job 源码解析 分布式事务中间件 TCC-Transaction
芋道源码
2022/06/20
2K0
OAuth 2.0 授权认证详解
与我一起学习微服务架构设计模式11—开发面向生产环境的微服务应用
为了使服务做好部署到生产环境中的准备,需要确保满足三个关键的质量属性:安全性、可配置性和可观测性。
java达人
2019/12/19
2K0
微服务权限
通过认证服务(oauth2-auth)进行统一认证,然后通过网关(oauth2-gateway)来统一校验认证和鉴权。采用Nacos作为注册中心,Gateway作为网关,使用nimbus-
花落花相惜
2021/12/07
7250
身份即服务背后的基石
近期所在部门基本完成了 IDaaS(身份即服务) 系统的改造,故将所涉及到的知识点总结成本文。
gopher云原生
2021/11/26
3K0
身份即服务背后的基石
【One by One系列】IdentityServer4(一)OAuth2.0与OpenID Connect 1.0
在微服务场景中,身份认证通常是集中处理,这也是有别于单体应用一把梭哈的模式,其中,在微软微服务白皮书中,提供了两种身份认证模式:
DDGarfield
2022/06/23
1.6K0
【One by One系列】IdentityServer4(一)OAuth2.0与OpenID Connect 1.0
聊聊微服务架构中的认证鉴权那些事
应用系统绕不开基础的鉴权,微服务架构推荐使用 HTTP 的方式进行服务间通信,这里推荐一篇介绍 HTTP 认证鉴的文章。
aoho求索
2021/11/25
3.3K0
聊聊微服务架构中的认证鉴权那些事
OAUTH2 的微服务安全-spring cloud快速入门教程
公开由许多微服务组成的公共访问 API 时要考虑的最重要方面之一是安全性。Spring 有一些有趣的特性和框架,使我的微服务安全配置更容易。在本文中,我将向您展示如何使用 Spring Cloud 和 Oauth2 在 API 网关后面提供令牌访问安全性。
jack.yang
2025/04/05
730
OAUTH2 的微服务安全-spring cloud快速入门教程
使用微服务架构思想,设计部署OAuth2.0授权认证框架
1,授权认证与微服务架构 1.1,由不同团队合作引发的授权认证问题 去年的时候,公司开发一款新产品,但人手不够,将B/S系统的Web开发外包,外包团队使用Vue.js框架,调用我们的WebAPI,但是这些WebAPI并不在一台服务器上,甚至可能是第三方提供的WebAPI。同时处于系统安全的架构设计,后端WebAPI是不能直接暴露在外面的;另一方面,我们这个新产品还有一个C/S系统,C端登录的时候,要求统一到B/S端登录,可以从C端无障碍的访问任意B/S端的页面,也可以调用B/S系统的一些API,所以又增加了
用户1177503
2018/05/28
11.5K1
深入聊聊微服务架构的身份认证问题
随着微服务架构的兴起,传统的单体应用场景下的身份认证和鉴权面临的挑战越来越大。单体应用体系下,应用是一个整体,一般针对所有的请求都会进行权限校验。请求一般会通过一个权限的拦截器进行权限的校验,在登录时将用户信息缓存到 session 中,后续访问则从缓存中获取用户信息。
lyb-geek
2018/07/26
1.8K0
深入聊聊微服务架构的身份认证问题
推荐阅读
相关推荐
认证鉴权与API权限控制在微服务架构中的设计与实现(一)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档