Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >短实体,长句实体抽取

短实体,长句实体抽取

作者头像
机器学习AI算法工程
发布于 2020-09-14 02:22:02
发布于 2020-09-14 02:22:02
2K0
举报
Entity-extractor-by-binary-tagging

“半指针-半标注”方法实体的抽取器,基于苏神的三元组抽取方法改造,这里取消了三元组抽取模型中对s的抽取,直接抽取实体并做分类(相当于直接抽取p和o)。改造后的实体抽取方法不仅可以运用于短实体的抽取,也可以运用到长句实体的抽取。

基于DGCNN和概率图的"三元组"信息抽取模型

代码 以及运行教程 获取:

关注微信公众号 datayx 然后回复 实体 即可获取。

AI项目体验地址 https://loveai.tech

环境

  • python 3.6.7
  • transformers==3.0.2
  • torch==1.6.0

其他环境见requirements.txt

原理

运行

  • 按照data中的格式整理好数据
  • 运行main.py

结果

  • example_datasets1

这里的数据模式比较简单,比较容易达到验证集拟合状态

  • example_datasets2

当前模型这个人民日报的ner数据集效果不佳,需要近一步调参炼丹

测试

  • 选择测试模式,程序会读取训练过程中最好的模型

交互测试结果如下

  • example_datasets1
  • example_datasets2
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
基于DGCNN和概率图的"三元组"信息抽取模型
信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。... 本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE),旨在为研究者提供学术交流平台,进一步提升中文信息抽取技术的研究水平,推动相关人工智能应用的发展。
机器学习AI算法工程
2019/10/28
1.4K0
基于DGCNN和概率图的"三元组"信息抽取模型
信息抽取:SPO三元组知识
本次任务使用的SKE数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过43万三元组数据、21万中文句子及50个已定义好的schema,表1中展示了SKE数据集中包含的50个schema及对应的例子。数据集中的句子来自百度百科和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载。
机器学习AI算法工程
2019/10/28
3.6K0
信息抽取:SPO三元组知识
基于知识图谱的问答系统,BERT做命名实体识别和句子相似度
了解知识图谱的基本概念,也做过一些demo的实践,毕竟是做问答方向的,所以就比较关注基于知识图谱的问答。其实构建知识图谱的核心在于命名实体识别和关系抽取,围绕这两个方面也有很多细致的工作,比如如何解决实体的歧义,进行实体消歧;如何进行多关系的抽取等。从最近各大公司举行的比赛,我们也可以看出来,今年的主要工作就在这上面,这也是技术落地的一个重要标志。最近也在捣鼓BERT,想着就将基于KB的QA流程撸一遍,于是就有了这个demo。
机器学习AI算法工程
2019/10/28
3.7K0
基于知识图谱的问答系统,BERT做命名实体识别和句子相似度
浅析深度学习在实体识别和关系抽取中的应用
实体识别 作者:蒙 康 编辑:黄俊嘉 命名实体识别 1 命名实体识别(Named Entity Recognition,NER)就是从一段自然语言文本中找出相关实体,并标注出其位置以及类型,如下图。命名实体识别是NLP领域中的一些复杂任务的基础问题,诸如自动问答,关系抽取,信息检索等 ,其效果直接影响后续处理的效果,因此是NLP研究的一个基础问题。 NER一直是NLP领域中的研究热点,现在越来越多的被应用于专业的领域,如医疗、生物等。这类行业往往具有大量的专业名词,名词与名词之间相互之间存在着不同种类
企鹅号小编
2018/01/10
2.1K0
浅析深度学习在实体识别和关系抽取中的应用
基于神经网络的实体识别和关系抽取联合学习
作者丨罗凌 学校丨大连理工大学博士生 研究方向丨深度学习,文本分类,实体识别 联合学习(Joint learning)一词并不是一个最近才出现的术语,在自然语言处理领域,很早就有研究者使用基于传统机器学习的联合模型(Joint model)来对一些有些密切联系的自然语言处理任务进行联合学习。例如实体识别和实体标准化联合学习,分词和词性标注联合学习等等。 最近,研究者们在基于神经网络方法上进行实体识别和关系抽取联合学习,我阅读了一些相关工作,在此和大家一起分享学习(本文中引用了一些论文作者 Suncong Z
企鹅号小编
2018/03/05
2.5K0
基于神经网络的实体识别和关系抽取联合学习
【文本信息抽取与结构化】深入了解关系抽取你需要知道的东西
常常在想,自然语言处理到底在做的是一件什么样的事情?到目前为止,我所接触到的NLP其实都是在做一件事情,即将自然语言转化为一种计算机能够理解的形式。这一点在知识图谱、信息抽取、文本摘要这些任务中格外明显。不同的任务的差异在于目标的转化形式不一样,因而不同的任务难度、处理方式存在差异。
用户1508658
2020/02/27
1.5K0
【文本信息抽取与结构化】深入了解关系抽取你需要知道的东西
关系抽取调研——工业界
自动识别句子中实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。
机器学习AI算法工程
2021/11/10
1.7K0
【论文分享】ACL 2020 信息抽取任务中的新动向
信息抽取一直以来都是自然语言处理中最基础的技术之一,它指的是将文本中的非结构化信息通过算法或模型自动提取转换为结构化数据的过程。信息抽取任务有多个子任务:命名实体识别(NER)、关系抽取(RE)、事件抽取(EE)。信息抽取的结果可以用于很多NLP的下游任务例如阅读理解、知识图谱构建和智能问答。今天给大家分享三篇ACL关于信息抽取的文章,分别涵盖了命名实体识别(NER)、信息联合抽取以及关系抽取(RE)三个方面。
zenRRan
2020/09/14
2.4K0
【论文分享】ACL 2020 信息抽取任务中的新动向
实体关系抽取综述及相关顶会论文介绍
每天给你送来NLP技术干货! ---- 写在前面 实体关系抽取作为文本挖掘和信息抽取的核心任务,其主要通过对文本信息建模,自动抽取出实体对之间的语义关系,提取出有效的语义知识。其研究成果主要应用在文本摘要、自动问答、机器翻译、语义网标注、知识图谱等。 1. 关系抽取任务简介 实体关系抽取作为信息抽取的重要任务,是指在实体识别的基础上,从非结构化文本中抽取出预先定义的实体关系。实体对的关系可被形式化描述为关系三元组〈e1,r,e2〉,其中 e1 和 e2 是实体,r 属于目标关系集 R{r1,r2, r3,…
zenRRan
2022/07/18
2.2K0
实体关系抽取综述及相关顶会论文介绍
NLP(5)——基于依存分析的开放式中文实体关系抽取方法
前言:由于主要是涉及一些NLP的东西,所以将本文放到NLP里面。 前期学习的资料:
DC童生
2018/08/27
2.3K1
NLP(5)——基于依存分析的开放式中文实体关系抽取方法
关系抽取一步到位!
本文主要详细解读关系抽取SOTA论文Two are Better than One:Joint Entity and Relation Extraction with Table-Sequence Encoders[1], 顺带简要介绍关系抽取的背景,方便完全不了解童鞋。
zenRRan
2021/01/28
1.7K0
关系抽取一步到位!
知识图谱构建-关系抽取和属性抽取
医疗知识图谱构建离不开大量的三元组,而三元组的获取除了先前文章介绍的IS-A上下位抽取,另一项就是关系抽取。关系抽取是信息抽取领域中的重要任务之一,目的在于抽取文本中的实体对,以及识别实体对之间的语义关系。例如"弥漫性肺泡出血易合并肺部感染"中,"弥漫性肺泡出血"与"肺部感染"都是疾病,他们之间的关系是"疾病-合并症"。存在于海量医疗文本中的知识体系网络,可以为其他NLP技术(实体链接,query 解析,问答系统,信息检索等)提供可解释性的先验知识(知识表示)和推理。
zenRRan
2020/03/03
7.8K0
信息抽取数据集全景分析:分类体系、技术演进与挑战_DEEPSEEK
信息抽取(IE)作为自然语言处理的核心任务,是构建知识图谱、支持智能问答等应用的基础。近年来,随着深度学习技术的发展和大规模预训练模型的兴起,IE 数据集呈现爆发式增长,其分析与评估对模型研发和领域迁移至关重要。本文基于对 158 个主流 IE 数据集的系统性梳理,首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖 8 大类别(命名实体识别、关系提取、事件提取、情感提取、开放信息提取、文本到表格、预训练与多模态)及 39 个子类,深度剖析各任务场景下的数据集特性、评估指标与技术脉络。
致Great
2025/07/12
1350
信息抽取数据集全景分析:分类体系、技术演进与挑战_DEEPSEEK
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction
汀丶人工智能
2022/12/21
5630
文档级关系抽取:基于结构先验产生注意力偏差SSAN模型
细粒度情感分析在到餐场景中的应用
经典的细粒度情感分析(ABSA,Aspect-based Sentiment Analysis)主要包含三个子任务,分别为属性抽取、观点抽取以及属性-观点对的情感倾向判定三个级联任务。
美团技术团队
2021/12/13
1.8K0
细粒度情感分析在到餐场景中的应用
开源中文关系抽取框架,来自浙大知识引擎实验室
DeepKE 是基于 Pytorch 的深度学习中文关系抽取处理套件。 环境依赖: python >= 3.6 torch >= 1.2 hydra-core >= 0.11 tensorboard >= 2.0 matplotlib >= 3.1 transformers >= 2.0 jieba >= 0.39 中文关系抽取 基于 CNN 的关系抽取模型 基于 BiLSTM 的关系抽取模型 基于 PCNN 的远程监督关系抽取模型 基于 Capsule 的关系抽取模型 基于 Transformer 的关系
机器学习AI算法工程
2020/09/28
1.6K1
开源中文关系抽取框架,来自浙大知识引擎实验室
基于Bert-NER构建特定领域中文信息抽取框架
本文通过多个实验的对比发现,结合Bert-NER和特定的分词、词性标注等中文语言处理方式,获得更高的准确率和更好的效果,能在特定领域的中文信息抽取任务中取得优异的效果。
机器学习AI算法工程
2020/03/26
2.9K0
知识图谱的基础构建指南
知识图谱(Knowledge Graph, KG)是用于表示实体及其之间关系的结构化语义网络,近年来广泛应用于搜索引擎、推荐系统、对话系统等领域。通过将数据以三元组的形式存储(实体1-关系-实体2),知识图谱能够提供更加丰富的语义信息和背景,帮助系统更好地理解和处理复杂的任务。
二一年冬末
2024/09/13
1.1K0
知识图谱的基础构建指南
ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)
无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:
悟乙己
2019/05/26
5.2K0
经典论文复现 | 基于标注策略的实体和关系联合抽取
过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含“伪代码”。这是今年 AAAI 会议上一个严峻的报告。 人工智能这个蓬勃发展的领域正面临着实验重现的危机,就像实验重现问题过去十年来一直困扰着心理学、医学以及其他领域一样。最根本的问题是研究人员通常不共享他们的源代码。
用户1386409
2019/03/07
1.5K0
经典论文复现 | 基于标注策略的实体和关系联合抽取
推荐阅读
相关推荐
基于DGCNN和概率图的"三元组"信息抽取模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档