Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ChatGPT能解决信息抽取吗?一份关于性能、评估标准、鲁棒性和错误的分析

ChatGPT能解决信息抽取吗?一份关于性能、评估标准、鲁棒性和错误的分析

作者头像
zenRRan
发布于 2023-08-22 06:14:35
发布于 2023-08-22 06:14:35
6080
举报

深度学习自然语言处理 原创 作者:qazw

信息抽取(IE)旨在从非结构化文本中抽取出结构化信息,该结果可以直接影响很多下游子任务,比如问答和知识图谱构建。因此,探索ChatGPT的信息抽取能力在一定程度上能反映出ChatGPT生成回复时对任务指令理解的性能

论文:Is Information Extraction Solved by ChatGPT? An Analysis of Performance, Evaluation Criteria, Robustness and Errors 地址:https://arxiv.org/pdf/2305.14450.pdf 代码:https://github.com/RidongHan/Evaluation-of-ChatGPT-on-Information-Extraction

本文将从性能、评估标准、鲁棒性和错误类型四个角度对ChatGPT在信息抽取任务上的能力进行评估。

实验

实验设置

任务和数据集 本文的实验采用4类常见的信息抽取任务,包括命名实体识别(NER),关系抽取(RE),事件抽取(EE)和基于方面的情感分析(ABSA),它们一共包含14类子任务。

对于NER任务,采用的数据集包括CoNLL03、FewNERD、ACE04、ACE05-Ent和GENIA。

对于RE任务,采用的数据集包括CCoNLL04、NYT-multi、TACRED和SemEval 2010。

对于EE任务,采用的数据集包括CACE05-Evt、ACE05+、CASIE和Commodity News EE。

对于ABSA任务,采用的数据集包括D17、D19、D20a和D20b,均从SemEval Challenges获取。

实验结果

1、性能

从上图结果可以明显看出: (1)ChatGPT和SOTA方法之间存在显著的性能差距; (2)任务的难度越大,性能差距越大; (3)任务场景越复杂,性能差距越大; (4)在一些简单的情况下,ChatGPT可以达到或超过SOTA方法的性能; (5)使用few-shot ICL提示通常有显著提升(约3.0~13.0的F1值),但仍明显落后于SOTA结果; (6)与few-shot ICL提示相比,few-shot COT提示的使用不能保证进一步的增益,有时它比few-shot ICR提示的性能更差。

2、对性能gap的思考

通过人工检查ChatGPT的回复,发现ChatGPT倾向于识别比标注的跨度更长的sapn,以更接近人类的偏好。因此,之前的硬匹配(hard-matching)策略可能不适合如ChatGPT的LLM,所以本文提出了一种软匹配(soft-matching)策略,算法流程如下。

该算法表明,只要生成和span和标记的span存在包含关系且达到相似度的阈值,则认为结果正确。通过软匹配策略,对重新评估ChatGPT的IE性能,得到的结果如下。

从上图可以看出,软匹配策略带来一致且显著的性能增益(F1值高达14.53),简单子任务的提升更明显。同时,虽然软匹配策略带来性能提升,但仍然没有达到SOTA水平。

3、鲁棒性分析 (1)无效输出

在大多数情况下,ChatGPT很少输出无效回复。然而在RE-Triplet子任务中,无效回复占比高达25.3%。一个原因可能这个子任务更加与众不同。

(2)无关上下文 由于ChatGPT对不同的提示非常敏感,本文研究了无关上下文对ChatGPT在所有IE子任务上性能的影响。主要通过在输入文本前后随机插入一段无关文本来修改zero-shot提示的“输入文本”部分,无关文本不包含要提取的目标信息span,结果如图所示。

可以看出,当随机添加无关上下文时,大多数子任务的性能都会显著下降(最高可达48.0%)。ABSA-ALSC和RE-RC子任务的性能下降较小,这是因为它们基于给定的方面项或实体对进行分类,受到无关上下文的影响较小。因此,ChatGPT对无关上下文非常敏感,这会显著降低IE任务的性能。

(3)目标类型的频率 真实世界的数据通常为长尾分布,导致模型在尾部类型上的表现比在头部类型上差得多。本文研究了“目标类型的频率”对ChatGPT在所有IE子任务中的性能的影响,结果如图所示。

可以看出,尾部类型的性能明显不如头部类型,仅高达头部类型的75.9%。在一些子任务上,比如RE-RC和RE-Triplet,尾部类型的性能甚至低于头部类型性能的15%,所以ChatGPT也面临长尾问题的困扰。

(4)其他 本文探讨了ChatGPT是否可以区分RE-RC子任务中两个实体的主客观顺序。由于大多数关系类型都是非对称的,因此两个实体的顺序非常关键。对于非对称关系类型的每个实例,交换实体的顺序并检测预测结果的变化,结果如图所示。

可以看到,交换顺序后大多数预测结果(超过70%)与交换前保持不变。因此对于RE-RC子任务,ChatGPT对实体的顺序不敏感,而且无法准确理解实体的主客体关系。

4、错误类型分析

从图中可以看出,“Unannotated spans”、“Incorrect types”和“Missing spans”是三种主要的错误类型,占70%以上。特别是,几乎三分之一的错误是“Unannotated spans”的错误,这也引发了对标注数据质量的担忧。

总结

本文从性能、评估标准、鲁棒性和错误类型四个角度评估了ChatGPT的信息抽取能力,结论如下:

性能 本文评估了ChatGPT在zero-shot、few-shot和chain-of-thought场景下的17个数据集和14个IE子任务上的性能,发现ChatGPT和SOTA结果之间存在巨大的性能差距。

评估标准 本文重新审视了性能差距,发现硬匹配策略不适合评估ChatGPT,因为ChatGPT会产生human-like的回复,并提出软匹配策略,以更准确地评估ChatGPT的性能。

鲁棒性 本文从四个角度分析了ChatGPT对14个子任务的鲁棒性,包括无效输出、无关上下文、目标类型的频率和错误类型并得出以下结论:1)ChatGPT很少输出无效响应;2)无关上下文和长尾目标类型极大地影响了ChatGPT的性能;3)ChatGPT不能很好地理解RE任务中的主客体关系。

错误类型 通过人工检查,本文分析了ChatGPT的错误,总结出7种类型,包括Missing spans、Unmentioned spans、Unannotated spans、Incorrect span offsets、Undefined types、Incorrect types和other。发现“Unannotated spans”是最主要的错误类型。这引发了大家对之前标注数据质量的担心,同时也表明利用ChatGPT标记数据的可能性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
ChatGPT时代情感分析还存在吗?一份真实调查
最近几年,GPT-3、PaLM和GPT-4等LLM刷爆了各种NLP任务,特别是在zero-shot和few-shot方面表现出它们强大的性能。因此,情感分析(SA)领域也必然少不了LLM的影子,但是哪种LLM适用于SA任务依然是不清晰的。
zenRRan
2023/08/22
5920
ChatGPT时代情感分析还存在吗?一份真实调查
RbFT:针对RAG中检索缺陷的鲁棒性微调
这篇论文旨在提高大型语言模型(LLMs)在检索增强型生成(Retrieval-Augmented Generation, RAG)系统中对检索缺陷的鲁棒性。具体来说,论文关注以下几个关键问题:
致Great
2025/02/11
1370
RbFT:针对RAG中检索缺陷的鲁棒性微调
NL2SQL进阶系列(4):ConvAI、DIN-SQL等16个业界开源应用实践详解Text2SQL
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
汀丶人工智能
2024/04/16
5600
NL2SQL进阶系列(4):ConvAI、DIN-SQL等16个业界开源应用实践详解Text2SQL
7 Papers & Radios | RobustART评测模型鲁棒性;用Transformer做风格迁移遭质疑
论文 1: Paint Transformer: Feed Forward Neural Painting with Stroke Prediction
机器之心
2021/09/27
5920
7 Papers & Radios | RobustART评测模型鲁棒性;用Transformer做风格迁移遭质疑
通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估
本文主要评估了ChatGPT这种大型语言模型在信息提取方面的能力,作者使用了7个细粒度的信息提取任务来评估ChatGPT的性能、可解释性、校准度和可信度。
zenRRan
2023/08/21
5080
通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估
【论文解读】System 2 Attention提高大语言模型客观性和事实性
本文简要介绍了论文“System 2 Attention (is something you might need too) ”的相关工作。基于transformer的大语言模型(LLM)中的软注意很容易将上下文中的不相关信息合并到其潜在的表征中,这将对下一token的生成产生不利影响。为了帮助纠正这些问题,论文引入了System 2 Attention(S2A),它利用LLM的能力,用自然语言进行推理,并遵循指示,以决定要处理什么。S2A重新生成输入上下文以使输入上下文只包含相关部分,然后再处理重新生成的上下文以引出最终响应。在实验中,S2A在包含意见或不相关信息的三个任务:QA、数学单词问题和长形生成上优于标准的基于注意力的LLM,其中S2A增加了事实性和客观性,减少了虚假性。
合合技术团队
2023/12/13
3640
【论文解读】System 2 Attention提高大语言模型客观性和事实性
解读提示工程(Prompt Engineering)
提示工程(Prompt Engineering),也称为上下文提示,是一种通过不更新模型的权重/参数来引导LLM行为朝着特定结果的方法。这是与AI有效交流所需结果的过程。提示工程可以用于各种任务,从回答问题到算术推理乃至各种应用领域,理解提示工程,能够帮助我们了解LLM的限制和能力。
半吊子全栈工匠
2023/10/23
9.1K0
解读提示工程(Prompt Engineering)
RoleLLM:打造高效的角色扮演语言模型
论文介绍了一种评估和增强LLM在角色扮演方面能力的方法。作者首先提出了一个角色扮演基准(RoleBench),用于综合评估LLM的角色扮演能力,然后设计了一种名为RoleLLM的模型,它通过对话工程和上下文指令生成技术来模仿特定角色的对话风格。
唐国梁Tommy
2023/11/24
3.7K1
RoleLLM:打造高效的角色扮演语言模型
超全必读!NLP 事件抽取综述(下)
本系列文章主要分享近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等。主要包括以下几大部分:
NewBeeNLP
2021/01/08
3.5K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
汀丶人工智能
2024/04/18
1.7K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
Scan Context++:在城市环境中具有鲁棒性的位置识别描述子
文章:Scan Context++: Structural Place Recognition Robust to Rotation and Lateral Variations in Urban Environments
点云PCL博主
2022/05/25
1.2K0
Scan Context++:在城市环境中具有鲁棒性的位置识别描述子
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
近年来,大型语言模型取得了显著进展。通过扩大数据大小和模型大小,这些LLM提高了惊人的涌现能力,通常包括上下文学习(ICL)、指令跟随和思想链(CoT)。尽管LLM在大多数自然语言处理(NLP)任务中表现出了令人惊讶的Zero/Few-Shot推理性能,但它们天生对视觉“视而不见”,因为它们只能理解离散文本。
集智书童公众号
2023/09/04
13.3K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
解密Prompt系列1. Tunning-Free Prompt:GPT2 & GPT3 & LAMA & AutoPrompt
借着ChatGPT的东风,我们来梳理下prompt范式的相关模型。本系列会以A Systematic Survey of Prompting Methods in Natural Language Processing这篇综述为基础,分门别类的整理下这几年比较有代表性的prompt模型。或许你还以其他形式看到过prompt概念,例如Demonstration,Instruction,In-Context learning,few-shot learning等等
风雨中的小七
2023/02/10
6.3K1
解密Prompt系列1. Tunning-Free Prompt:GPT2 & GPT3 & LAMA & AutoPrompt
AAAI 2024 | 测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
测试时领域适应(Test-Time Adaptation)的目的是使源域模型适应推理阶段的测试数据,在适应未知的图像损坏领域取得了出色的效果。然而,当前许多方法都缺乏对真实世界场景中测试数据流的考虑,例如:
机器之心
2023/12/28
2860
AAAI 2024 | 测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
知识图谱构建-关系抽取和属性抽取
医疗知识图谱构建离不开大量的三元组,而三元组的获取除了先前文章介绍的IS-A上下位抽取,另一项就是关系抽取。关系抽取是信息抽取领域中的重要任务之一,目的在于抽取文本中的实体对,以及识别实体对之间的语义关系。例如"弥漫性肺泡出血易合并肺部感染"中,"弥漫性肺泡出血"与"肺部感染"都是疾病,他们之间的关系是"疾病-合并症"。存在于海量医疗文本中的知识体系网络,可以为其他NLP技术(实体链接,query 解析,问答系统,信息检索等)提供可解释性的先验知识(知识表示)和推理。
zenRRan
2020/03/03
7.7K0
【RAG论文】检索信息中的噪音是如何影响大模型生成的?
本篇论文探讨了RAG系统中的检索对系统性能的影响。与传统的大型语言模型相比,RAG系统通过引入外部数据提高了其生成能力。然而,大多数关于RAG系统的研究主要集中在语言模型的生成方面,而忽略了IR的作用。通过对各种元素进行评估,如文档的相关性、位置和数量等,发现包含不相关文档可以意外地提高准确性超过30%。
致Great
2024/05/28
2630
【RAG论文】检索信息中的噪音是如何影响大模型生成的?
AAAI 2024|大模型论文总结(下)
上篇介绍前20篇关于大语言模型的文章,本次将继续介绍剩下的55篇文章。(如有疏漏,欢迎大家补充)。
时空探索之旅
2024/11/19
4300
AAAI 2024|大模型论文总结(下)
基于统一结构生成的网安信息抽取研究
信息抽取 (Information Extraction,IE)是将文本里的非结构信息转化成结构化信息的过程。在网安领域,IE技术可以从纷杂的文章、博客和评论中抽取与网安相关的网络威胁信息,该技术对实现情报交换、舆情分析、热度预测、知识图谱构建等任务均有重要影响。
绿盟科技研究通讯
2022/11/14
8880
基于统一结构生成的网安信息抽取研究
NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%
当前,大语言模型(Large Language Model, LLM)借助上下文学习(In-context Learning)和思维链提示(Chain of Thoughts Prompting),在许多复杂推理任务上展现出了强大的能力。
机器之心
2025/02/14
1210
NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%
中科院、华为等斩获最佳长论文,ACL 2019奖项全部揭晓
值得一提的是,来自中科院、华为诺亚方舟实验室等机构的论文获得了最佳长论文;一篇来自南京理工大学论文获得了杰出论文奖。除此之外,还有很多华人学者都是获奖论文的作者。由此可见,国内研究者在 NLP 领域还是取得非常不错的成绩。
机器之心
2019/08/02
5830
中科院、华为等斩获最佳长论文,ACL 2019奖项全部揭晓
推荐阅读
ChatGPT时代情感分析还存在吗?一份真实调查
5920
RbFT:针对RAG中检索缺陷的鲁棒性微调
1370
NL2SQL进阶系列(4):ConvAI、DIN-SQL等16个业界开源应用实践详解Text2SQL
5600
7 Papers & Radios | RobustART评测模型鲁棒性;用Transformer做风格迁移遭质疑
5920
通过准确性、可解释性、校准度和忠实度,对ChatGPT的能力进行全面评估
5080
【论文解读】System 2 Attention提高大语言模型客观性和事实性
3640
解读提示工程(Prompt Engineering)
9.1K0
RoleLLM:打造高效的角色扮演语言模型
3.7K1
超全必读!NLP 事件抽取综述(下)
3.5K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
1.7K0
Scan Context++:在城市环境中具有鲁棒性的位置识别描述子
1.2K0
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
13.3K0
解密Prompt系列1. Tunning-Free Prompt:GPT2 & GPT3 & LAMA & AutoPrompt
6.3K1
AAAI 2024 | 测试时领域适应的鲁棒性得以保证,TRIBE在多真实场景下达到SOTA
2860
知识图谱构建-关系抽取和属性抽取
7.7K0
【RAG论文】检索信息中的噪音是如何影响大模型生成的?
2630
AAAI 2024|大模型论文总结(下)
4300
基于统一结构生成的网安信息抽取研究
8880
NeurIPS 2024 | 可信大模型新挑战:噪声思维链提示下的鲁棒推理,准确率直降40%
1210
中科院、华为等斩获最佳长论文,ACL 2019奖项全部揭晓
5830
相关推荐
ChatGPT时代情感分析还存在吗?一份真实调查
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档