GPT-4有情商！CAS && 微软 | 提出 EmotionPrompt，可使其性能提升10.9%！

ShuYini

发布于 2023-11-08 15:19:39

3140

发布于 2023-11-08 15:19:39

文章被收录于专栏：自然语言处理(NLP)论文速递自然语言处理(NLP)论文速递

点击上方“AINLPer“，设为星标

更多干货，第一时间送达

引言

一个人的情商会影响其日常行为。目前，大型语言模型（LLM）在众多任务中都表现出了强悍的性能，并被视为是迈向通用人工智能的第一步。那么问题来了，大模型能像人一样具备情商吗？即能够理解并响应情绪提示吗？。

今天分享的这篇文章，迈出了探索大模型情商能力的第一步。作者提出了EmotionPrompt方法，通过情感刺激来研究大型语言模型的情感智能。结果表明，LLMs不仅理解情感，而且还可以通过情感刺激进行增强，从而显著提高任务性能、真实性和信息量。GPT-4性能可提升10.9%。

Paper：https://arxiv.org/pdf/2307.11760.pdf

背景介绍

情商是复杂的人类属性之一，它能够处理情感信息并引导人类做出相应的动作。具体来说，它是指能够熟练地解释和管理情绪信息的能力，随后利用它来引导认知任务，从解决问题到行为规范。情绪通过反射、感知、认知和行为融合表现出来，所有这些都受到一系列内部和外部决定因素的调节。

例如，在决策领域，情绪是强大的、无处不在的、持续不断的影响者，其影响可能是有益的，也可能是有害的。研究进一步强调了情绪在引导注意力、学术界和竞技体育领域中的重要性，除此之外也有研究表明，情绪调节可以影响人类解决问题的表现，如自我监控、社会认知理论以及积极情绪的作用所示。由于其对人类行为的影响，情绪调节理论已应用于各个领域，包括促进学生成功的教育环境和健康促进举措。

为此，本文旨在了解情感智能与高级人工智能（AI）模型之间的关系。作为通用人工智能最有前途的研究方向之一，大语言模型（LLM）在推理、自然语言理解和生成等任务中都表现出了卓越的性能，然而，除了在各种任务中表现出色之外，大模型是否能够理解情感刺激，这是人类增强解决问题能力的关键优势，这一点仍有待探索。

因此，本文作者提出一个问题：大模型的情感智能是否可以与人类的情商高度一致呢？许多研究人员通过采用情境学习技术在多项任务中取得了显着的进步。但没有评估情感智能对LLM的影响，即情感智能能否在提升LLM的能力方面发挥关键作用？

EmotionPrompt

心理学研究表明，添加与期望、信心和社会影响力相关的情绪刺激可以对个人产生有益的影响。这种现象的现实应用包括通过使用鼓励和积极的词语来提高学生在教育方面的成功。借鉴此类心理学现象，本文作者提出了 EmotionPrompt——一种探索LLM情商的简单而有效的方法。

具体来说，作者为大模型设计了11个句子作为情感刺激，并将这些句子添加到原有Prompt之后。如下图所示：

上图显示了在原始提示的末尾使用一种情感刺激“This is very important to my career.”来提高不同LLM的表现的示例，这些情感刺激可以无缝地融入到原始提示中。

本文作者对确定性任务、生成性任务进行了全面的实验。

「确定性任务」使用了各种 LLM（包括 FlanT5-Large 、Vicuna、Llama2、BLOOM、ChatGPT、GPT-4 ）对 24 个指令归纳任务和 21 个策划的 BIG-Bench 任务进行实验。如下图所示：

「生成任务」，作者对 106 名参与者进行了一项人类研究，以探索EmotionPrompt在GPT-4的开放式生成任务中的有效性，该评估基于三个不同的指标：绩效、真实性和责任。如下图所示：

通过以上结果可以发现，LLM拥有情商，并且可以通过情绪刺激来增强，在指令归纳中相对性能提高 8.00%，在 BIG-Bench 中相对性能提高 115%；人类研究表明，EmotionPrompt可以显着提高GPT生成性任务的表现（在表现、诚实度和责任指标方面平均提高 10.9%）。

结果分析

「为什么EmotionPrompt会有效？」

首先，它基于情感在人类交流和互动中起着至关重要的作用的想法。通过将情感刺激融入提示中，EmotionPrompt可以帮助LLMs更好地理解和回应人类情感，从而提高性能。其次，EmotionPrompt旨在设计简单易用，使其适用于广泛的用户。最后，研究表明，在大多数情况下，EmotionPrompt在提高LLM性能方面优于现有的提示工程方法，如CoT和APE，表明其有效性。

「影响EmotionPrompt的主要因素？」

EmotionPrompt的效果可能受到多种因素的影响，包括LLMs的特征、推理设置（温度）、任务复杂性、任务类型和使用的具体指标。每个刺激的性能也可能受到各种因素的影响，包括情感标签的数量和类型，以及情感标签的排列方式。

总结

本文作者提出了EmotionPrompt方法，通过情感刺激来研究大型语言模型的情感智能。研究结果表明，LLMs不仅理解情感，而且还可以通过情感刺激进行增强，从而显著提高任务性能、真实性和信息量。此外，本文还提供了深入的分析，探讨了EmotionPrompt背后的原理，并为人工智能和社会科学领域的潜在应用提供了启示。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-11-07，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能