时间过得真快,离当初开始「ChatGPT 对比与检测」这个科研项目已经过去了半年之久,而这半年,正是大模型(LLM)百花齐放、群模乱舞的半年,我当初也想不到,半年时间之内,国内外能突然迸发出这么多表现惊艳的大模型,整个NLP社区的研究范式、应用方式都发生了巨大变化。 (前情提要:首个人类-ChatGPT对比语料集开源!人工测评,语言学分析,检测器模型都在这里)
由于我们这个项目开展的很早(ChatGPT推出仅10天就开始了),因此在我们开源了数据集、模型之后,也受到了很多的关注。最近,我们这个项目被国际人工智能顶会 IJCAI 的大语言模型论坛(LLM@IJCAI'23)收录,并将于今年夏天在中国澳门做分享报告,欢迎朋友们一起来交流讨论。
这里汇报一下截至目前的项目成果:
mpt-7b-chat
模型和 UC Berkeley 的 Koala-13B
模型,二者均位于 MLsys 5月份LLM排行榜上前十名。我们这项研究涉及到 4 块内容:
下面,我们简要回顾一下每一块的具体内容:
ChatGPT对语言的掌握能力十分炸裂,文笔吊打一众理科生,同时由于ChatGPT基本掌握了世界知识,对各种常规问题可谓是信手拈来。对此,我们十分好奇,对于同一个问题,人类专家和ChatGPT分别会怎么作答。
怀着这样的动机,我们广泛了收集了各种领域中的人类专家回答:
然后,我们再爬取对应的ChatGPT对于这些问题的回答(当初我们开始收集数据的时候,ChatGPT还没有API,收集这么几万条数据可费了老劲了哈哈哈)。最后经过一些数据清洗、过滤,就得到了我们的HC3数据集:
下面是我们托管在 🤗Huggingface 平台上的数据集,可在线浏览(https://huggingface.co/Hello-SimpleAI):
前面提到过,HC3数据集被用于 MosaicML 的mpt-7b-chat
模型和 UC Berkeley 的 Koala-13B
模型的训练。然而,目前这些训练,都是没有真正利用到这个数据集最核心的“对比”这一点,而是直接把所有的问答对灌进去。我个人觉得一个有意思的研究点是分别使用HC3中的Human answers、ChatGPT answers训练两个不同的模型,然后进行对比,看看两个模型的差异,应该会有有趣的结论。
我们邀请了各行各业的志愿者(主要身边的亲朋好友),做了很多有趣的人工测评。主要包括:
结果如下:
主要结论就是:专家不好骗,图灵测试基本通不过,但是对于业余选手则可以通过;当有对比时,更容易判断哪个是ChatGPT产生的;ChatGPT在有用性方面,甚至可以媲美或超过人类专家。
当然,具体到不同领域上,结果也有差别,这里不再赘述。
词汇特征:
我们构造了一个指标为“词汇密度”(density),它统计的是在一批预料中,不同的词汇占总词汇的比例。结果显示,在我们收集的所有领域中,ChatGPT的词汇密度都显著低于人类。同时,看平均回答长度的话,人类的回答也大多都短于ChatGPT。这就很有意思了,说明人类说话信息含量更大,语言更浓缩。
词性、依存关系:
这里图比较多,我就只贴一个词性方面的结果简单说一下:
ChatGPT更喜欢使用名词、动词、代词、连词等,而人类则明显使用更多的副词、标点等。这些特点就是典型的官方/学术跟日常/口语的差别。
在依存关系方面,ChatGPT使用的句子的关系也更加复杂,关系跨度更长。
情感分析:
不出意外,中性肯定是自然文本中占比最大的。但是相比之下,ChatGPT的中性占比又显著更高。另外有意思的是,人类的负面情绪显著比ChatGPT高,这也是我们意想不到的。不过想一想也合理,人类太喜欢使用“调侃”、“嘲讽”这样的表达了,尤其是当提问者提的问题过于简单时(这个现象在知乎十分明显)。
困惑度(perplexity):
困惑度(perplexity)是计算语言学中常用的评价文本生成质量的一个指标,一般采用一些预训练语言模型来对一段文本进行概率的计算。一般来说,在自然语料中越常见的表达,语言模型的概率就越高,而对应的困惑度也越低。
从结果上看,人类语言的困惑度显著比ChatGPT高,而且是一个长尾分布,说明语言的多样性极高。相比之下,ChatGPT的语言就显得很单一,基本上都是在说一些“很常见的话”。这也是可以理解的,因为说“常见的话”最符合它在训练时的损失函数。
最后的部分,我们基于HC3数据集训练了几种不同类型的检测器,用来判断一短文本是否是AI产生的(主要针对ChatGPT)。具体我们采用了RoBERTa(深度学习)和GLTR(机器学习)两种方案,主要结果如下:
可见,深度学习方法还是要好很多。更多的实验细节、消融实验、OOD实验等这里也不赘述,感兴趣的读者可以阅读我们第一版的论文(https://arxiv.org/pdf/2301.07597.pdf),或等待新版的论文(包含更多实验)挂出。
我们把相关检测器模型,都开源到了 🤗Huggingface 平台(https://huggingface.co/Hello-SimpleAI):
大家可以下载到本地进行部署。如果想试用的话,可以直接访问我们的在线 demo(https://huggingface.co/spaces/Hello-SimpleAI/chatgpt-detector-single):
最后,介绍一下我们项目组成员:
:上海财经大学-信管学院-AI Lab 博士生,主攻NLP和以数据为中心的AI;(项目负责人)
:哈尔滨工业大学(深圳)计算机科学与技术专业 博士生,研究关注于NLP和多模态;
:上海财经大学-信管学院-AI Lab 博士生,研究方向为NLP和设计科学;
:上海财经大学-信管学院-AI Lab 博士生,主攻异常检测、NLP以及时序预测问题;
:北京语言大学-BLCU-ICALL实验室 博士生,主要研究可控文本生成与自然语言理解;
:西安电子科技大学-电子工程学院 博士生,研究方向为多模态模型与应用;
:加拿大皇后大学 计算机系 博士生,主要研究医学领域的NLP;
:万得信息技术有限公司 算法工程师,研究可信 NLP 和人机协同.
(前5位为项目论文的共同第一作者,但全部8位成员都为整个项目的推进起到了无可替代的作用)
难以忘记2022和2023交界的那个冬天,我们来自天南地北、跨越三个时区、六个大学/公司的志同道合的8个伙伴,怀着满腔热情,一起收集数据、写代码、做分析、写论文,只为了一探当今最强AI的谜底。能有这样一段合作经历,也是我博士生涯的一大幸事。
自项目推出以来,我们也收到了很多专家的宝贵建议,除了受到我们项目组成员本身所在实验室的老师同学们的帮助外,还收到包括武汉大学、北京语言大学、上海交通大学的老师、同学们的专业建议,指出我们的工作在语言学分析、人工测评等方面的不足,在这里表示感谢。由于我们项目组成员本身也都有自己的学业、工作,很多建议我们一直也没有时间和精力去做改进和探讨。
随着时间的推移,当获取ChatGPT语料本身已经不是问题,当各类大模型开始百花齐放,当大家对LLM的体验逐渐深刻,我们这项研究的历史使命也基本完成。这个项目能在ChatGPT诞生的早期,就为NLP社区提供了开源数据集、模型以及相关统计分析,并确确实实帮助到了一些后续研究、大模型开发,我们所有成员对此感到十分荣幸!我们期待一个更精彩、多元、开放的AI新时代~
欢迎大家关注我们的项目: