“我们目前的建议是,我们应该非常小心,也许应该尽量避免使用这些检测器。”美国斯坦福大学的通讯作者James Zou说:“如果这些检测器被用来审查工作申请、大学入学论文或高中作业等东西,可能会产生重大后果。”
7月10日发表在细胞出版社(Cell Press)旗下期刊Patterns的一篇同行评议观点论文中,研究人员指出,通常用于确定文本是否由人工智能撰写的计算机程序往往会错误地将非母语人士撰写的文章标记为人工智能生成。研究人员警告说,不要使用这种人工智能文本检测器,因为它们不可靠,可能会对包括学生和求职者在内的个人产生负面影响。
“我们目前的建议是,我们应该非常小心,也许应该尽量避免使用这些检测器。”美国斯坦福大学的通讯作者James Zou说:“如果这些检测器被用来审查工作申请、大学入学论文或高中作业等东西,可能会产生重大后果。”
像OpenAI的ChatGPT聊天机器人这样的人工智能工具可以撰写文章,解决科学和数学问题,并生成计算机代码。美国各地的教育工作者越来越关注人工智能在学生作业中的应用,他们中的许多人已经开始使用GPT检测器来筛选学生的作业。这些检测器是声称能够识别文本是否由人工智能生成的平台,但它们的可靠性和有效性尚未经过测试。
Zou和他的团队对7种流行的GPT检测器进行了测试。他们对91篇由母语非英语人士撰写的英语文章进行了检测,这些文章是为了参加一项被广泛认可的英语水平测试,即托福(简称TOEFL)。这些平台错误地将一半以上的文章标记为人工智能生成,其中一个检测器将近98%的文章标记为由人工智能撰写的。相比之下,检测器能够正确地将90%以上的由美国八年级学生所写的文章分类为人类生成的文章。
Zou解释说,这些检测器的算法通过评估文本困惑度来工作,即一篇文章中单词选择令人惊讶的程度。“如果你使用常见的英语单词,检测器会给出较低的困惑分数,这意味着我的文章很可能被标记为人工智能生成的。如果你使用复杂和花哨的词汇,那么它更有可能被算法归类为人类写作,”他说。Zou补充说,这是因为像ChatGPT这样的大型语言模型经过训练,可以生成低困惑度的文本,从而更好地模拟普通人的说话方式。
因此,英语非母语作家采用的更简单的词汇选择,将使他们更容易被贴上使用人工智能的标签。
然后,该团队将人工撰写的托福作文输入ChatGPT,并提示它使用更复杂的语言编辑文本,包括用复杂的词汇替换简单的单词。GPT探测器最终将这些人工智能编辑的文章标记为人类撰写。
Zou说:“我们应该非常谨慎地在课堂环境中使用任何这些检测器,因为仍然存在很多偏差,而且它们很容易被最少量的提示设计所愚弄。”使用GPT检测器还可能在教育部门之外产生影响。例如,像谷歌这样的搜索引擎使人工智能生成的内容贬值,这可能会在无意中使英语非母语的作家受到压制。
虽然人工智能工具可以对学生的学习产生积极影响,但GPT检测器在投入使用之前应该得到进一步加强和评估。Zou说,用更多不同类型的文字训练这些算法可能是改进这些检测器的一种方法。
阅读论文:https://www.cell.com/patterns/fulltext/S2666-3899(23)00130-7
了解更多最新研究,请关注Cell Press细胞出版社官方微信“CellPress细胞科学”
领取专属 10元无门槛券
私享最新 技术干货