据彭博社报道,马斯克倡导成立的一家AI研究机构OpenAI在2月14日展示了一款软件GPT2。只需给这款软件提供一些信息,它就能源源不断地编写足以乱真的虚假新闻。而它的逼真性,甚至达到了令研究人员不敢公开完整模型的程度……
资料图 图自网络
OpenAI表示,GPT2模型被恶意使用的风险过高,因此公司方面决定打破向公众公布全部研究成果的常规惯例,以便有更多时间讨论技术突破带来的各种后果。
“对于这项技术,我想到了一个形容——来自地狱的自动扶梯。”OpenAI的政策主管杰克·克拉克(Jack Clark)告诉《卫报》称。
“如果这样的系统落在不法分子的手中,那么,GPT2可能会成为一台挖掘机,挖出的只有无尽的痛苦和仇恨。”美国知名科技媒体The Verge评论道。
可写小说、编报道,还能问答和常识推理
据《卫报》介绍,GPT2的核心实际上就是一个文本生成器,在被输入从几个单词到一整页不等的文本后,它可以对之后的内容进行预测并续写。
事实上,类似的人工智能程序已不是首次出现。在2017年,一位名叫扎克·图特的软件工程师就曾让人工智能“循环神经网络”(RNN)学习《权利的游戏》原著前五卷的内容,并续写出了第六卷,引发了剧迷们的关注。
人工智能续写的小说文本
人工智能在这次尝试中也表现得可圈可点,许多预测与粉丝们一直以来的某些推测不谋而合。熟悉原著的读者可以看出,无论文风还是原作者马丁以一个角色名字作为开头的写作习惯,人工智能都较好地做到了“有样学样”。
只是,尽管时有亮点,但其续写的稿件中仍有很多地方从情节和语法上看,都不知所云。更重要的是,在剧情走向上,许多已经过世的角色甚至还会突然出现,让人怀疑它对于文本的理解程度是否还停留在较为浅显的层面,这也正是此前同类文稿撰写人工智能程序的共同缺点。
而相较于它的前辈,此次OpenAI展示出的GPT2软件则在产出的文本质量和潜在用途的广泛性上,均有了显著提高,甚至突破了人们此前对这类功能的想象边界——
当GPT2用于生成新文本时,它能与给定的样式和主题高度匹配,且文章也有足够的可信度。它也很少有之前其他人工智能编撰文字时出现的“怪病”,比如写着写着就忘记自己要写什么,或者在长难句中语序不通顺。
在公开展示中,当在GPT2中输入乔治·奥威尔的《一九八四》的开场白 “四月的一天,天气晴朗而寒冷,时钟敲响了13下”后,系统随即识别出这种基调和风格,并进行了续写:
我正在驱车前往西雅图,想在那里找一份新工作。我把油加进车子,把钥匙插进去,然后开始在路上飞驰着。我开始想象,那一天会是怎样,那一天是100年后……
《1984》作者乔治·奥威尔 图自Getty Image
而在“新闻”的写作上,GPT2同样表现出了自己的才华。
在提供给它一段《卫报》关于英国脱欧报道的前几段后,它立刻抛出一篇报纸文章,其中有不少对杰里米·科尔宾(英国工党领袖)的“引用”,对爱尔兰边境问题的提及,以及首相发言人对于这一问题的回答。其中一段完全捏造的内容是这样的:
特蕾莎·梅的发言人表示:“首相已经非常明白地阐述了她的意图,那就是尽快退出欧盟,英国女王已经在上周讲话中正式授权首相特蕾莎·梅的脱欧法案的谈判。”
而除了续写之外,GPT2还具备阅读理解、常识推理、问答、生成文章摘要、翻译等能力,并且根据数据显示,在表现上均超越此前专为特定领域打造的模型。
惊人“大脑”背后:数据集的文本体量达40GB
那么,GPT2为何能拥有如此惊人的“大脑”和创造力?
从研究角度来看,GPT2在两方面具有极强的开创性。OpenAI的研究主管达里奥·阿莫代(Dario Amodei)表示,其中一点就在于它的规模。GPT2的模型“相较以往大12倍,数据集相较于以往的AI模型也要大上15倍,范围也更广阔。它是在一个包含约1000万篇文章的数据集上进行训练,这个庞大的文本合计总体量达到40GB,折算成文字,相当于35000本《白鲸记》(超50万字的长篇小说)的体量。
文图无关 图据彭博社
正因如此,GPT2接受的数据量,直接影响了它输出文本的质量,使它对如何理解书面文本有了更多了解,这也导致了它在技术上的第二个突破,即GPT2比以前的AI的文本模型更通用。
通过分析输入的文本,GPT2可以执行翻译和摘要等任务,并通过简单的阅读理解测试,通常表现得与专门为这些任务构建的其他人工智能系统一样好或更好。
政策主管:“它是来自地狱的自动扶梯”
然而,这种品质也导致了OpenAI改变其推动人工智能向前发展的惯例——他们在评估了恶意用户可能借此技术进行何种操作后,他们慎重决定,在未来的一段时间内将GPT2“关在门后”,不公之于众。
“它可以生成连贯但不准确的虚假信息,其目的并不是很好。”OpenAI的政策主管杰克·克拉克说,“我们需要进行试验,看看它们能做什么,不能做什么。如果你不能预测一个模型的所有能力,那就必须要刺激它,看看它能做什么。”
“毕竟,比我们更善于思考它能做什么坏事儿的人,可比想象的多得多。”克拉克表示。
为了说明这到底意味着什么,OpenAI制作了GPT2的另一个版本,并在其中做了一些适度调整。这一版本的GPT2可以用来产生无限量的正面或负面的产品评论,足以构成对市场评价体系的干扰。而由于人工智能未经过滤的本质,垃圾邮件和假新闻也是另外两个明显的潜在缺点。
由于GPT2是互联网训练的产物,因此,它更容易走上生产充满偏见性、阴谋论文本的“邪路”。
“对此,我有一个形容——来自地狱的自动扶梯。”克拉克说。
针对这一技术,纽约大学计算机科学家山姆·鲍曼(Sam Bowman)解读称:“它根据提示生成的文本相当惊人。从品质上讲,它所做的事比之前我们看到的复杂很多。”
彭博社介绍,实际上,对于语言处理技术,2018年可谓是成果颇丰的一年,在11月,谷歌开发出一种强大的算法BERT,可以理解并回答问题;在早些时候,艾伦人工智能研究所也在自然语言方面取得突破,开发出一种名叫Elmo的算法。
然而,软件能够编写过分逼真的虚假新闻并不是好事,甚至在某种程度上更像是打开了一个潘多拉盒子。
因此,欧洲监管机构已多次向科技企业发出警告称,如果科技公司不采取强有力的措施防止产品影响选民意愿,政府就会采取行动。
而针对此次OpenAI开发的工具,克拉克和鲍曼都认为,它虽然功能强大,但也并没有达到能立即带来威胁的程度。“这不是一项马上能投入使用的技术,应该说,这是好事。”克拉克表示。
红星新闻记者 翟佳琦 编译报道
编辑 汪垠涛
领取专属 10元无门槛券
私享最新 技术干货