我们可以发现,身边用的各种先进的聊天机器人并不能保持良好的对话,但AI系统在生成书面文字方面肯定会越来越好。最近发现一个好玩的新的Web应用程序,它提供了充足的证据,让任何人都可以输入AI软件自动响应的文本提示。
输入一篇虚构的新闻文章的开头,它将为您完成剩下的部分。问一个问题(建议格式化你的输入:“问:今天我该怎么做?”),那么它的回应是很不错的。
探秘
该网站名为TalkToTransformer.com,「链接」它是加拿大工程师Adam King的创作。 King创建了该网站,但基础技术来自研究实验室OpenAI。今年早些时候,OpenAI推出了新的AI语言系统GPT-2,而TalkToTransformer是该技术的精简版,可访问版本,过去只有经过筛选的部分科学家和记者才能访问。 (名称“变压器”是指GPT-2和其他系统使用的神经网络类型。)
该模型称为GPT-2(GPT的继承者),它被训练成仅用于预测40GB互联网文本中的下一个单词。由于我们担心该技术被恶意应用,我们不会发布经过训练的模型。作为一个负责任披露的实验,我们转而发布了一个小得多的模型供研究人员实验,以及一篇技术论文。
GPT-2是一个大型的基于转换的语言模型,具有15亿个参数,在数据集上进行训练。我们通过从互联网上抓取内容创建了一个强调内容多样性的新数据集。为了保持文档的质量,我们只使用了经过人工筛选的页面。 GPT-2训练有一个简单的目标:根据某些文本中的所有先前单词预测下一个单词。数据集的多样性导致这个简单的目标包含跨不同领域的许多任务的自然发生的演示。 GPT-2是GPT的直接放大,其参数超过10倍,并且训练的数据量超过10倍。
GPT-2显示了一系列广泛的功能,包括生成前所未有的质量的条件合成文本样本的能力,我们使用输入对模型进行填充,并使其生成冗长的延续。此外,GPT-2优于在特定领域(如维基百科、新闻或书籍)训练的其他语言模型,而无需使用这些特定领域的训练数据集。在诸如问答、阅读理解、总结和翻译等语言任务上,GPT-2开始从原始文本中学习这些任务,不使用任务特定的训练数据。虽然这些下游任务的得分未达到最先进的水平,但他们建议,只要有足够的(未标记的)数据和计算,任务可以从无监督技术中受益。
正如上面的示例所示,我们的模型能够从感觉接近人类质量的各种提示中生成样本示例,并在页面或更多文本上显示一致性。然而,我们已经观察到各种失效模式,例如重复文本、世界建模失败(例如,模型有时会写的是在水下发生的火灾),以及非自然的主题切换。探索语言模型的这些类型的弱点是自然语言处理社区中一个活跃的研究领域。
总的来说,我们发现需要花费一些时间来获得一个好的样本,尝试次数取决于模型对上下文的熟悉程度。当提示数据中高度代表性的主题(如指环王)时,似乎能够在大约50%的时间内就生成合理的样本。相反的情况也是如此:对于技术含量高或内容类型较高的内容,该模型的表现可能不佳。微调提供了对生成的样本进行更详细控制的潜力。例如,我们可以在Amazon Reviews数据集上微调GPT-2,并使用它来让我们根据星级和类别等内容编写评论。
这些样本具有重大的含义:大型语言模型越来越容易引导可扩展、定制、连贯的文本生成,而这些文本生成又可以以多种有益和恶意的方式使用。我们将在下面更详细地讨论这些含义,并根据这些考虑,概述我们正在进行的发布实验。
Zero-shot
GPT-2在各种特定领域的语言建模任务中获得了最先进的分数。 我们的模型没有针对任何这些任务的任何数据进行过训练,只是作为最终测试进行评估; 这被称为“Zero-shot”设置。 在对这些相同数据集进行评估时,GPT-2的性能优于在特定领域数据集(例如维基百科、新闻、书籍)上训练的模型。 下表显示了我们所有最先进的Zero-shot的拍摄结果。
(+)表示此域名的分数越高越好。 ( - )表示分数越低越好。
GPT-2在Winograd模式、LAMBADA和其他语言建模任务上实现了最先进的技术
在其他语言任务中,例如问答、阅读理解、总结和翻译,我们可以在不对模型进行任何微调的情况下获得不错的结果,只需通过正确的方式提示训练模型,尽管我们仍然没有达到专业系统的最新技术水平。
我们假设由于这些任务是通用语言建模的一个子集,我们可以预期性能会随着更多的计算和数据而进一步增加。 其他人也发表了类似的假设。 尽管我们尚未进行彻底的实验,但我们还希望进行微调以帮助完成下游任务的性能。
了解从现在开始
如果你想了解人工智能语言的产生,那么除了使用TalkToTransformer之外,没有更好的方法来理解它的巨大潜力和严重的局限性。
从好的方面来说,该模型非常灵活。它能够识别各种各样的输入,从新闻文章和故事到歌词、诗歌、食谱、代码和HTML。它甚至可以识别哈利波特和指环王等系列电影中我们很熟悉的角色。
与此同时,您很快就会发现,从根本上讲,系统并不了解语言或整个世界。它生成的文本具有表面上的一致性,但没有长期的结构。例如,当它写故事时,字符随机出现和消失,其需求或动作没有一致性。当它产生对话时,就会漫无目的地从一个话题转移到另一个话题。如果它得到的反应不止几个,那似乎是好运,而不是技能。
请记住:这是一种学习通过研究从Web和其他来源中抓取的大型数据集来生成文本的算法。它通过在这些信息中寻找模式来学习,结果是一个令人惊讶的多才多艺的系统。
在GPT-2的知识中找到差距可能并不困难,但是不可能知道你是否已经探究了它能做什么的极限。
领取专属 10元无门槛券
私享最新 技术干货