这篇文章是“人工智能哲学”的一部分,这是一系列探讨人工智能在今天和未来的伦理、道德和社会影响的文章。
如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界?这是人工智能科学家几十年来一直争论不休的谜语。随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步,关于理解、意识和真正智能的讨论重新浮出水面。
许多科学家认为,深度学习模型只是大型统计机器,以复杂而非凡的方式将输入映射到输出。深度神经网络可能能够生成长篇连贯的文本,但它们不像人类那样理解抽象和具体的概念。
其他科学家不同意。在一篇关于 Medium 的长篇文章中,Google Research 的人工智能科学家 Blaise Aguera y Arcas 认为大型语言模型——在非常大的文本语料库上训练的深度学习模型——有很多东西可以教会我们“自然语言、理解力、智力、社会性和人格。”
大型语言模型
由于几个元素的融合,大型语言模型近年来越来越受欢迎:
1-数据的可用性:有大量的在线文本,例如维基百科、新闻网站和社交媒体,可用于训练语言任务的深度学习模型。
2-计算资源的可用性:大型语言模型包含数千亿个参数,需要昂贵的计算资源进行训练。随着谷歌、微软和 Facebook 等公司对深度学习和大语言模型的应用产生兴趣,他们已投入数十亿美元用于该领域的研发。
3-深度学习算法的进步:Transformers 是一种于 2017 年推出的深度学习架构,一直是自然语言处理和生成(NLP/NLG)最新进展的核心。
Transformers 的一大优势是它们可以通过无监督学习对非常多的未标记文本语料库进行训练。基本上,Transformer 所做的是将一串字母(或其他类型的数据)作为输入并预测序列中的下一个字母。它可以是问题后接答案、标题后接文章或用户在聊天对话中的提示。
众所周知,循环神经网络(RNN) 和长短期记忆网络 (LSTM) 是 Transformer 的前身,它们在保持长序列的连贯性方面非常糟糕。但是基于 Transformer 的语言模型(例如GPT-3)在文章长度的输出中表现出令人印象深刻的性能,并且它们不太容易出现其他类型的深度学习架构所犯的逻辑错误(尽管它们仍然在基本事实方面有自己的挣扎) . 此外,近年来已经表明语言模型的性能随着神经网络和训练数据集的大小而提高。
领取专属 10元无门槛券
私享最新 技术干货