在过去的2023年里,互联网圈子最吸引眼球的话题莫过于大模型了。尤其是随着文心一言、讯飞星火、百川、通义千问、混元等国产大模型纷纷上线,“调戏”大模型成了网友们日常热衷的活动。然而,在运行了几个月之后,不少中文语言大模型出现了在训练时“相互借鉴”的现象。
12月初,谷歌推出了迄今为止规模最大,能力最强的大模型Gemini,然而就在上线不久后,网友就发现其似乎使用了其他大模型的的语料库:在使用Gemini Pro时,如果用简体中文连续询问“你好”和“你是谁”这两个问题时,Gemini Pro会表示“我是文心大模型”,还会信誓旦旦的表示自己的创始人是百度总裁李彦宏。
这个问题实际上不止出现了一次。去年3月,谷歌Bard被爆出使用了ShareGPT中的内容作为训练数据,并且根据The Information报道,这件事情还造成了Jacob Devlin从谷歌离职;去年12月,字节跳动被OpenAI禁止使用API接口,原因是“字节在使用ChatGPT训练自己的AI,违反了使用条例”。
根据中国科学技术信息研究院的统计,全国已有至少130家公司研究大模型产品,10亿级参数规模以上大模型至少已经发布了79个,其中做通用大模型的有78家,做垂直大模型的有52家,应用场景横跨客服、工业、医疗、汽车、游戏等多个领域。而在全球范围内,更多的LLM也在训练中。不少的企业会有意无意的使用其他大模型使用的数据集进行训练,或者直接利用其他大模型生成的数据进行训练。
在训练时“相互借鉴”的原因是,随着大模型领域的竞争进入了白热化阶段,数据已经成为了竞争的关键。一位大模型领域专家表示,大模型市场竞争的发令枪已经响起,“谁做的快”并不能主导竞争格局,“谁做的好”才是市场检验的标准。架构上难分高下,数据将成为“做得好”的关键。
大模型架构高下难分
“谁更强”是大语言模型(LLM)领域的一个重要课题,从大语言模型诞生的那一天起,就有无数开发者和研究者对这个问题展开了研究。数据工程师陈锋认为:“评估一个大语言模型不能仅仅用训练使用的数据量来进行对比,目前较为成熟的评估模式有两套。”
第一套是使用一套对话集对语言模型进行测试,这些对话包括不同的问题和指令,对语言模型的语义理解与抽取、闲聊、上下文对话、生成与创作、知识与百科、代码、逻辑推理、计算、角色扮演、安全等指标进行测试,根据其回答的正确性给分。因为测试维度较多,因此会形成数个包括综合能力、分类能力在内的榜单。
中文测试基准基本上都采取了这套评估方案,比如CLiB(中文大模型能力评测榜单)、SuperCLUE(中文通用大模型综合性基准)、C-Eval(中文基础模型评估套件)等
第二套是“竞技场”模式,如UC伯克利大学发布的LLM竞技场榜单,用户将同时与两个不同的语言模型进行对话并标记出更好的一个,好评越多则评分越高。
综合来看,几乎在所有榜单中GPT-4都获得了压倒性的胜利,排名前列的还有Claude和GPT-3.5。在中文榜单中,文心一言v2.2、商汤senseChat、讯飞星火v1.5、Baichuan-53B等语言模型名列前茅,在信息抽取、阅读理解、数据分析能力上各有胜负。
榜单中最值得注意的是开源模型Llama2,这款由Meta发布于今年7月19日的开源预训练大模型在大模型领域掀起了一场轩然大波——在70 亿、130 亿和 700 亿三种参数变体的测试结果中,Llama2击败了除GPT-4、GPT-3.5外几乎全部商用模型。陈锋说:“不少自研大模型的厂商开始考虑要不要放弃自研,用更便宜的开源模型,或在开源模型的基础上进行开发。”正如去年5月谷歌工程师在内部发言中表示的:“当免费的开源模型与商业模型质量相当时,人们不会为受限制的闭源模型付费。”
参数越多未必越好
陈锋认为,开源的Llama2从根本上拉平了商业模型之间的差距。在架构难以取得突破性进展之前,大语言模型领域的竞争就转向了训练数据的优劣。
2023年7月,一篇据信来自OpenAI员工的数据爆料中表示,OpenAI用13万亿个token训出了GPT-4,120层网络中总共有1.8万亿个参数。相较其他大模型,目前国内头部公司公布的参数量通常在千亿级别,其他企业或创业公司大模型参数量通常在百亿、十亿级别。
独立开发者王南认为,用更多的数据训练AI,这个思路本身是没有问题的。大语言模型的诞生本身就来自大量数据堆叠产生的“智能涌现”:当数据规模超过某个极限时,它们将展现出前所未有的新能力。王南表示,“通用大模型出现智能涌现的参数量一般认为是600亿,更多参数会不会再次出现智能涌现,谁也不知道。”
为大模型增加更多参数是非常昂贵的,除了更多的数据成本和更长的训练周期外,模型也要随着参数的增加而进行优化。
大模型是不能一蹴而就的。要处理天量的数据,模型必须针对大量数据的处理进行优化,很多工程问题是数据量较小时不会出现的。“就好像建造一座体育场,能容纳5000名观众和能容纳10万名观众的体育场面临的问题肯定不一样”,陈锋表示,“大模型也是这样,参数越多需要解决的问题就越多,开发的成本就越高。这个成本的增加不是线性的,而是指数增长。”
与指数提高的成本不同,参数量增加对于提高模型性能的帮助是有限的。“在十亿、百亿参数的级别上,提高参数量的效果是显著的。但到千亿万亿等级,增加参数量对模型能力的提升就比较小了。”
因此,将模型参数控制在百亿到千亿级别是综合训练成本和模型能力之后的必然结果。
垂直大模型成为商业化答案
当大模型架构和参数量都被限制在一个狭窄的区域内后,大模型领域的竞争力从何而来?
去年《纽约时报》报道了一起离奇的案件。一位律师用ChatGPT生成了一份辩护状并提交给了法院,法官随即发现辩护状中引用的十多个判例全部都是虚构的。这种人工智能“胡说八道”的现象被称为“人工智能幻觉”,目前几乎所有的大语言模型都会出现这种问题。
毫无疑问,这些幻觉是阻碍大模型应用的关键因素之一,而业界目前对这个问题基本几乎束手无策。
问题的源头是数据。王南认为,“一旦对大模型的高质量数据筛选和训练得过少,大模型就会出现输出质量问题,幻觉也会随之而来。 但对于通用大模型来说,将人类所有领域知识转化为高质量数据进行训练显然只能是一个美好的愿望,唯一的方案是基于通用大模型针对不同的场景进行训练,越垂直出错的概率就越低。”
基于这种现状,在通用大模型之外,面向特定应用场景的垂直领域大模型成为了大模型领域的竞争焦点。
王南说,“利用垂直领域的、高质量的数据训练出的垂直大模型,具有更强的领域专业性和任务针对性,能够更好地解决特定领域的问题、提供更加精准的服务。”
垂直大模型已经成为大模型商业化的核心,大模型头部玩家纷纷推出了基于自身数据、硬件和模型的Maas(大模型即服务)。百度推出了百度智能云千帆大模型平台,阿里推出了魔搭社区,华为则针对不同行业推出了盘古NLP、盘古CV、盘古多模态等多个模型。
数据质量决定垂直大模型质量
Maas的核心除了硬件外,最重要的就是大量基于垂直领域的数据。
用于语言大模型训练的数据被称为“NLP数据集”,是将语料库中的文字资料进行分类整理后的结构化数据,是语言大模型的“教科书”。通用大模型使用的数据集往往包罗万象,来自书籍、网页、新闻、社交媒体等多个来源的数据共同组成了大模型的“知识库”。
王南表示,这些数据一部分是来自互联网的公开数据,也就是所谓的“开源数据集”。最知名的开源数据集来自维基百科,“维基百科中的文本很有价值,因为它被严格引用,以说明性文字形式写成,并且跨越多种语言和领域。”截止2023年9月15日,英文维基百科共有超过600万个条目和5900万个页面,包含超40亿个词,经过清洗、过滤后可以为大模型提供30亿个token。
但维基百科这样高质量的网页仅仅是个例,虽然其他网站的网页内容也会被用于训练大模型,这些数据总量极大,需要以PB计算,而且可以通过common crawl这类提供商免费获取。问题在于,这些网页往往内容杂乱,充斥着大量的色情、暴力、诈骗和机器人生成的垃圾信息。仅仅是将这一部分数据进行清洗、过滤、标注就需要花费大量人力物力。
而高质量的开源数据集则少之又少,针对特定领域的数据集更是凤毛麟角,王南说:“少数开源的垂直领域数据集往往体量小,数据旧,很难用于构建能在特定应用场景中使用的大模型。”
因此,高质量数据的价值在大模型成为新的热点后逐渐突显,数据已经成为大模型厂商竞争的核心。
数据是大模型时代的护城河
训练垂直于应用场景的大模型需要大量专有数据,即某一个领域、语言、行业的特有数据。比如对话、书籍、代码、技术报告、论文考试等数据。
在大模型能力评价体系中名列前茅的GPT-3.5、GPT-4、PaLM等模型的训练过程中,就大量用到了专有数据。根据公开的信息,GPT-3.5训练数据中包含2TB的高质量书籍数据和大量来自推特、reddit的社交媒体对话数据。
专有数据往往是不对公众开放的。去年 Reddit宣布开始向访问其API的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话;7月,社交网络X(原推特)宣布限制用户每日访问数量,以遏制人工智能企业抓取数据训练模型;9月,X又更改了隐私协议,并宣布开始出售基于用户发布内容的语料库。
能够买到的数据仅仅是专有数据的一小部分。王南展示了GPT-3.5训练数据的构成,其中使用的书籍数据高达2TB,而开源的The pile提供的Book3数据集才85GB左右,较OpenAI使用的数据集小了数十倍。
许多高质量数据实际上被互联网企业牢牢把握在自己手中。用户使用互联网企业时产生的大量数据成为了互联网企业的“护城河”,企业本身可以随意使用这些数据,但其他企业想要获得这些数据则难之又难。
以Meta为例,Meta自成立以来,通过旗下的社交媒体Facebook、Instagram几乎垄断了全球大多数国家的社交媒体市场。从社交媒体服务衍生出的广告、即时通信、VR等服务也逐渐占据了市场主导地位。用户产生的数据在Meta不同的业务线条之间进行流动,产生更多的价值,最终造就了一个横跨全球的互联网巨头。
在Meta建立的这个体系当中,Meta本身研发的技术和用户使用其产品时产生的数据,共同组成了Meta的护城河,无法获得用户数据的其他互联网企业很难提供与Meta相同的服务。而在语言大模型的领域中,Meta开源了其研发的高性能架构Llama2也并不会为Meta在竞争中带来劣势——拥有大量高质量数据的Meta先天就拥有巨大的优势,能在这方面与Meta扳手腕的巨头在全球也寥寥无几。
OpenAI也是如此,不过它的数据护城河还有另外一条:用户与AI对话的数据。OpenAI向用户免费开放ChatGPT的一个重要原因就是收集这些数据用于训练新的GPT。这也是各大厂商迅速向用户免费开放大语言模型的原因之一。
正如谷歌工程师在内部文件中表示的,“我们没有护城河,OpenAI 也没有”,在开源大模型表现优异的情况下,模型本身不能成为互联网企业的护城河,只有数据才能让互联网企业在大模型竞争中夺得先机。