摘要
去年 10 月,专注开发语言智能的出门问问立项开始做中文版 GPT-3,参数量为百亿量级。但这个时候,业内已经有万亿模型发布。
去年人工智能领域最「出圈」的科研成果是 GPT-3,这个由 OpenAI 开发的自然语言处理模型,身上有着太多话题点。
GPT-3 模型达到千亿级参数;一个语言模型却还能算术、编程,相比专用 AI,GPT-3 更「通用」;这样「一位科科都是高分的全才」,在学习过程中居然是无监督、完全自主驱动的;以及,它猛灌数据量的极端做法,系统有上万个 CPU/GPU 在 24 小时不间断地吞食互联网文本,运算一次要花 450 万美元。
就这样,AlphaGo 之后的又一座里程碑立起来了。中国公司也开始了「做自己的 GPT-3」的探索。去年 10 月,专注开发语言智能的出门问问立项开始做 UCLAI——用中文语料训练的中文版 GPT-3,参数量为百亿量级。但这个时候,业内已经有万亿模型发布,超越里程碑才能发出声量,那出门问问为什么还要复制一个「缩小版」的 GPT-3?
而且,他们基于这个语言模型开发了一个可以实现文言文和白话文互译的小程序「古文宝」;并开源一个极大简化语音识别训练流程的端到端的深度学习模型 WeNet。这让我们对出门问问如何思考 AI 趋势和商业化产生了好奇。
「说实话去年 5 月 GPT-3 的论文出来时,我感觉就是一帮『土豪』用大量的金钱、数据、计算资源堆起来的产物。」出门问问的工程师林士翔告诉极客公园,「我们眼睛亮了。OpenAI 后来开放了他们的 API,开发者们开始用它做出各种应用。过去从来没有任何一个模型,可以只给少数的任务相关的训练样例,就能快速将模型适配成具备执行该任务的能力,真的是大力出奇迹。」
几乎是同一时间,这家公司开始研究 GPT-3 的算法。「主要还是因为我们不像巨头那样有那么大的可用算力资源支撑模型训练,」林士翔坦白的同时,也提出了自己的质疑,「目前市场上除了 GPT-3 外,其他号称千亿甚至是万亿参数模型所采用的方法比较取巧,他们利用多专家模型(MoE),以横向扩展的方式将多个小模型组在一起,堆叠成一超大模型。他们看起来很大很厉害,但模型参数没被有效利用,会不会是『虚胖』?」
也因此,他们打算先走一遍难走的路:先不追求极端的模型参数量,先参照 GPT-3 实打实地用超大规模分布式计算,再解决各种数据并行与模型并行等复杂问题。
去年 8 月,出门问问的创始人兼 CEO 李志飞告诉极客公园,猛灌数据、烧钱耗力的 GPT-3「不全是」巨头的游戏,「很多模型或算法的难点在于没有实现前,我们不知道行不行。在 OpenAI 证明 GPT-3 可行性之后,创业公司可以开始用 GPT-3 的 API 去进一步验证他们的强项和弱项。」
于是,他们「复制」了 GPT-3 的实现路径,做出了中文语言通用平台——UCLAI。「很多系统第一次做出来的时候特别难,但是很快就有特别多的优化,这个成本大幅度降低,你就可以做出同样甚至更好的系统。」李志飞说道。问及投入成本,项目负责人回答 UCLAI 大概投入 10 人规模团队,时间半年。
从去年立项打造 UCLAI 开始,出门问问一开始照着 GPT-3 的论文描述,一成不变地去复现模型,借由大量的实验,进一步了解模型的内在相关运作机制和表现,以及洞察为什么小样本学习能够运作还有模型结构上有什么局限性。
接着,改造开始了。团队开始着手修改他们的「GPT-3」,如中文专用词典、双向上下文建模、稀疏注意力机制等。
做出中文版 GPT-3,终究还是要落在服务公司业务上。「出门问问主要的核心竞争力在于全栈式的语音交互解决方案,所以我们现在也在研发将模型从纯文本单模态,延伸至同时能处理文本 / 声音 / 图像的单一多模态模型。
林士翔解释,出门问问主要在经营的有「听说读写」四个模块,「听」指的是语音识别,对应 AI + 可穿戴业务;「说」指的是语音合成,对应 AI + 办公效率;「读」指自然语言处理 / 计算机视觉,对应 AI + 车载;「写」指文本生成 / 图像生成。
现在团队在实践的就是将「听说读写」四个模块都放到 UCLAI 这个多模态单一通用模型上跑。但因为声音、图像、文本对于机器来说,都是不一样的信号,要做到各种模态能被理解、转换、表示仍是不小的挑战。
「现在用一个通用模型去处理,能达到的效率只是原来多个专用模型加起来的效率的六到七成。」林士翔说,「对于我们这种创业公司来说,假设我们之前要给每个模型配 3 个人,4 个模型就是 12 个人,那为什么我们不让这 12 个人集中精力就做一个通用的模型?这样的话,我们的研发成果可以相互积累,而且可以相互共用。另外,如何让这大模型可以更轻量化或更可控的工业化落地也是我们未来一个重要的研发方向。」
怎么把自然语言模型的魅力展示给普通大众,林士翔说做文本分类和情感分析「大众比较无感」,但用 AI 赋能古文却是每个人中国人都能共情的。
现有互联网上带有白话文翻读的古诗词大约在几千到几万篇,数十万篇诗词只有本文没任何白话翻译,更遑论其他中国经典古文,不是四散在互联网上不同平台网站里,就是以纸本方式存在,不能像互联网一样能让知识快速传播。
随着计算机科技的进步,互联网上开始出现利用计算机进行古文翻译的服务,但大多数的方法不外乎:根据汉语词典或规则查表进行逐词翻译;或是利用数据库进行片段信息检索的方式翻译,这些方法往往忽略了文章里上下文的信息,因此翻译出来的结果跟原文的意思南辕北辙,或是翻译完的文章跟原文一模一样,没做任何改变。
于是,出门问问在 UCLAI 模型的基础上数百 G 互联网上的中文语料收集及清洗,以及利用数百张英伟达 V-100GPU 显卡,完成了百亿级参数量的模型训练。
得益于模型对语言知识的建模能力,古文宝不仅能将文言文翻译成白话文,甚至是其他外语,对白话文翻译成文言文的能力也是不在话下。出门问问还针对 GPT-3 底层的 Transfomer 架构进一步改造优化,让模型除了可以处理文本信息外,也具备生成图像与声音的能力,古文宝除了自动翻译出对应的古文外,还会跟据内容自动生成一张古画。
古文宝翻译效果展示|出门问问
「古文宝的发布只是一个开始,我们也乐见更多对中文有研究的机构或学者能和我们一起合作,大家协力让语言智能黑科技做得更好,能将中国传统文化以更多元的方式普惠大众。」李志飞说。
但目前,古文宝目前也还有一些问题待解决?比如,诗句与生成古画之间的内在关联度、古画的解析度、文言文转白话文的翻译质量等还需继续提升。
团队还透露,除了古文宝之外,团队还在做一个用 AI 合成音乐的项目,「你给我一个音乐的前奏,给我一段歌词,系统可以自动生成出一首歌来,而且是可以唱出来的。它会是一首全新的歌。」让 AI 为中国传统文化的传承赋能,同时也让中国人更多才多艺,是 UCLAI 的实用愿景。
1903 年 12 月 17 日,莱特兄弟首次试飞了完全受控、依靠自身动力、机身比空气重、持续滞空不落地的飞机,也就是世界上第一架飞机「飞行者一号」。
「他们当时并不完全理解空气动力学,但却知道了飞机飞起来这种可能性,」李志飞说,飞机和 GPT-3 的探索很像,都是一种「先求其然,再求其所以然」的方法论,「当我们知道了它的极限情况,知道了它能干嘛,再去琢磨它实现的原理。」
当然,模型越复杂,它的不可解释性就越高。李志飞也坦言现在还不是在「破译」GPT-3 其所以然的阶段,「我们知道了 GPT-3 可行后,它模型太大了,训练成本太高了,那就先把成本降下来。」
先顺应科技发展的趋势,再对其优化,落地,产生商业价值,这是出门问问的「实用主义」。
今年 2 月,出门问问推出了全球首个面向产品和工业界的端到端语音识别开源工具——WeNet。在正式发布后短短六个月的时间里,WeNet 在世界最大的代码托管平台 Github 上获得超过 1000 个 star,成为当前最流行的产品级端到端语音识别框架。
李志飞解释道,「之前,如果你想训练一个语音识别器,用 Pipeline 实现步骤复杂,需要分好几个步骤推进,而且在每一步里都要有专门做语言模型、声学模型、信号处理……但用 WeNet 是很简单了,因为它端到端的特性,只有输入和输出,没有中间那些步骤。」
WeNet 专注在语音识别这个任务上,这和支持语音任务类型更多的工具(比如 EspNet 和 SpeechBrain)不同,WeNet 追求小而美,小而精。WeNet 的出现解决了目前主流语音开源工具之痛点,且各项性能指标达到业界最优,成为世界级技术领先的开源工具。因为其非常易于产品化,在工业界和高校已有广泛的应用,被誉为「产品化集成度最好的框架」。同时,出门问问也为企业使用 WeNet 部署语音识别提供商业化和技术支持。若确有非常好的其他语音任务可以拓展,WeNet 会单独组建其他项目来支持。
这和出门问问「复制」GPT-3 的思路其实是一致的,都是「产品优化」的思路,离 AI 通用还有距离,先思考如何更好地解决业内现有的问题。
「端到端的基于 Transformer 的深度学习的模型能有最好的效果,这是有目共睹的,WeNet 能这么受欢迎,不是我们厉害,是我们相信端到端的基于 Transformer 的深度学习。」李志飞说。
从出门问问对 GPT-3 和其他技术趋势的理解和实践,都能看出他们是「实用主义」的信徒。飞机先飞起来了,在还没能完全理解它之所以能起飞的原理之前,先学着飞是积极的探索。
本文由极客公园 GeekPark 原创发布
领取专属 10元无门槛券
私享最新 技术干货