7月15日,由爱分析主办的大模型网络研讨会成功举行,本次研讨会围绕着企业落地大模型的场景和路径展开,爱分析也邀请到了Grab算法总监陈嘉为我们带来了《企业用户的大模型实践》主题分享。
陈嘉将视角聚焦在大模型能力边界的拓展和企业落地的范式及场景,通过企业内部的实际案例剖析,为我们深入讲解了企业在大模型落地过程中所面对的挑战和具体解决路径。
现将陈嘉的演讲实录整理后分享如下。
陈嘉:大家好,我是来自Grab的算法总监陈嘉,很高兴今天能做这样一个大模型的主题分享。
01
大模型能力及边界
1.1 Grab介绍
首先介绍一下Grab,我们的总部位于新加坡,目前是东南亚市场份额占比最大的兼顾打车、外卖、支付等功能的一体化平台,平台采用B2C和C2C的模式,因此存在大量的用户交互场景,公司内部也有着比较庞大的研发、运营以及本地化的的团队。
我本人从事算法研发和机器学习已经有十几年的时间,在NLP、机器学习、视觉预测、推荐等领域都有所涉及,最近三年多的时间主要是在Grab的算法团队从事研发工作,近一年主要精力也放在推动公司各个领域中大模型相关的研发战略和场景探索,以及各个场景的落地工作。
1.2 大模型定义及优势
我们先聊一聊大模型本身。大模型首先是一个机器学习模型,它的本质是从数据中寻找模式,并且把这个模式记录下来,当下一个场景出现时,它可以基于此做出相应的预测。
最简单的机器学习其实是预先给出大量输入并记录输出结果,遇到新问题时就去找到一模一样的问题并输出对应的答案。
当新问题和老问题不一样时,就需要找到几个相似的老问题,把答案综合起来拟合出新的答案,做出插值。这个时候我们其实希望模型能够挖掘出规律,并能把规律推广到新的场景中。
1.3 大模型的成功应用需要数据支撑
我们今天讲的大模型其实就是在做这一系列的事情,但是大模型不光能做单纯的蛮力记忆,也可以像内插值一样融合多个数据,并生成一个答案。至于外插值方面,大模型有时会出现涌现新知识的能力啊,但与之对应的,它有可能得出完全背道而驰的结果。
那么大模型能够记忆的知识和内容包括哪一些呢?小模型其实只能做到词级别或者句子级别的关联,但大模型却可以做到更高阶的多层次关联,与之相对应的,大模型能记忆和生成更多内容,也就因此衍生出了对话功能。
基于以上逻辑,在文图生成这个场景下,大模型凭借着记忆实现文本和图像的关联,并根据文本的描述将搜索图片运用高阶逻辑组合,从而匹配需求的场景。代码生成也是一样的逻辑,本质上是代码和代码之间的高阶逻辑被记忆下来,并实现了最终的预测。
所以总结下来,任何场景想要成功应用大模型,我们要考虑的核心因素是它的数据是否存在规律,模型能不能在其中找到合理的规律。
02
大模型在企业内部的落地实践
2.1 企业应用场景分类
宏观来看,大模型在企业应用比较成熟的主要是文本、图像、语音这三大方向,主要原因是这些领域已公开的大模型功能性强、数据量足够大、应用场景明确,并且有着十余年的研发积累,已经来到能产生理想效果的临界点。
下面我会聊聊在企业场景下,大模型具体的应用落地有哪些规律和方法。我个人会把企业应用场景划分为三大类:提升消费者体验,提高员工生产力,快速创新和实验。
2.2 大模型能够提高消费者体验
首先讲大模型如何提高消费者体验。
我们企业主要面对的是ToC场景,会涉及到消费者和客户体验,这其中的重点便是这部分人群的增长和粘性。对于用户基数大、用户和产品交互频繁,且交互过程中有大量的文本、图片、语音等多媒体内容的场景时,我们认为大模型,尤其是生成式大模型会有比较大的应用空间。
举一个例子,Grab的送餐外卖场景中需要商家上传菜品名称,那么这个菜名意味着什么?里面有没有更多更丰富的信息呢?我们其实可以用到大模型进行挖掘探索,比如说水煮肉是什么菜式?其中有什么配料?它的做法是怎样的?我们认为如果此类信息能给用户带来更多的价值,就可以认为大模型在这个过程中通过做加法带来用户体验的提升,但这样的工作如果动用人工去做反倒是不太容易,或者成本太高,或者质量参差。
再讲一个做减法的案例。在餐饮平台中用户会看到大量的对产品或者商家的评论,有时可能会长达几十页,在这个场景下如果用大模型做出减法,例如去做一个摘要把重点拎出来,这时候用户就能够快速、直接、简单的获取到信息。所以说,做加法和做减法是我觉得在消费者应用场景的两个重点的范式。
我们所处的是东南亚这个跨国和跨语言的市场,所以也随之诞生了利用大语言模型进行翻译的场景。虽然我们可以用Google或自研模型去做翻译,但是大语言模型在特定的翻译场景(比如应用场景和上下文信息给得足够好时),其实是能够起到事半功倍的效果,快速地帮助我们把大量内容以一个让用户很舒服且风格非常匹配方式生成出来,并且做出翻译。我们也会用人工方式去进行翻译工作,但有的场景下模型生成的翻译结果以及语言表达会比人工翻译的效果更胜一筹。
2.3 大模型能够提升员工生产力
其次再聊聊大模型提升员工生产力,也就是降本增效的场景。我们有着庞大的研发和运营团队,公司发展历程中所涉及到代码和文档沉淀是非常重要的。
另外因为我们需要面向大量消费者传递信息,所以也要花很多人力和时间成本在绘图之类的多媒体内容上。我们内部其实开发了一些相关内容生成工具,降低成本,并且加快迭代的流程,对整体的生产效率也产生了比较大的提升。
2.4 大模型能够帮助企业快速的创新和实验
最后是要讲的是快速的创新和实验。在NLP、视觉预测、语音预测这些技术领域上,传统都是知识密集型和成本密集型,它的研发周期相对较长,要得到好的效果所需要的数据量也会随之比较大。这也就导致了有一些公司想要采用这些技术,但是根本没有特别多的数据可供使用。
大模型的出现可以快速让一个企业具备在这些技术领域上的基础能力,比如知识图谱生成、视觉目标检测分割、语音生成识别等技术都已经非常接近此前的专用模型,有大量的应用都被大模型推动到了几乎可接受的体验。从企业角度讲,有了这些能力就可以快速地把它接入产品或者系统去做集成测试和试错,因此我们认为大模型也是可能会打破一些企业研发创新进程和产品迭代的范式。
2.5 大模型在企业落地场景的拆分
接下来我会从另一个角度把企业落地的场景做出拆分,一方面从数据和内容的维度拆解,主要是按文本和图像来区分;另一方面则是考虑利用到模型能力的角度,即怎样利用模型的原生能力,以及怎样集成业务和场景。
文本和图像的划分比较容易理解,依据是根据生成内容的差异。那么另外一个维度,什么叫模型的原生能力呢?原生能力就是从大模型公开的数据里面抽取的模式或者知识,像是文本场景中的一些对话能力,信息提取能力,文案生成能力等等,这些能力跟企业的业务逻辑可能没有直接关系,但对企业依然是有有价值的;在企业的视觉领域场景中,每个企业也都有着自己的IP、设计、视觉风格等元素。
2.6 大模型与业务场景结合的具体路径
在以上提到的这些情况下,大模型要怎么跟一个具体的业务场景做结合并快速实现价值呢?
我列举了一个实现路径的建议,整体的出发点核心是先易后难,也就是先采用高质量低成本的方式做验证,然后再决定要涉足多深,投入多大。
第一,建议先接效果最好的API做尝试,例如OpenAI或者Claude,并用公开数据或者模拟数据验证一下效果如何,因为这些模型其实决定了目前为止性能和精度的上限。
第二,如果有图像生成和分析上面的应用,同样可以先用效果好的大模型去做尝试,图像领域等开源模型成熟度其实会更好一点。
第三,在内部业务场景中如果有业务知识、规则和逻辑逻辑集成的需求,我的建议是先增加搜索功能,搜索现在相对比较成熟,实际部署难度不高,并且用一些质量不错的Sentence level embedding 的小一点的模型,它的效率、性能也完全没有问题。
第四,在图像领域如果想获得企业特有的风格可以大胆地去尝试微调,目前也有在微调方面也有比较成熟的模型和方法,例如ControlNet就可以对生成结果做到很好的控制。
第五,如果刚才讲的语义搜索不能解决企业内部知识管理和获取的需求,并且企业积累的资源比较多的情况下,其实可以尝试文本生成模型的微调,但它相对于图片生成会更难一些。我们相信,后续模型和算法的发展会使得这一部分的效果在未来越来越好。
2.7 大模型依然存在诸多问题与挑战
总结一下,虽然大家都对大模型有很高的期望,但务实去看的话,依然有一些核心逻辑值得认真去思考。我们在遇到问题时,首先要去看人是不是能去解决,人如果说逻辑上解决不了,那么也不要指望大模型去解决;人如果可以解决,但要依赖大量的外部数据,那我们要看大模型是不是能获取并有效利用这些数据,如果答案是否定的,其实也无法用大模型去解决。
同时,大模型的实际部署也有很多挑战,几秒钟的延迟会不会影响用户体验,一些高频交互的场景下成本能不能接受。另外,研发的成本和一些不确定性风险可不可以担得起。虽然很多大模型厂商在讲成功案例,但我们更要看别人的成功案例是不是能够平移到自己企业的应用场景。毕竟数据的差异哪怕只有一点点,最终的性能和效果也可能天差地别。
03
大模型对企业的变革与未来发展
3.1 大模型将打破部门和职能的边界
下面我想谈一谈大模型对于企业在组织和流程上的改变。不同的公司有不同的大模型应用方法,有的是中心化的形成一个部门来落地,有的是分散式通过各个部门去尝试。我认为大模型在未来对组织带来的一大变化就是部门和职能的边界可能会被打破。
大模型本身提供了很多之前需要专业训练才有的能力,现在一个职能的人用了大模型就可以迅速实现另一个职能的工作,就像通过刚刚分享的案例来说,任何一个人是不是可以利用大模型快速胜任数据分析师、研发工程师或者产品经理的工作,同样的,一个部门也可以快速的把另外一个部门的事情完成。
3.2 对于大模型的预期呈现往复波动状态
最后,我想对技术演进过程中社会的心态变化做一个回顾。大模型是在过去几十年里机器学习和大数据技术上的一个自然的延展,技术本身的发展在我看来大概呈现出了线性的能力提升。但不论是个人、企业还是社会对于技术,包括大模型技术的预期是往复波动的,且波动幅度也很大。我们要怎样穿透波动看到未来技术的发展,并且管理好各方的预期,持续进行创新,这是值得我们深思的一个问题。
我今天的分享就到这里,谢谢大家!
领取专属 10元无门槛券
私享最新 技术干货