00:00
好,那刚刚才几位嘉宾的分享的非常精彩啊,然后那我来接着咱们今天分享。好,首先呃,我发现前两位嘉宾还没有点到咱们这个标题,就是AI的下半场,大家大家可能有没有了解了解过,有一个人open AI的那个研究员叫姚舜宇,就是网上传言啊,说是呃他已经来到腾讯,就是呃他之前有过一篇blog,呃非非常的火,叫就就标题就叫做AI的下半场,他原文是英文写的叫什么the next half, 然后的话,嗯,首先就是咱们先想AI的上半场是什么呢?AI上半场其实嗯就是从上个世纪开始。然后就包括包括图灵引起的,那那些就是说嗯。条条件控制,在在条件控制,就比方说就是啊,比如说温度达到了30°,那就自动打开空调,然后大家就会发现啊,这这个条件控制要写一堆if else, 其实不能像人一样去做一个泛化,对吧,然后嗯,所所以后来到后来的话就慢慢嗯转向那个re reinforcement learning, 你就是呃强化学习了嘛,然后就接着就是嗯,大家做AI方向就开始变得越来越垂直了,就比方说啊做翻译啊,做TTS啊这种就大家慢慢就淡化这个AI的这个概念,在在这之后的话呢,这个转折点是什么?就是二二年的时候拆GPT突然爆火,就是说大家突然发现其实咱们是人类本身就是具有一种泛化能力,叫什么?就是语言,那我们就可以用语言去嗯重新建模整个世界,那所以说。
01:57
呃,就就是姚舜宇所说AI的下半场就是呃,我们是用语言模型做做了一个A整,其实A政的概念,嗯老早就有了,只不过我我们现现在的话就是说用这种泛化的agent政的能力去嗯做落地,所以我理解的就是下下半,下半场我们要做的就是A政的如何落地。
02:20
好,这就是我今天的一个主题,好,首先在开始之前的话呢,可以欢迎大家扫这个码,然后这个是我们呃A呃元气加ADP的一个共学的社群,然后群群内经常呃会有一些小福利,或者说一些呃共学的活动。没关系啊,这个PPT最后一页我也会放这个二维码,大家可以先我等个十几秒吧。好,首先呃我先阐述一下,我我今天演讲有三个part,就是分别介绍咱们的呃三个产品,就是我们现在的话,呃大家可能知道我们是有一个叫腾讯元气这一个平台,然后腾讯元气的话,它是一个面向C端开发者的呃平台,大家可以理解为就是说呃咱们腾讯这边有一个类似于扣子的产品,但但我后面会解释就是这这两个产品虽然说都是做智能体,但其实也是有很多差异化的地方。然后第二个就是呃咱们腾讯云的智能体开发平台,也就是我刚刚说就是A,呃大家听三个字可能会比较陌生,它其实就是agent platform它一个简写,大家如果到腾讯上面直接搜这个三三个字母就可以找到咱们这个呃平台,那它是一个面向B端用户的一个平台,相比于元气的话,它会有一些更深。
03:50
层次更落地的一些功能,然后第三部分呢,我会讲一下咱们,嗯这这两个平台,它其实共用一个底座,然后这个底座的算法是由我们呃优图实验室,腾讯云,腾讯云的优图实验室去提供的,然后我们腾讯云的优图实验室也在持续的输出,呃开源项目啊,就包括像像图agent这种啊agent框架,后面最后的时候我也会讲一下。
04:20
好,首先我今天第一个part就是讲腾讯元气,我这里用我自己写的一个slogan,就是说千人一面打造AI超级个体,咱们现在这个AI时代就是一个呃超级个体的时代,刚刚有位呃产产品经理同学也也有说过,就是呃还有包括咱们这个mark马克老师,他也可以简单来说是一个超级个体,利用了呃AI去赋能,然后去呃打造一个千人一面的效果。然后腾讯元器的话,它是有呃两种类型的智能体,加上呃三种应用模式,然后呃首先第一个的话,这这个是公众号智能体,我们呃腾讯园去去和呃微信公众号去做了一个深度绑定,然后你可以比方说去从公众号去呃拉取内容,然后呃把这个智能体作为你的这个公众号的一个后后端的一个呃,然后就是后台客服,然后第二种是对话智能体,对话智能体的话,你可以把这个智能体发布为一个网页,或者说发布为一些嗯,比方说应用商,应用商店上的小应用。
05:37
然后的话,三种模式是什么呢?第一种模式是啊标准模式啊,我我先先从单供作用模式讲起吧,大家如果有用过扣子或者说用defy的话,可能会比较熟悉,呃就是在你业务流程比较固定的时候,你可以通过呃这种拖拉拽的这种形式,然后去快速编排一个排排PE plan出来呃的,然后之后的话一个multi agent模式,Multi agent模式的话呢,是一个呃agent之间互相协作的,就是agent自自主能力会比较强的一个呃系统,然后这这个时候你就可以呃让agent放飞,然后你你去给他任务,他他自己会去呃就要规划自己下一步要做什么,然后调用哪些工具什么的,然后标准模式是什么呢?标准模式它是呃基于有有有点基于呃单工作的模式,就是它是外层是有一个agent,然后这个agent它是具有任务调度能力,然后去比方说调用呃单工作流啊,或者说。
06:37
或调用知识库啊呃,还有联网插件啊什么的。然后的话,嗯,这这里就是我刚刚提到的公众号智能体,就就是你只需要在这里啊创建智能体的时候,去简单的去点一下呃公你你自己的绑定的那个公众号去进行一个授权,呃只要扫个码就行了,也是非常方便,然后就可以一键的把你的呃公众号的知识呃文章什么的拿到知识库,然后去呃创建一个公众号的智能体,然后右侧这边的话就是一个公众号的发布形态,就是说呃你你可以作为一个呃公公众号的后台去解决一些客服问题什么的。
07:23
然后第二种,第二第二个就是标准模式,就就是刚刚讲到的三种模式,第一种模式。呃首先就一一个是他应用内是支持呃这三种知识库的,呃第一个知识库啊是本地文档,我们腾讯元气还有ADP的呃知识库都是支持超过20种常见格式的,包括呃像PPT啊,呃还有叉LS叉这种表格格式,还有甚至是图片,我们也可以作为一个知识库,然后第二种是呃网页文件,呃这个这个从从网页的话你就可以去啊,我们可以有一个爬虫,然后去把网页的内容去全部抓下来,然后第三种的话是呃腾讯园系独有的就是。
08:09
和公众号去做一个打通。然后这第三种模式的话是工作流模式,在工作流模式的话,就是你可以去通过一个呃,Pipeline去构建一个固定化的流程。然后我们也提供了一些呃一些逻辑节点,比方说呃像条件判断啊等等,循循环等等,然后你你就不需要通过呃古法手搓代码,呃相相对于古法手搓代码会呃稍微高级一些,但是相对于完全纯vib coding来说会更加的呃面向生产一些。然后第三个就是agent的模式,就是说呃它它是有一个呃模型,它是有一个任务规划能力,然后先去思考,然后把任务去breakdown成呃不同的小小的任务,之后去呃交交给这个整整个A镇的系统中的一些其他子A镇的去分别完成任务,最后呃把任务全全都流转到主A镇的主A阵,再去做一个判断。
09:20
嗯模式下呢,它这个A是有一个攻击调用能力,然后我们腾讯器的话,它是有呃这这么多种呃插件是可以供你选择的,当然你也可以这边有个蓝色的按钮是呃,可以可以去自自定义自己的插件,我们是支持呃三种插件,分别是呃API类型的插件,还有说呃Python代码类型的插件,还有说就是MCP类型的插件。呃,这这里的话就是插件,就是说我们首先有第一方的我们自己的插件,腾讯特色的一些插件,那需要特别强调的就是这个微信支付MCP,你可以在呃你的智能体应用里面去放一个微信支付的MCP去变现,就是说呃其他用户来用你的这个智能体的时候,呃,呃就是他想要问什么专业性的问题,然后你这个时候呃说你先支付,呃付费咨询就是先支付这个费用,然后你才可以去用我这个智能体,大家可以设置设计智能体的时候,可以用这个去呃设计一下。
10:27
然后第二个就是呃一些使用工具,比方说OCR啊这种,还有呃手写识别啊,身份证识别啊什么的,当然呃APP里面的话,呃这这方面的插件会更加面向呃企业级,比方说什么呃发票识别啊等等。然后最后一个就是一些呃生态合作伙伴的一些插件,比如说这里有快递100就可以调用这个智能体,调用这个插件可以帮用户去查快递,还有高德地图的话,就是呃可以去查一些啊地图上的相关信息,然后什么值得买这个这个他提供的这个插件是一个能够通过他这个官方渠道去爬到呃淘宝的数据的一个插件,当然还有什么A啊这种呃论文搜索的插件。
11:16
然后这边的话是一个呃,公众号呃,落落地的一个。这这我就不多做介绍了,然后这边的话,我们最近新增了几个发布渠道,一个是呃,应用宝,腾讯应用宝的这个PC端,然后移动端的话,我们最近也是呃,新增了这么一个渠道。然后第二第二个最重要的,今天最最想跟大家update的一个就是说我们跟小米应用商店去打通了,大家发布智能体的时候在这里,呃勾选应用宝,然后小米应用商店下面还有一个荣耀应用商店,呃,就是荣荣耀手机的那个应用商店,我们跟这三个平台都做了打通,然后你就可以把你的智能体去上架到这几个应用商店上面啊,大家可以扫描右边这个二维码,这个是呃小米它官网的一个文档,就是说呃,小米最近和腾讯元器在联动,然后办的一个活动,就是说呃,你去上架智能体应用,然后可以获得京东卡的这个福利。
12:20
我会给大家十几秒钟的时间。所以mark克老师刚刚说到就是呃智智能体最最大的一个concern就是没有流量渠道的,那我们呃现在也是提供了这么一个非常。非常大众的一个渠道去做智能体分发。好,那我到下一部分。好,接下来我就讲一下,呃,咱们这个ADP,咱们这个第二个part,呃,这这里我是我用这个slogan,就是说呃,巨力伙伴领跑企业级智能体赛道。
13:06
那首先的话,呃,刚刚茶歇的时候,也有听到一些同学去担忧,就是说呃这个。知企业级的知识库啊,其实是一个,呃,非常典型的一个案例。像像之前我们有去跟一个某国际大厂,呃他他们想要在他们的供应供应链去落地一个呃落地落地agent,然后他们把他们内部的文档形容为就是说data trash就是数数据垃圾,因因为嗯嗯人人类他其实我们我们每个人带宽每很有限啊,所以说呃像企业每天去产生新的文档的时候,我们是没有没有没有太多精力去做一个归档的,那呃像我们输出这些文档就是经常是这种啊都动模态的文档,就是你会去有一个图文混排的这个情况,尤其像这种呃说明书产品的说明书,然后这个图片这样是这样直接插在里面,那大家如果是用过像呃defa的知识库,或者说扣子的知识库,它。
14:23
就是,嗯。对对,这个图片召回能力是比较有限的,那我们ADP的话是背后是有咱们腾讯云强大的这个优图实验室去做一个算法支持的,然后我们也是有非常强大的这个EMBA的模型,然后可以去做到这个图文混排的这个图片召回。然后还有就是说,比方说呃模模就是模型,他会呃,他不知道这个图片是什么意思。如果你在用APP的时候,它是呃,可以可以做到精确的定位到呃这里面的一张图片,然后在回复用户的时候,他会直接把这个图片给切出来,然后把这这一个片段去截给用户。
15:10
然后第二第二个就是说呃落地的时候就是业务流程比较复杂,然后大家如果用用过友商的这些呃工作流的产品的话,会发现,比方说我用户我在呃往里输入内容,工作流里输入内容的时候啊,比方说我之前填错了,那那我怎么办?那我只能把这个工作流进程给终止,然后从头再来,那APP里的话它不是这样,AAPP里它是呃。这个工作流它是有一个全局的一个底层模型,然后这个模型的话,它会呃进行一个意图识别,比方说啊,它这里识别到用户这里输,可能输错内容了,他就会智能把这个节点去倒退回去啊从从上从这一个节点倒退回上一个节点,就是用户输说我输错了那个节点,然后重新的进行一个用户数,这样子呃,工作流进程就不需要打断,就就可以直接在当下当当轮这一个呃工作流进程内完成。
16:08
对,这这这就是这边这边这个一一个场景,就是说呃,因因为人他是希望是跟一个另另外一个人类客服去对话的,那呃像传统的工作流,他是做不到这一点,就是比方说他这也是重重复提问了,那然后他他可能就会进行一个机械的回复,那我们也可以啊,通过这个底层的图模型去避免。好,然后就是我们整整个平台的一个概览,就是首先我们呃底层是有个应用开发引擎,这个引擎的话,我们是呃AP和腾讯其是共用的就是一个是呃原子能力,我们我们分几个原子能力,一个是像文档解析embedding这这这种模型,当然我们这些呃面向企业也是可以单独卖的,然后还有一个就是工作引擎,刚刚我也给大家介绍过的,然后这个全局agent的能力,就是我刚刚说的这个全局的一个意图模型的能力,然后还有一个呃agent的引擎。
17:13
就就是啊,多多多agent协作的,互相协作的一个呃,系统。然后右侧的话,这边是呃应用广场,呃模型广场,呃我们自己是有呃托管这几个模型,一个是呃混混员的几个大模型,然后还有优图,我们优图实验室自己也有呃研发模型,然后还有一个就是deep deep的话我们DDSAPI也是对外售卖的,然后还有就是Taiwan,呃就是T平台,然后这个tawan平台的话就是呃。是一个机器学习平台,然后我们可以去在上面做模型的微调,然后一键啊接入到A里面,然后插件广场的话,就是刚刚我在园区也也提到过的。
18:01
呃,后后面就是像应用模板啊,提示词模板这种,然后课程体系的话,我们现在也是在对呃合作伙伴去进行一个开放。然后下面的话就是嗯,企业级agent落地的时候一些concern,比方说身份权限,我们嗯也有做一个呃权权限管理。好,然后这个第一第一个部分就是我刚刚说的,呃,这个图文混牌的一个情况,然后呃,咱咱们在呃输入这个东多模态的一个文档的时候,咱们AP是可以啊,进行一个更更细颗粒度的一个定位,就是可以直接把这个图给。这个这个图给截下来,然后回复的时候就可以把这个呃一个一个图,图片内的内容去进行一个召回。好,然后接下来的话就是,嗯。
19:03
咱们一个呃知识库录入的一个拍line,就是说呃首首先咱们要进行一个呃知识库的一个标准化,这是我们在企业级落地的时候常见的一个问题。那么那么我们呃,除了我刚刚才介绍的一个多风态录入的一个呃这个场景之外呢,我们还有一个叫做呃知识库S码的一个功功能就是说比方说我们输输入知识库的有几百几千个文档,这个在企业企业的企业的一些场景是非常常见,就是我刚刚说的data下trash,那这么多这么多的文档录入的时候,可能嗯智能体召回的时候,召回几几十个,几百个,那那这个大模型的这个上下文都被塞爆了,对吧,那我们怎么去呃对它进行一个精准召回呢?我们是有一个叫知识库S码,就是我们在文档录入的时候,通过这个啊知是知识库scheme码生成的模型,对每一个文档啊就生成,你可以理解为生成一个总结,然后告诉大模型这个这个文档是干嘛的,那那那个文档是干嘛的,然后他在用到比方说这个场景的时候,他就去精准的去匹配。
20:19
叫啊这么这么一个文档。然后还有像表格切分,我们AP的这个底层的原子能力是有一个叫text to circle的一个啊模型的,像比方说你录入表格类表格类型的文档的时候,你是可以去开启Excel增强的,然后呃大模型去啊进行知识召回的时候,它就可以去通过这个text to circle模型去进行一个精准的啊查询,这个在一些比方说啊chat BI, 刚刚嗯也有朋友说到这个TBI这种场景啊,可以可以进进行一个精准的啊数据查询。
21:00
好,接下来的话就是咱们刚刚提到的这个,呃,图文混排的一个场景,还有复杂的表格的一个场景。然后的话,我们ADP的话,知识库是支持超过200MB的一个文,超大型文档的一个录入的。啊,然后之后就说到咱们这个表格场景,刚刚我也说到,就是咱们是有这个一个text to circle的一个能力,然后在表格场景的时候,首先首先就是咱们咱们刚才说到知识库录入有一个拍拍peline,就是呃,比方说像这种呃,它它不是一个标准的CSV格式的表格,它会有这种呃合并单元格的一种情况,那我们ADP的话,它是啊在录入这个拍拍line的过程中,它是有一个这个自动拆解的一个能力,它会把这个合并的单元格进行一个拆解。
22:02
然后呃,像表表头的话,它是也可以去进行一个改写的,可以看这这里的话,呃,像像这个合并单元格,它它都是。这个联系方式还有公公司分机手机号这个它它这个是呃,并并在一块儿的嘛,然后我们这边它就会自动把它去拆成两列的这个单单元格。这这个嗯,在咱们企业级文档去录入的时候,就不需要去有这么多的concern。然后再下面一个的话,就是咱们一个to calling的场景,就是function call, 那大家有没有像用过curor这啊用过这些MCP的功能,那你可能会发现科在添加超过50个呃工具的时候,它它那个就直接不让你添加了,因为它一个工具它会占很多的上下文,它会它会告诉大模型我这个工具是干嘛,那个工具是干嘛的,然后这么多个工具叠在一块儿,那个上下文占的超级多,导致你呃正正文就没法出多少prompt的,那呃这就是一个工工具多导致这个上下文爆炸的一个情况,那呃AAPP里是怎么解决的呢?就是说它是呃会把这个开line进行一个拆分。
23:23
就是说呃,我们会把一个任务拆解为拆,拆解为好几个query啊,就叫叫叫做sub query, 比方说这个是一个y to的这个呃场景。嗯,就是这个we web QA, 嗯,检检索网络的一个场景,然后它就可以去呃拆拆分成,比方说第一个是在Google上面搜索,然后这这下面就是其他的工具,这样子的话你就拆分,把一个任务拆分为好几个任务的时候,它就每个A之间,它这个占占用上下文就会相对比较少,然后之后的话呢,再由这这个summarize总总结去啊进行一个总结,最后生成一个呃回复。
24:08
然后这个token消耗的话,平均压缩6.2倍,可以执行更大的轮次。然后这就是我刚刚啊又提到了另外一个问题,就是说这个是呃上下文爆炸,刚刚呃,Mark mark克老师好像也是提到过,就是说呃对对话论数越来越多,最后那个超出上下文了,那我们APP里面是怎么解决呢?其实其实跟C扣有点像啊,就是说呃。就是call扣,它有个auto auto compac, 就是自动压缩,那我们也是通过这种方式去进行解决的,那同样也是由优图实验室去进行了一个提供。然后这个就是我刚提到的智能跳转。然后这里的话,我们是的模式下面有一个叫PE模式,然后刚一开始的时候,我提到姚顺宇,姚顺宇他做的是就是ing and action, 然后这这个是另外一个模式叫plan,呃,Plan and execution, 就是PE模式,然后目前也是呃进行进行了公测,然后可以用在一些深度搜索的场景。
25:20
然后这这同样同同样也是一个PE,就是说呃,他可以去自自动的进行一个搜索,然后进行一个网页生成。那这这这几个,刚刚我一开始也有介绍过。好,然后这个就是呃,咱们的一个模型广场,我们可以支持很多优质的三方模型的添加。呃,然后这就是咱们的一个插件情况,我们是目前这其实现在有150个了,一共150个插件,然后也有越来越多的合作伙伴,今现在正在入住。好,这个就是咱们一个企业级智能,嗯,这个一个落落落地的场景,就是说呃,你你有这么多人,这个权限怎么去分配,我们可以通过呃,用户维度,还有还有角色维度两种维度去进行一个角策权限的分配。
26:16
然后在最新的版本中,我们去更新了一个叫做内容安全的功能,你可以呃去比方说去定义一些敏感词,然后呃遇到违规词的时候,他可以去命中,然后他会告诉你无法回答这个问题,比方说呃,用户突然问拆boss说我想吃肯德基,那那传传统的拆GPT他可能就刷了,就回了,那我们是有这么一个策略可以去进行配置,好就说到最后咱们这个。呃,我们算算法团队,呃,这个Youtube two实验室提供的这个开源项目,像第一个Youtube to agent就是呃,咱咱们的一个agent的框架,目前在guitar方面有大概呃3000多个star,然后他的话其实是啊,把咱们腾讯元器还有ADP的啊multi的模式的底层去进行了一个开源,然后大家去读那个read me的话,上面是其实是有像啊PPT生成啊,还有deep research啊,舆情监控啊这种啊案例大家可以去自行去啊去去去看一下,然后第二个就是graph rag graph rag是什么呢?像传统的rag就是啊,根据语义啊,根据关键词去进行一个召回,那graph rag的话是可以解决,比方说啊,红楼梦里面那么多角色,它之间互相的关系是什么,它可以通过建立这种图谱。
27:40
啊,A角色B角色之间,它它是什么样的一个关系,然后构建一整个网络,然后在这个网络中去进行一个知识的召回。然后呃,还有个u to inbedding是咱们的一个嵌入模型,然后也是在CMTB这个榜单上排名第一。好,那么以上就是我的一个分享,然后左侧的话是咱们这个共学的社群的二维码,右侧的话是我的一个微信。
我来说两句