前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >武侠小说视角:大模型对话系统的内功与外功

武侠小说视角:大模型对话系统的内功与外功

作者头像
zenRRan
发布于 2023-12-04 05:05:17
发布于 2023-12-04 05:05:17
4660
举报

作者 | Hongru WANG

单位 | 香港中文大学

内功和外功,作为诸多武侠小说的两大流派,有着诸多区别。内功主要是内力,外功主要是拳脚功夫,如熟知的降龙十八掌就是外家的顶峰功夫,任何武功若想发挥最大的威力都离不开内功的精深。内功是道,外功是术,道术结合,东方不败。作为一个业余的武侠小说爱好者和刚入门的科研爱好者,这次从内功和外功的两个角度出发,介绍我们我们组在 EMNLP 2023 中的两个工作,如有不当之处,敬请原谅:

论文标题:

Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs

论文链接:

https://arxiv.org/abs/2305.11792

代码链接:

https://github.com/ruleGreen/Cue-CoT

论文标题:

Large Language Models as Source Planner for Personalized Knowledge-grounded Dialogues

论文链接:

https://arxiv.org/pdf/2310.08840.pdf

代码链接:

https://github.com/ruleGreen/SAFARI

预约论文作者直播分享:

何为内功?

何为内功?按我的理解,要有功法,要运转多少个小周天,大周天,要有真气,真气运转之后要不变的更多,要不变的质量更好。何为功法?唯有 LLM 是也。何为小周天,大周天?唯有不同的 prompt engieering 或者说不同 path 的 chain-of-thoughts。何为真气?即为对话历史,也就是当前的输入。对话历史里面蕴藏着很多语义学线索,Mairesse 就研究过从对话历史中识别出来人物性格特点等,比如性子急的讲话就比较急躁,除此之外,其他工作也探索了类似情绪,心理状态等等不同方面的语义学线索,这些语义学线索在生成个性化回复的时候尤为重要。

正如我们人类在进行对话的时候,不可避免的会考虑对方的性格习惯,当下的情绪和心理状态等,LLM 在进行对话的时候也需要考虑到这些因素,从而生成更有帮助,更容易被用户接受的回复。而相较于传统的 standard prompting 而言,LLM 直接依赖对话历史进行回复,没有显示的建模刚刚提到的隐藏在对话历史中丰富的用户信息,我们提出一种新的 CoT 方法,Cue-CoT,把用户回复生成建模成多阶段的推理过程:

O-Cue:One-step inference, 类似于传统的 CoT,一步直接生成中间推理过程和最终回复。首先我们要求 LLM 推理出来当前对话历史里面蕴含的不同维度的用户信息(使用不同的 prompts),然后我们让 LLM 接着生成最终的回复。(相对复杂的指令和内容臃肿的输出)

M-Cue:Multi-step inference,我们逐步的生成我们想要 LLM 输出的内容。和 O-Cue 一样,这里第一步我们要求 LLM 推理出来当前对话历史里面蕴含的不同维度的用户信息,然后给定对话上下文和第一步生成的中间结果,我们第二步让 LLM 接着生成最终的回复。(相对简单的指令和内容清晰的输出)

这两种 prompting 的处理方式不同,带来了 Zero-shot setting 和 One-shot setting(受限于 LLM input limit 和对话长度)的差别。

Zero-shot Setting:在 O-Cue 中,由于单步指令较复杂(不要要进行推理还要进行回复生成,以及生成的格式要求),单步生成内容过多,导致 LLM 无法很好的理解指令;生成内容较短,无论是中间推理结果还是最后回复的长度相对于 M-Cue 都短一点,另外还有一个严重的问题是生成内容无法很好的切分,因为一部分 LLM 无法按照要求的格式进行输出。

One-shot Setting:在进行 demostration selection 的过程中,也有着很大的区别。O-Cue 只能依赖单一的 input 即当前的对话上下文来作为 query 去 demostration pool 里面进行选择,而 M-Cue 在每一步都可以根据不同的 input 去作为 query 进行选择。

总的来说,M-Cue 这种处理方式可以增强整个系统的解释性和控制性,我们对于中间结果可以进行编辑,比如增加对于当前用户的其他渠道的数据,或者过滤掉不好或者不正确的推理结果,其次这种中间结果可以作为 demostration selection 的一个标准,从而帮助我们更好的选择 demostration。

我们在 5 个中英文 LLM,6 个数据集(中文:Zhihu,D4,PsyQA;英文:Quora,ED,EMH)上将我们提出的 O-Cue 和 M-Cue 与传统的 standard prompting 进行了对比,这里具体的分析可以参考原文,总体来说我们发现:

  1. 整体来说:大部分情况下 Cue-Cot 都能够取得比 standard prompting 更好的效果(win rates 超过 50%),其中受益于相对简单的指令和多步推理的输出,M-Cue 比 O-Cue 能够实现更高的 win rate。此外我们发现中文大模型上 acceptability 的 win rates 比 helpfulness 低,而英文大模型上刚好相反,我们猜测可能是由于中文大模型在根据当前用户的情感,性格等因素生成更容易被用户接受的回复的能力略弱,而仅仅考虑了 helpfulness 这个维度。
  2. 中文大模型:我们发现 ChatGLM 在 O-Cue 的情况下是三个模型当中最差的,然后我们检查了对应的输出,我们发现 ChatGLM 基本上忽视了给定的指令而直接进行对话;或者没有按照指令要求输出对应的格式,这可能归结为其不同的训练方式。但是在 M-Cue 的情况下所有的大模型都能很好的跟随指令,这种情况下由于 D4 的对话上下文是最长的,导致其效果是三个数据集中最差的。
  3. 英文大模型:在 O-Cue 的情况下 Alpaca 也出现了类似 ChatGLM 的问题,即不能很好的跟随指令,此外英文大模型在较长的对话输入等场景下也表现不佳。整体来说 ChatGPT 和 Vicuna 的指令跟随能力更强,相较于 Alpaca 而言都倾向于生成较长的回复。

注:以上实验结果均基于 2023 年 5 月左右的模型表现。

以上均是方法层面的直接对比,我们额外进行了模型层面的对比。将 ChatGPT 作为锚点,我们评估了现有模型的相对表现。

我们将中文和英文分别作为两个坐标轴,以 ChatGPT 为中间点将第一象限分为四个不同的区域,区域一代表中英文均比 ChatGPT 差;区域二代表英文比 ChatGPT 好,但是中文较差;区域三代表中文比 ChatGPT 好,但是英文较差;区域四代表中英文均比 ChatGPT 好。我们发现目前在区域四还是没有出现任何一个模型,我们设想了三种不同的路径来帮助我们得到区域四的模型。

路径一:直接不断外推现有的 ChatGPT 的能力,如图中橙色所示,OpenAI 可能是这条路线。

路径二:由当前中文模型进一步的在英文语料上进行训练,如 ChatGLM 或者其他中文模型。

路径三:由当前英文模型进一步的在中文语料上进行训练,如 LLaMA 系列的中文版本,Vicuna 和 Alpaca 的中文版本。

我们看到其实目前来说路径三里面的模型是最多的,路径一可能是最难的,路径二一方面是现有的中文模型的基座能力还没有达到上限;另一方面其英文能力可能也不是主流大模型玩家在乎的;还有一种可能是英文能力即使拉上去,可能也干不过 SOTA :)

很多只需要当前的对话历史作为输入,从而得到最终的答案的对话任务,如回复多样性,回复选择,对话信息抽取,对话摘要等等,都属于内功。内功练得好,外功就用的越溜,因为在这个过程中,真气没有流失,要不压缩之后进一步提纯,质量变得更好了,比如从非结构化数据变成结构化数据;要不信息量得到增强,如情感分析等。这两种不同的处理导致的结果都是变的更加适配下游任务了。

何为外功?

那何为外功?外功由内力驱使,借助外力,如刀枪剑戟,即为不同的工具。功法,运转路径,真气,也是缺一不可。唯一不同的是这时候需要使用不同的刀法,剑法,即为不同工具的使用方法。那何时,何地使用工具,使用哪一个工具呢?这就是我们另外一个工作 SAFARI 所要探索的问题。

开放域对话系统往往需要很多的外部知识,比如用户的 persona,和 wikipedia 上的 document,以及其他的一些我们设计出来的一些帮助我们生成更好回复的数据库等等。这些不同的外部知识,比如 persona 和 document,其实就是不同的 conceptual tool [1]。

很多时候,不是每一轮对话都需要这些外部知识,也不是一下子就需要使用所有的外部知识,更复杂的是有时候这些知识库之间存在依赖,比如我们倾向于见人说人话,见鬼说鬼话,这就是根据不同人的 persona 使用了不同的 document 的结果,所以这里的 document 就是依赖于对话者的 persona 的。而之前的开放域对话系统大部分都是针对单一知识来源,要不是 persona 要不是 document 要不是其他的,也有一部分工作是考虑了多个外部知识的复合作用,但是不加区分的对于对话中的每一轮都使用所有知识,这无疑会带来额外的消耗和不必要的浪费。

在本篇工作中,我们首先构造了一个数据集,建模了 persona 和 document 之间的依赖关系,其中 persona 的维度包括了年龄,性别,民族,爱好等 12 个维度,基本涵盖了当下个性化对话的大部分需求,然后我们按照不同的 persona description 提供了对应的 document,包括 5 个不同的 knowledge sentences。

举个例子,persona description 包括有:我今年 16 岁,那对应的 document 里面包括的知识可能是 16 岁是未成年人,16 岁无法喝酒 等等。一条简单的 persona 描述背后可能隐藏着非常多的常识知识和世界知识,退一步说,即使 persona 和 document 之间没有直接的联系,我们在做 document selection 的时候其实还是受到 persona 或者 memory 等因素隐性的影响,参考《There Are a Thousand Hamlets in a Thousand People’s Eyes: Enhancing Knowledge-grounded Dialogue with Personal Memory》[2]。

总的来说,我们首先构建了将近 3k 多条多轮对话,在一个多轮对话包括三个不同的场景:1)不使用任何外部知识;2)仅使用 persona knowledge source;3)既使用 persona 又使用 documents(这里 persona 和 document 存在依赖关系)。

为了同时建模这三种场景,我们提出一个框架 SAFARI,将外部知识选择和回复生成进行解耦。具体来说我们将整个对话回复生成解耦成三个任务,1)Planning:规划是否需要使用知识,何时使用知识,以及多种知识库之间的调用顺序;2)Retrieval:使用外部的 retriever 对上一步规划使用的知识库按顺序抽取对应的 Top-n 的辅助文档;3)Assembling:将对话上下文和中间抽取到的辅助文档拼接在一起进行最终的回复生成。

我们同时研究了在 supervised 和 unsupervised 两种设定下 SAFARI 的实现方式,并且评估了三种不同 LLM 的表现(BELLE,ChatGLM 和 ChatGPT)。

Supervised SAFARI:我们将整个过程建模成一个序列生成任务,整体思想类似于 ReWOO+ToolkenGPT 的结合体,但是限于匿名期,我们没有及时的披露。

具体来说,我们将不同的 source(不使用任何 source 视为 NULL)作为 special tokens 加入到大模型的词表里面,然后要求大模型输出一个 source 序列,代表不同 source 一个调用顺序,如下图所示,然后我们将对应 source 的 ground-truth 辅助文档和对话上下文,输出的 source 作为输入,要求大模型输出最终的模型,以这种形式,我们只需要将 loss 加在 source 训练和最终的回复上即可进行端到端的训练。推理的时候需要进行两步推理,和以上介绍的类似,不再赘述。

Unsupervised SAFARI:给定一些 demostrations,我们直接使用 prompt 来要求大模型输出我们需要的内容,比如第一步要求大模型直接输出 source 序列,第二步根据对话上下文和中间辅助文档生成对应的回复。prompt 如图所示:

我们详细对比了不同的大模型在两种设定下的表现,首先我们看 planning 的表现,如下图所示,整体而言经过训练的大模型能够取得比 unsupervised 更好的效果(LoRA 微调),但是在 NULL 和 Persona 的效果仍然不是很理想,这可能和我们的数据分布比较相关。

在 unsupervised 的设定下,我们发现 zero-shot 情况下 BELLE 和 ChatGLM 通常表现出过度自信(大部分都选择不使用任何知识),而 ChatGPT 就好很多,但是也仍然无法理解多个 source 之间存在 dependency 的情况,很多 cases 下仅仅选择使用 Documents,In-context learning 无法带来明显的增益,这一方面是由于我们使用的是随机选择的 3 个案例作为 demostrations,另一方面 in-context learning 在解决大模型的 uncertainy 上似乎也不是一个有效方案 [3]。

然后我们看 Assmbling 的表现,由于这里的 Assemling 非常依赖上面的 planning 的结果,所以需要结合起来进行分析。经过训练的模型往往能取得更好的效果,尤其是在 BLEU1 和 RougeL上,然后在 unsupervised 下,Zero-shot ChatGPT 的效果都是最好的,而 In-context learning 的时候 BELLE 是最好的,这是由于 In-context learning 的 BELLE 在进行 planning 的时候选择了大量的 Persona,所以导致会使用更多的辅助文档,相较于 In-context ChatGPT 而言,从而取得更好的效果。

其他消融分析和实验结果可以参考原文,我们还对比了不同的 source 策略的效果,比如无脑选择使用所有 source,无脑使用 Persona 等等。我们相信 SAFARI 框架还有这巨大的潜力等待挖掘,也可以用来处理现实生活中更加复杂的场景,但受限于时间和 benchmark 的缺乏,我们没有做更进一步的验证,我们也欢迎感兴趣的同学或者老师一起合作交流。

写在最后

本文探讨了一种以内外的视角去看待大模型时代下的对话系统,我们也关注内外合并,并做了简单的初步探索,欢迎大家关注我们的下一篇文章。总的来说,我们认为对话上下文中蕴含的丰富的内部信息 + 外部知识调用将会是未来 LLM-based 对话系统的重要研究方向,尤其是在与不同的 Source,不同的 Task 上的交互从而带来的不同应用场景和设计。Stay Tuned!!

参考文献

[1] https://arxiv.org/abs/2309.16090.pdf

[2] https://aclanthology.org/2022.acl-long.270.pdf

[3] https://arxiv.org/abs/2305.13712.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Fast-BEV:简单快速的BEV框架
自动驾驶系统分为三个层级:感知层,决策层,执行层,快速且准确的感知系统,是自动驾驶技术的关键。
一点人工一点智能
2023/08/25
1.3K0
Fast-BEV:简单快速的BEV框架
FastBEV论文解读复现
本文介绍了一种名为Fast-BEV的快速且强大的鸟瞰视图感知基线框架,旨在解决现有BEV解决方案在执行车辆内推理时需要大量资源或性能不佳的问题。该框架包括五个部分:一种轻量级部署友好的视角转换方法、一个多尺度图像编码器、一个专门设计用于加速车辆内推断的高效BEV编码器、一种强数据增强策略以及一种多帧特征融合机制。实验结果表明,该框架能够在当前流行的车辆芯片上实现高精度和高速度的鸟瞰视图感知任务,并取得了与先前工作相比更好的性能。
Srlua
2024/11/28
1760
FastBEV论文解读复现
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
机器之心专栏 作者:OpenDriveLab BEV(Bird’s-eye-view) 感知研究对自动驾驶领域影响巨大,关于 BEV 你需要了解哪些内容,本文通过 BEVPerception Survey 为你揭晓答案。 BEV 感知到底是什么?自动驾驶的学术界和工业界又都在关注 BEV 感知的什么内容?本文将会为你揭晓答案。 在自动驾驶领域中,让感知模型学习强大的鸟瞰图(BEV)表征是一种趋势,并且已经引起了工业界和学术界的广泛关注。相比于之前自动驾驶领域中的大多数基于在前视图或透视图中执行检测、分割、
机器之心
2023/02/23
5490
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
原文:超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
一点人工一点智能
2023/02/17
6910
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
近年来,自动驾驶已成为一个快速发展的领域,旨在为人类驾驶员提供自动化和智能系统。自动驾驶技术的成功部署有望显著提高交通系统的安全性和效率。在过去的二十年里,为自动驾驶开发了一系列数据驱动技术,从传统的基于规则的方法到先进的机器学习方法。
公众号-arXiv每日学术速递
2023/08/26
2.5K0
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
近年来,在自动驾驶领域,鸟瞰视角(BEV)空间中的3D目标检测取得了很大的进展。作为激光雷达(LiDAR)方法的替代方案,使用周围摄像头生成伪激光雷达点在自动驾驶领域被视为一种既经济又具有前景的解决方案。因此,为了将感知任务集成到BEV空间中,提出了许多方法。
集智书童公众号
2023/12/19
1.4K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
研究提出了一种创新的跨视角雷达-相机融合框架,通过查询机制实现了多模态特征的自适应采样,显著提升了自动驾驶环境下的3D目标检测性能。文章将从研究背景与动机、方法架构设计、关键技术创新、实验验证以及应用价值五个维度进行系统分析,重点剖析其核心算法原理与工程实现细节。
一点人工一点智能
2025/06/07
1380
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
文章:M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation
点云PCL博主
2023/08/21
6800
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
精华文稿|视觉自动驾驶最新技术路线浅析
自动驾驶是逐渐从预言阶段向工业化阶段的一个过渡,具体表现可分为4点。首先,在大数据的背景下,数据集的规模在快速扩张导致以前在小规模数据集上开发原型的细节会被大量过滤掉,能在大规模数据上有效的工作才会被留下来。其次是关注点的切换,从单目切换到多目场景,导致复杂度提升。然后是倾向于对应用友好的设计,如输出的空间从图像空间向BEV空间的转移。
一点人工一点智能
2023/01/11
6820
精华文稿|视觉自动驾驶最新技术路线浅析
Occ-BEV:通过3D场景重建实现多相机统一预训练
文章:Occ-BEV: Multi-Camera Unified Pre-training via 3D Scene Reconstruction
点云PCL博主
2023/08/21
8410
Occ-BEV:通过3D场景重建实现多相机统一预训练
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
自动驾驶感知需要对3D几何和语义进行建模。现有的方法通常侧重于估计3D边界框,忽略了更精细的几何细节,难以处理一般的、词汇表外的目标。为了克服这些限制,本文引入了一种新的3D占用预测任务,旨在从多视图图像中估计目标的详细占用和语义。为了促进这项任务,作者开发了一个标签生成pipeline,为给定场景生成密集的、可感知的标签。该pipeline包括点云聚合、点标签和遮挡处理。作者基于Waymo开放数据集和nuScenes数据集构造了两个基准,从而产生了Occ3D Waymo和Occ3D nuScene基准。最后,作者提出了一个模型,称为“粗略到精细占用”(CTF-Occ)网络。这证明了在3D占用预测任务中的优越性能。这种方法以粗略到精细的方式解决了对更精细的几何理解的需求。
公众号-arXiv每日学术速递
2023/08/26
1.3K0
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
自动构建物体周围环境的鸟瞰视图(BEV)对于自动驾驶和驾驶辅助系统等任务非常有益(Wang等,2023a)。这些方法通常会整合多视角摄像头接收到的信号,并将其转换为周围环境的俯视图。此外,由于这些系统在移动边缘环境中运行,因此在考虑构建准确性的同时还需关注计算成本(Ke等,2024)。
未来先知
2025/04/16
2310
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
一文全览 | 2023最新环视自动驾驶3D检测综述!
基于视觉的3D检测任务是感知自动驾驶系统的基本任务,这在许多研究人员和自动驾驶工程师中引起了极大的兴趣。然而,使用带有相机的2D传感器输入数据实现相当好的3D BEV(鸟瞰图)性能并不是一项容易的任务。本文对现有的基于视觉的3D检测方法进行了综述,聚焦于自动驾驶。论文利用Vision BEV检测方法对60多篇论文进行了详细分析,并强调了不同的分类,以详细了解常见趋势。此外还强调了文献和行业趋势如何转向基于环视图像的方法,并记下了该方法解决的特殊情况的想法。总之,基于当前技术的缺点,包括协作感知的方向,论文为未来的研究提出了3D视觉技术的想法。
集智书童公众号
2023/09/04
1.3K0
一文全览 | 2023最新环视自动驾驶3D检测综述!
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
移动机器人,如自动驾驶车辆,严重依赖于对其环境的准确和健壮的感知。因此,机器人平台通常配备有各种传感器[1, 2, 3],每种传感器提供互补的信息。例如,环视摄像头提供密集的RGB图像,而激光雷达或雷达系统提供稀疏的深度测量。然而,由于这些不同模态的数据结构本质上的不同,融合这些数据提出了一个重大挑战。解决这一挑战的常用方法是采用鸟瞰视图(BEV)表示作为共享参考框架[4, 5, 6, 7, 8, 9]。
AIGC 先锋科技
2024/07/08
4030
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
融合点云与图像的环境目标检测研究进展
在数字仿真技术应用领域,特别是在自动驾驶技术的发展中,目标检测是至关重要的一环,它涉及到对周围环境中物体的感知,为智能装备的决策和规划提供了关键信息。
一点人工一点智能
2024/03/22
2K0
融合点云与图像的环境目标检测研究进展
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
基于视觉的路侧3D目标检测在自动驾驶领域引起了越来越多的关注,因其在减少盲点和扩大感知范围方面具有不可忽略的优势。而先前的工作主要集中在准确估计2D到3D映射的深度或高度,忽略了体素化过程中的位置近似误差。受此启发,我们提出了一种新的体素化策略来减少这种误差,称为BEVSpread。具体而言,BEVSpread不是将包含在截头体点中的图像特征带到单个BEV网格,而是将每个截头体点作为源,并使用自适应权重将图像特征扩展到周围的BEV网格。为了实现更好的特征传递性能,设计了一个特定的权重函数,根据距离和深度动态控制权重的衰减速度。在定制的CUDA并行加速的帮助下,BEVSpread实现了与原始体素化相当的推理时间。在两个大型路侧基准上进行的大量实验表明,作为一种插件,BEVSpread可以显著提高现有基于frustum的BEV方法。在车辆、行人和骑行人几类中,提升幅度为(1.12,5.26,3.01)AP。
公众号-arXiv每日学术速递
2024/06/28
5580
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
三维目标检测是自动驾驶系统的一个关键组成部分,旨在准确识别和定位汽车、行人以及三维环境中的其他元素[49, 58]。为了鲁棒和高品质的检测,当前的实践主要遵循像BEVFusion[29, 34]这样的多模态融合范式。不同的模态通常提供互补的信息。例如,图像含有丰富的语义表示,但缺乏深度信息。相比之下,点云提供了几何和深度信息,但却是稀疏的且缺乏语义信息。因此,有效利用多模态数据的优势同时减轻其局限性,对于提高感知系统的鲁棒性和准确性至关重要[58]。
AIGC 先锋科技
2024/07/08
1K0
​四大院校携手 GraphBEV  |  将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
3D车道线检测能否成为自动驾驶的核心?盘一盘近三年的SOTA论文!
车道线检测是自动驾驶与计算机视觉领域中的重要研究方向,3D车道线任务更是近几年的研究热点,下面为大家盘点下近三年的一些工作!
一点人工一点智能
2023/02/06
1.9K0
3D车道线检测能否成为自动驾驶的核心?盘一盘近三年的SOTA论文!
做自动驾驶涉及哪些技术?超全总结上线
自2004/05年DARPA的“大挑战”(rural)和2007年的“城市挑战”以来,自动驾驶一直是人工智能应用中最活跃的领域。
博文视点Broadview
2023/09/09
1.3K0
做自动驾驶涉及哪些技术?超全总结上线
复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !
安全自主驾驶依赖于可靠的场景感知,核心任务是定位和识别周围3D世界中的决策性物体。为增强感知能力,激光雷达和摄像头传感器在大多数当前自主车辆中同时使用,分别提供点云和RGB图像。两种模式由于其不同的感知特性而表现出自然而强烈互补作用。点云涉及必要的局部化和几何信息,表示稀疏;而图像在高分辨率下提供丰富的外观和语义信息。因此,跨模态的专门信息融合对于强大的场景感知变得至关重要。
AIGC 先锋科技
2024/08/27
6170
复旦多模态 3D 检测最新成果  DeepInteraction!,融合感知算法刷新 SOTA !
推荐阅读
Fast-BEV:简单快速的BEV框架
1.3K0
FastBEV论文解读复现
1760
从论文到代码、从前沿研究到工业落地,全面了解BEV感知
5490
超详细 BEV 感知技术研究综述、BEV 感知实用工具箱Toolbox 及相关数据集分享
6910
【ADAS】万字文告诉你Transformer在BEV、3D检测、2D检测、Lane检测的应用,量化与加速
2.5K0
纯卷积BEV模型的巅峰战力 | BEVENet不用Transformer一样成就ADAS的量产未来
1.4K0
自动驾驶传感器"内卷"新思路:让AI自己决定该看摄像头还是雷达
1380
M^2BEV: 统一的鸟瞰图表示的多相机联合3D检测和分割
6800
精华文稿|视觉自动驾驶最新技术路线浅析
6820
Occ-BEV:通过3D场景重建实现多相机统一预训练
8410
清华大学&英伟达最新|Occ3D:通用全面的大规模3D Occupancy预测基准
1.3K0
MamBEV:基于 Mamba 框架与 SSM 跨注意力机制,提升 3D 视觉感知任务计算及内存效率并超越现有基准 !
2310
一文全览 | 2023最新环视自动驾驶3D检测综述!
1.3K0
BEVCar | 融合雷达,颠覆夜间与恶劣天气下的机器人视觉分割!
4030
融合点云与图像的环境目标检测研究进展
2K0
重塑路侧BEV感知!BEVSpread:全新体素化暴力涨点(浙大&百度)
5580
​四大院校携手 GraphBEV | 将激光雷达和相机信息融合到BEV,比 BEVFusion性能高出8.3% !
1K0
3D车道线检测能否成为自动驾驶的核心?盘一盘近三年的SOTA论文!
1.9K0
做自动驾驶涉及哪些技术?超全总结上线
1.3K0
复旦多模态 3D 检测最新成果 DeepInteraction!,融合感知算法刷新 SOTA !
6170
相关推荐
Fast-BEV:简单快速的BEV框架
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档