编辑:LRST
近年来,大型语言模型(LLMs)的进展已经在机器学习(ML)的许多领域带来了变革,特别是在理解和生成类人文本方面,激发了人们通过直接从LLMs中提取空间知识来弥合空间问答与自然语言之间的差距,研究成果涵盖了广泛的应用,包括地理百科全书问答、地理定位和自动高精度地图生成等。
然而,当涉及到空间推理任务时,LLMs的表现却显得力不从心,甚至在处理基本的空间任务时也遇到困难,例如地理解析和理解相对空间关系。这种差距在处理现实世界的空间推理任务时尤为明显,例如图1中所示的场景:
图1 现实世界中空间推理问题示例。满足空间约束的区域以蓝色突出显示
空间推理不仅要求模型理解复杂的空间关系,还需要结合地理数据和语义信息,生成准确的回答。
传统的空间问答系统依赖于专门的空间查询语言(比如GeoSPARQL, Spatial SQL),这些语言与人类语言大相径庭,使得普通用户难以使用。更重要的是,这些系统缺乏从人类文本的丰富上下文中推断复杂空间和语义关系的能力,限制了它们在现实世界问答场景中的适用性。
为了解决这些挑战,增强LLMs的空间推理能力,埃默里大学和德州大学奥斯汀分校的研究人员推出了一个革命性的框架Spatial Retrieval-Augmented Generation (Spatial-RAG),将检索增强生成(RAG)扩展到空间信息检索和推理,弥合结构化空间数据库与非结构化文本推理之间的差距,增强了LLMs在空间推理任务中的能力。
论文链接:https://www.researchgate.net/publication/388656403_Spatial-RAG_Spatial_Retrieval_Augmented_Generation_for_Real-World_Spatial_Reasoning_Questions
空间RAG
RAG在知识密集型任务(如问答)中已经展示了其有效性,通过检索特定领域的文档来增强LLM的响应。
然而,现有的RAG系统主要专注于检索和生成文本内容,缺乏空间推理任务所需的空间智能,尤其是涉及理解和计算几何体(如点、多段线和多边形)之间复杂空间关系的任务。
如图1中的例子,回答问题需要LLM从用户的文本请求中提取并形式化问题为「找到靠近多段线的点」,并基于空间地图(数据库)解决该问题。然后,它还需要推断用户偏好,以选择空间和语义上更优的候选对象。
因此,系统必须无缝集成结构化空间检索与非结构化文本推理,确保空间准确性和上下文理解。
为了实现这一目标,研究人员引入了空间检索增强生成(Spatial-RAG),这是一个新颖的框架,将文本引导的空间检索与空间感知的文本生成相结合。
具体来说,为了识别空间相关的候选答案,研究人员提出了一种新颖的空间混合检索模块,结合了稀疏和密集检索器。
为了对候选答案进行排序并生成最终答案,研究人员提出基于空间和语义联合排序策略的Pareto前沿检索结果来驱动生成器。该研究贡献总结如下:
通过这些创新,Spatial-RAG显著增强了LLMs的空间推理能力,弥合了结构化空间数据库与自然语言问答之间的差距。
方法简介
图2 Spatial-RAG框架
对于一个空间推理问题q, Spatial-RAG将生成答案y, 形式上,该研究定义:
其中包含三个待解决的关键阶段:
空间推理问题的答案必须满足特定的空间约束。空间候选集Cs(q)由满足一组空间约束Cs(q)的所有可能答案y组成。形式上,该研究定义:
其中cs(y,q)表示编码空间条件的约束函数(例如,拓扑、方向或距离约束),Cs(q)是与问题q相关的所有空间约束的集合。
例如,如果空间约束要求y与参考位置lq的距离不超过ϵ,则可能的约束函数为:
这种公式确保只有空间上有效的答案才会被包含在Cs(q)中。
处理空间约束需要在空间数据库中执行定义良好的空间SQL查询。此过程涉及识别适当的查询函数、参考空间对象、目标空间对象以及任何必要的数值参数。形式上,空间SQL查询可以表示为:
其中Fs是确定对象之间关系的空间查询函数,Gr表示从问题中提取的参考对象集合,Gt表示作为潜在答案的目标对象集合,ϵ是控制空间约束的数值参数。
鉴于这些约束的多样性和潜在的复杂性,大型语言模型(LLMs)通常难以直接从用户输入中构建完整且可执行的空间查询。为了弥合这一差距,研究人员逐步构建空间查询,允许LLM系统地填充所需的组件。
方法遵循三个关键步骤:
通过形式化这一结构化过程,研究人员增强了LLM生成准确且可执行的空间SQL查询的能力,从而提高了系统处理复杂空间推理问题的能力。
在空间推理任务中,准确识别空间对象并提取其空间几何体对于将问题解析为空间查询至关重要。空间对象g∈G通常可以分为三种基本类型:点、多段线和多边形。形式上,研究人员定义这些类别如下:
空间查询的复杂性取决于所涉及对象的类型。对于较简单的查询,例如「从给定位置找到最近的公交站」,只需要点几何体,空间候选集为:
其中gpoint⊆Gpoint表示点对象(例如,给定位置),ϵ是距离阈值。对于更复杂的查询,例如「我将从家沿着第7街和琼斯街步行到大学校园;请推荐一家我可以在步行途中购买早餐的咖啡馆。」,必须考虑多种几何类型,空间候选集为:
其中
表示多段线对象(例如,路线),
表示多边形区域(例如,大学校园),B是多段线周围的缓冲区,ϵ是缓冲区大小。
通过以这种方式构建空间查询,研究人员确保了精确的几何表示,促进了强大的空间推理和查询执行。
在识别了空间查询中涉及的几何体之后,下一步是确定处理各种几何交互所需的适当空间查询函数Fs
尽管几何体之间的交互不同,但它们可以通过距离函数d(gr,gt)统一处理,该函数计算两个几何实体gr,gt∈G之间的最短距离。
形式上,给定参考几何体集合Gr⊆G和目标几何体集合Gt⊆G,空间候选集Cs可以定义为:
参数如搜索半径或缓冲区距离ϵ由LLM自主确定,通常基于上下文理解(例如,估计的步行距离或感兴趣区域)。参数ϵ可以表示为:ϵ=ϕ(q),其中ϕ是将查询q的上下文映射到适当数值的函数。
一旦几何体Gr,Gt函数Fs和参数ϵ被确定,系统将构建精确的空间查询Qs,确保了从空间数据库中进行精确检索,保持结果的准确性和相关性。
通过利用这些数学公式,系统有效地将空间推理任务转化为可执行的查询,促进了LLM框架内的强大空间智能。
空间相关性分数fs由两个部分组成:一个来自空间数据库的稀疏空间检索分数,另一个来自基于问题和候选对象空间描述之间的文本相似性的密集空间检索分数。
形式上,研究人员定义:
其中λs和λd是控制每个分数贡献的权重系数。
稀疏空间相关性直接从空间数据库中使用显式空间关系计算。分数由空间查询函数 FsFs 确定,该函数计算参考对象和目标对象之间的距离。形式上,研究人员定义:
其中gr和gt分别是参考和目标空间对象。
是测量空间数据库中接近度的距离函数。如果gt与gr重叠,分配一个完美的相关性分数1,确保了区域内的对象具有最大的相关性,而区域外的对象随着距离的增加,其分数逐渐衰减。
与稀疏评分不同,密集空间相关性是从与空间对象相关的文本描述中推断出来的。研究人员利用LLM从用户查询中提取关键空间属性,并将其与候选对象的描述进行比较。
提取空间需求:给定用户查询q和一组空间对象Gt的文本描述dt,研究人员通过基于注意力的掩码函数提取相关的空间内容:
其中vq,s和vt,s是空间特征的密集向量表示,M是将输入文本映射到空间相关文本的提取函数,E是文本编码器。
通过余弦相似性排序:相关性分数通过余弦相似性计算:
混合排序泛化了稀疏和密集排序方法:
这种公式确保混合排序通过捕捉空间接近度和语义对齐,优于任何单一排序方法。
语义候选集Ck和语义相关性分数fk基于密集向量相似性计算。在获得所有分数和候选集后,问题变为多目标优化问题,因为每个视角(空间和语义)都独立贡献。
给定空间和语义相关性分数,目标是识别在空间和语义相关性之间实现最佳权衡的Pareto最优候选。
一个候选y是Pareto最优的,如果没有其他候选在空间和语义相关性上都优于它。
形式上,Pareto前沿P(q)定义为:
确保了P(q)中的每个候选都是非支配的,意味着没有其他候选在空间和语义相关性上都严格优于它。
一旦确定了Pareto前沿P(q),研究人员使用LLM根据用户查询的上下文动态平衡空间约束和语义偏好之间的权衡。
具体来说,LLM接收用户查询、稀疏空间相关性分数和空间对象描述作为输入:
基于上下文信息的动态加权函数
从输入中提取,调整空间与语义相关性的重要性,其中h是捕捉查询特定权衡的学习函数。
LLM选择排名最高的候选y∗:
并生成自然语言响应。
系统适应不同的查询上下文,而不是使用固定的加权方案。
通过将决策过程结构化为离散步骤(候选过滤 →→ Pareto选择 →→ 权衡平衡 →→ 响应生成),LLM避免了生成不可行或不合理的结果。这种结构化方法最大限度地提高了准确性和可用性,确保系统的最终响应与用户的原始意图紧密一致。
实验部分
研究人员在纽约市和迈阿密的旅游数据集上对Spatial-RAG进行了评估,展示了其在处理真实世界空间推理问题上的显著优势。
为了评估LLM(GPT-3.5-Turbo和GPT-4-Turbo)在此框架下的表现,研究团队对比了以下基线方法:
纽约(NYC)
迈阿密(Miami)
研究人员通过移除稀疏空间模块、密集空间模块和密集语义模块进行了消融实验。结果表明:
图3和图4(b)展示了一个典型的多段线搜索案例。
Spatial-RAG成功识别了用户意图,推荐了沿路线的餐厅,展示了其在复杂空间推理任务中的强大能力。
图3 Spatial-RAG 运行方式的示例:给定一个问题,1) 稀疏空间检索:LLM 将自然语言问题解析为空间数据库的空间 SQL 查询,检索满足空间约束和稀疏空间相关性分数的空间对象。2) 问题分解和密集检索:同时,Spatial-RAG 将问题分解为空间和语义组件,并将它们与空间对象的描述进行比较以执行密集检索,过滤掉不相关的内容。3) LLM 重新排序:语言代理平衡空间和语义方面以重新排序候选并生成最终答案。
图4 (a) 查询ϵ km半径内的点 (b) 查询路径周围的点 (c) 查询多边形内的点
结论
Spatial-RAG通过结合空间数据库和LLM的语义理解能力,显著提升了空间推理任务的性能。实验表明,Spatial-RAG在真实世界数据集上表现优异,能够有效处理复杂的空间推理问题,为旅游推荐、路径规划等应用提供了强大的支持。
参考资料:
https://www.researchgate.net/publication/388656403_Spatial-RAG_Spatial_Retrieval_Augmented_Generation_for_Real-World_Spatial_Reasoning_Questions