从轨迹、交通状态到地球智能,时空大模型这两年到底走到哪了?
事情是这样的。
2024 年,我和北航Bigscity实验室(https://www.bigscity.com/)完成 BIGCity 这项工作的时候,其实有一种很微妙的感觉。
一方面,我们很确定这件事是对的。
轨迹数据和交通状态数据,不应该一直被拆开。
一个是个体怎么走。
一个是城市怎么流。
这两件事,在真实导航、网约车、交通调度、物流配送里,本来就是纠缠在一起的。
但另一方面,当时的时空大模型还处在一个比较早期的位置。
它不像今天的多模态大模型,一发布就能让所有人直接感受到,哇,模型又会看图了,又会生成视频了,又能写代码了。
时空大模型更隐蔽一点。
它藏在地图背后。
藏在交通状态背后。
藏在气象、遥感、人流、轨迹、城市传感器背后。
它解决的问题不是模型能不能看懂一张图。
而是,一个城市、一个区域、一个地球系统,正在怎么变化?
过去两年,我重新看这个方向,感受越来越强烈。
时空大模型这件事,已经不只是城市计算圈子里自己的事情了。
它开始慢慢靠近一个更大的问题。
如果大模型真的要理解现实世界,它迟早要拥有时空感。
01 BIGCity 当时真正想解决的,其实是时空世界怎么 token 化
现在回头看 BIGCity,我觉得它最重要的地方,不只是做了一个交通预测模型,也不只是覆盖了若干轨迹和交通状态任务。
更重要的是,它在问一个基础问题。
时空世界,能不能被组织成模型可以统一理解的 token?
在 NLP 里,文本可以被切成 token。
在 CV 里,图像可以被切成 pixel 或 patch。
但城市时空数据不一样。
轨迹是一串道路段和时间。
交通状态是路网上的速度、流量、密度序列。
它们一个偏个体,一个偏群体。
一个像移动行为,一个像城市流场。
看起来不是一种东西。
但真实世界里,个体轨迹会聚合成群体交通状态,群体交通状态又会反过来影响个体路径选择。
所以 BIGCity 做的核心动作,是提出 ST-unit,把道路段、动态交通状态、时间信息组织成统一单元,再进一步变成 ST-token,输入到可调的大模型框架中。论文也明确把它定位为面向轨迹数据和交通状态数据统一分析的 multi-task、multi-data modality 模型,并用 task-oriented prompt 支持多类异构时空任务。

图 1:BIGCity 的模型架构。来源:BIGCity, arXiv:2412.00953, Fig. 2。
这件事当时看,是交通和轨迹建模。
现在再看,它其实触到了一个更大的问题。
大模型理解现实世界,不能永远只靠文本、图像、视频。
现实世界还有道路、区域、时间、速度、流量、人群、天气、事件和约束。
这些东西要进入模型,就需要新的表示方式。
也就是一种更广义的 spatiotemporal tokenization。
这可能是过去两年时空大模型最值得关注的变化之一。
大家逐渐不只是在问,这个任务怎么刷高分?
而是在问,这个世界怎么被模型看见?

图2:BIGCity 的 task-oriented prompt 模板。来源:BIGCity, arXiv:2412.00953, Fig. 3。
我现在越来越觉得,BIGCity 当时讨论的不是一个孤立交通模型问题,而是时空模态接口的早期问题。 |
|---|
02 时空模态为什么不只是又一种多模态
很多时候,我们会把文本、图像、音频、视频放在一起说,统称多模态。
但时空数据有点不一样。
它不是单一模态。
它更像是现实世界的一组压缩接口。
一条轨迹,不只是几个经纬度点。
它背后有道路连通性、出行目的、时间规律、城市结构和人类选择。
一个交通状态,不只是某个传感器的速度值。
它背后有上下游道路、早晚高峰、天气扰动、事故事件、信号灯和道路容量。
一张遥感影像,也不只是图像。
它有地理坐标、多光谱、多时相、分辨率、地物类别和变化过程。
STFM 相关综述把时空数据分成 raster、point reference、trajectory、event 等类型。这个分类很有启发,因为它说明时空模态不是一张地图或者一条轨迹,而是一组结构差异很大的数据形态。

图 3:时空数据的四种典型形态。来源:Goodge et al., Spatio-Temporal Foundation Models, arXiv:2501.09045, Fig. 1。
所以,时空模态的难点不在于它有坐标。
而在于它同时有空间、时间、拓扑、物理约束、动态变化、人类行为和现实扰动。
这也是为什么我越来越觉得,时空感会成为大模型走向真实世界时绕不过去的一块能力。
图像让模型看见世界。
语言让模型描述世界。
视频让模型看到世界的片段变化。
但时空数据让模型理解,世界为什么在这里变化,为什么在这个时间变化,变化会沿着什么结构传播,这个变化会影响谁。
这几个问题,才是真正接近现实系统的问题。
03 过去两年,时空大模型从通用建模走向统一接口
这两年时空大模型的发展,我觉得可以分成三个阶段看。
阶段 | 代表工作 | 主要问题 | 变化 |
|---|---|---|---|
2024 前后 | UniST、OpenCity、BIGCity | 能否从单任务走向通用时空建模 | prompt、预训练、统一任务开始出现 |
2025 前后 | UrbanDiT、STFM survey、Prithvi-EO-2.0 | 能否跨数据形态、跨城市、跨场景 | diffusion、遥感、开放世界时空学习开始合流 |
2026 前后 | UrbanFM、Geospatial Reasoning / Earth AI | 能否规模化和系统化 | data scaling、benchmark、agent 编排开始成为关键词 |
UniST 代表了早期通用城市时空预测的思路,用多场景数据、预训练和知识引导 prompt 去支持不同城市时空预测任务。OpenCity 则更强调交通预测中的异构数据、Transformer 与 GNN 结合,以及跨区域、跨城市的 zero-shot 泛化。
BIGCity 关注的是另一件事。
轨迹和交通状态这两类动态时空数据,能不能放进一个统一框架里。
这在当时看是一个具体问题,但现在看,其实是时空模态统一的早期尝试。
到了 UrbanDiT,路线明显扩展了。
UrbanDiT 把 diffusion transformer 用到开放世界城市时空学习里,试图统一 grid-based 和 graph-based 数据,并支持双向预测、时间插值、空间外推、时空补全等任务。
这说明时空大模型不只有一条 GPT 化路线。
它还有一条很强的 diffusion 化路线。
如果说 Transformer next-token prediction 更像是在续写一条轨迹、一串事件、一个道路状态序列。
那 diffusion / flow 这类生成式路线,更像是在生成一个连续时空场。
例如交通热力图、人流密度、天气场、遥感变化、污染扩散。
一个是续写序列。
一个是生成场。
这两条路都重要。
它们不会简单互相替代。

图 4:UrbanDiT 的整体框架:统一数据类型、扩散 Transformer、任务 masking 与统一 prompt learning。来源:UrbanDiT, arXiv:2411.12164, Fig. 2。
04 Diffusion 和 NTP,未来大概率是底层分工、中层融合
现在很多人会把路线简单分成两类。
diffusion,适合栅格。
Transformer NTP(next token prediction),适合矢量。
这个判断大体是对的,但还不够。
我更倾向于认为,底层会分工,中层会融合,上层会系统化。
先说为什么底层会分工。
Diffusion 更适合连续场。
比如天气、人流、遥感、交通热力图、城市活动强度。
这类问题天然有不确定性。
明天一场雨,会造成几种可能的拥堵演化?
一场大型活动散场,会让周边人流怎么扩散?
某片区域的洪水风险,会沿着地形和道路怎么传播?
这些问题不是一个单点预测,而是一组可能未来。
生成式模型在这里很自然。
而 Transformer NTP 更适合离散序列。
比如下一路段。
下一 POI。
下一事件。
下一站点。
下一动作。
一条轨迹就是序列。
一辆车在路网上移动也是序列。
一个物流订单从产生到完成,也是一串状态转换。
所以 NTP 在轨迹、路径、事件流、时空任务编排中会继续很重要。
但真实世界不会只给你一种数据。
真实交通问题里,同时有道路拓扑、车辆轨迹、速度场、天气、事故事件、POI、信号灯、历史规律和人类选择。
只做 diffusion,会丢掉拓扑和个体决策。
只做 NTP,会丢掉连续场和不确定性分布。

图 5:Diffusion / Flow 与 Transformer NTP 路线关系:生成时空场与续写时空序列在中层融合。
模块 | 更擅长处理 | 未来角色 |
|---|---|---|
Diffusion / Flow | 连续场、热力图、天气、遥感、补全、反事实生成 | 时空场生成器 |
Transformer NTP | 轨迹、道路段、事件、POI、任务序列 | 时空序列推理器 |
GNN / Graph Transformer | 路网、传感器、电网、管网 | 拓扑结构编码器 |
Neural Operator / PDE | 天气、水文、污染、物理系统 | 物理演化算子 |
LLM / Agent | 意图理解、任务分解、工具调用、结果表达 | 时空智能调度层 |
一句话,未来不会是 diffusion 吃掉 NTP,也不会是 NTP 吃掉 diffusion。
更可能是,生成场的模型、续写序列的模型、理解图结构的模型、处理物理演化的模型,被统一到一个更大的时空智能系统里。
这时候,问题就从哪个模型结构最好,变成了它们之间怎么对齐,怎么交换信息,怎么接受同一个任务描述,怎么把结果交给人使用。
这也是为什么我觉得,时空大模型的下一阶段关键词,不只是 model。
而是 interface。
05 真正关键的变化,时空模型开始靠近系统
这两年另一个很明显的变化是,时空大模型不再只是单篇论文里某个任务的SOTA。
它开始往系统方向走。
UrbanFM 就很典型。
它不只是提出一个模型,而是同时讨论 data scaling、computation scaling 和 architecture scaling。它构建 WorldST,把 100 多个全球城市中的交通流、速度等物理信号标准化为统一格式;提出 MiniST unit,把连续时空场离散为可学习计算单元;还建立 EvalST 作为大规模城市时空 benchmark。
这意味着,时空大模型正在进入基础模型更熟悉的那套逻辑。
数据规模。
统一计算单元。
通用架构。
评测基准。
跨城市泛化。
zero-shot 能力。
这和语言模型的发展路径有某种相似性。
基础模型真正变强,不只是因为有 Transformer。
而是因为数据、token、架构、训练目标、benchmark、scaling 一起成熟。
时空大模型现在也开始走到这个位置。
更值得注意的是,地理空间智能也在向模型 + 工具 + agent 的形态发展。
Google Research 的 Geospatial Reasoning 不是只做一个孤立模型,而是把 Gemini、地理空间基础模型、Earth Engine、BigQuery、Google Maps Platform、用户数据和公共数据源组织到一个系统里,用于回答复杂地理空间问题。Google 的介绍中也提到,地理空间问题需要对 weather、maps、images等多种数据进行对齐和交叉引用,而这不是一般 AI 方法天然擅长的。
这件事很有代表性。
它说明真实落地时,时空智能不会只靠一个模型闭环。
它更像一个系统。
模型负责学习规律。
工具负责精确计算。
数据平台负责接入世界。
大模型负责理解问题和组织过程。
这也许才是时空大模型真正进入应用的形态。

图 6:一个更可能的终局:通用模型、时空模型和工具链的分层协同。
06 时空模态未来会不会融入通用多模态模型
我觉得会。
但不是简单被吞掉。
更可能是两层结构长期共存。
一层是专业时空基础模型。
比如交通、轨迹、遥感、天气、城市人流、地理空间分析。
这些领域的数据和约束太强,不太可能完全靠通用 LLM 自己学完。
另一层是通用多模态模型或 agent。
它负责理解自然语言意图,组织任务,调用工具,整合结果,给人解释。
这有点像视觉模型和多模态大模型的关系。
多模态模型出现后,视觉模型没有消失。
它们变成了系统里的眼睛。
同样,时空基础模型也不会消失。
它会变成系统里的时间感和空间感。
或者更准确一点,它会变成模型理解现实世界流动的器官。
这里面很重要的一点是,时空问题往往带有强约束。
道路有连通性。
交通有容量限制。
天气有物理规律。
洪水有地形和水文逻辑。
人口迁移有社会经济结构。
模型生成得像,不代表真的能用。
所以未来的时空智能,一定不是把所有数据转成文字,然后让 LLM 猜。
它需要专业模型。
需要 GIS 工具。
需要仿真器。
需要数据库。
需要可验证的约束。
需要置信度和可视化。
也需要能把这些东西组织起来的通用模型。
07 如果说过去两年解决的是能不能做,接下来要解决的是怎么接
过去两年,时空大模型已经证明了一件事。
它不是一个伪命题。
轨迹可以 token 化。
交通状态可以统一表示。
城市时空任务可以 prompt 化。
diffusion 可以进入城市时空场。
遥感和地球观测也在走基础模型路线。
Prithvi-EO-2.0 就是一个很好的例子。它基于 NASA Harmonized Landsat Sentinel-2 数据训练,包含 420 万个全球时间序列样本,并加入 temporal 和 location embeddings,用于多种地球观测任务。
但接下来真正难的,不是再多刷一个任务。
而是怎么把这些能力接起来。
我觉得有几个问题会越来越关键。
第一,ST-token 怎么设计。
它不能只是经纬度。
也不能只是道路 ID。
它要表达空间位置、时间状态、拓扑关系、动态属性、采样频率、任务语义。
第二,时空模型和通用模型怎么对齐。
是 adapter?
是 projector?
是 tokenizer?
是 tool calling?
是 retrieval?
还是一个独立的 spatiotemporal encoder 接到通用模型 hidden space?
第三,时空任务怎么 prompt 化。
不是写一句预测一下明天交通。
而是把轨迹、路网、天气、事件、约束条件、输出格式组织成可执行任务。
第四,预测模型和生成模型怎么协同。
轨迹序列可以 NTP。
城市热力图可以 diffusion。
路网可以 graph。
天气和水文可以 operator。
不同模型之间,需要一个统一的任务和信息交换接口。
第五,怎么保证结果可靠。
这就涉及 GIS、路径规划、仿真器、规则系统、数据源校验、置信度表达和可视化解释。
层级 | 负责什么 | 典型技术 |
|---|---|---|
数据层 | 接入真实世界 | 地图、遥感、天气、轨迹、交通、POI、事件、人口 |
表示层 | 把世界切成模型能吃的东西 | ST-token、grid patch、road segment、sensor node、event tuple |
时空模型层 | 学习时空规律 | diffusion、NTP、GNN、neural operator、Mamba |
工具层 | 做精确计算和约束校验 | GIS、路径规划、仿真器、数据库、规则引擎 |
Agent 层 | 理解意图、分解任务、组织答案 | 多模态 LLM、tool calling、RAG、planning |
应用层 | 面向现实问题输出方案 | 交通调度、灾害响应、物流、城市规划、气候风险 |
我觉得这张图会比单独讨论某一个模型更重要。
因为真正的趋势不是某条路线单独胜出。
而是这些路线要开始连接。
08 所以,两年过去了,时空大模型到底怎么样了
如果让我现在给一个判断,我会说,时空大模型已经从一个概念,走到了接口成型前夜。
它还没有像 LLM 那样成为通用基础设施。
也还没有像图像生成那样进入大众感知。
但它的技术轮廓已经越来越清楚。
过去它像一个任务集合。
交通预测、轨迹补全、遥感分类、天气预报,各做各的。
现在它开始变成一个更统一的问题。
如何让模型理解现实世界在空间和时间里的变化。
这个问题很大。
也很难。
因为它不只是技术问题。
它背后还有数据、隐私、实时性、跨城市泛化、物理约束、可解释性、责任边界。
但正因为难,它才有价值。
一个没有时空感的大模型,当然可以很聪明。
它可以写文章。
可以写代码。
可以看图。
可以总结文档。
但它离真实世界还有一层距离。
它知道地图上有路。
但不一定知道这条路为什么每天 8 点半会堵。
它能看懂卫星图上有水。
但不一定知道水位是怎么涨上来的。
它能读懂天气预报。
但不一定知道这场雨会怎样改变城市里的车流、人流、救援路径和配送系统。
时空模态补的就是这一块。
它让模型不只是看见世界。
而是开始理解世界的流动。
09 结尾,模型也该开始学会流动了
两年前,我们做 BIGCity 时,面对的是一个具体问题。
轨迹和交通状态怎么统一?
现在再看,我觉得这个问题只是一个入口。
更大的问题已经慢慢浮出来了。
模型怎么理解城市?
怎么理解交通?
怎么理解天气和地面系统的耦合?
怎么理解人群迁移?
怎么理解灾害扩散?
怎么理解真实世界在空间和时间里的变化?
这些问题,不是把经纬度写进 prompt 就能解决的。
也不是把地图截图丢给视觉模型就能解决的。
它需要一套新的时空表示。
需要专业时空基础模型。
需要工具链。
需要 agent。
也需要把这些东西一层层接起来的长期实践。
过去两年,时空大模型从概念长成了一片技术森林。
里面有 BIGCity 这样的 ST-token 路线。
有 UrbanDiT 这样的 diffusion transformer 路线。
有 UrbanFM 这样的 scaling 路线。
有 Prithvi-EO 这样的地球观测基础模型。
也有 Geospatial Reasoning 这样把模型、数据和工具组织起来的系统路线。
这些树现在还长得有点乱。
但乱不是坏事。
乱说明它还在长。
我越来越相信,再过一段时间,我们可能不会再单独问,时空大模型是不是一个方向?
就像今天很少有人再问,多模态是不是未来?
它会变成默认能力。
地图会懂时间。
模型会懂城市。
系统会连接真实世界的流。
语言模型学会了说话。
多模态模型学会了看见。
接下来,模型也该开始学会流动了。
城市在流。
人也在流。
AI 如果要进入真实世界,也必须学会流。
以上。
谢谢你看我的文章。
我们,下次再见。
附 参考资料与图示来源
1. BIGCity: A Universal Spatiotemporal Model for Unified Trajectory and Traffic State Data Analysis,https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=11113134
2. UniST: A Prompt-Empowered Universal Model for Urban Spatio-Temporal Prediction,
https://dl.acm.org/doi/10.1145/3637528.3671662
3. OpenCity: Open Spatio-Temporal Foundation Models for Traffic Prediction,
https://dl.acm.org/doi/10.1145/3773912
4. UrbanDiT: A Foundation Model for Open-World Urban Spatio-Temporal Learning,
https://neurips.cc/virtual/2025/loc/san-diego/poster/115649
5. UrbanFM: Scaling Urban Spatio-Temporal Foundation Models,
https://arxiv.org/abs/2602.20677
6. Spatio-Temporal Foundation Models: Vision, Challenges, and Opportunities,
https://arxiv.org/abs/2501.09045
7. Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications,
https://arxiv.org/abs/2412.02732
8. Google Research: Geospatial Reasoning,
http://sites.research.google/gr/geospatial-reasoning/
9. Google Earth AI,
https://ai.google/earth-ai/