TeleViT1.0：AI解码突破S2S野火预测瓶颈

气象学家

发布于 2026-03-25 21:18:38

150

文章被收录于专栏：气象学家气象学家

TeleViT1.0：遥相关感知的视觉变换器用于次季节至季节尺度野火模式预测

一、研究背景与科学意义

1.1 次季节至季节预测的科学挑战

次季节至季节（Subseasonal-to-Seasonal, S2S）预测始终是大气科学和地球系统科学领域的"预测沙漠"。这一时间窗口（约2周至3个月）处于传统数值天气预报（NWP）模式的可预报性极限之外，又短于气候预测的季节至年际尺度。NWP模式在中期预报（1-14天）后因混沌增长导致误差饱和，而低频气候信号尚未充分建立。这种"双重困境"使得S2S预测成为全球防灾减灾的重大科学瓶颈。

对于野火预测而言，S2S时距具有不可替代的实践价值。消防资源调度、燃料管理方案制定、应急人员配置等关键决策均需提前数周至数月进行。传统的火险天气预报系统（如欧洲森林火灾信息系统的FWI指数）在超出10-14天后预测技巧急剧下降，基本丧失业务指导能力。现有S2S系统多依赖于温度和降水异常的统计关系，但这类方法无法直接转化为 burned area 等具有明确物理意义的业务变量。这种"科学-业务"脱节严重制约了科研成果的社会经济效益转化。

本研究直面S2S野火预测的核心科学问题：如何有效提取和利用地球系统慢变成分（如土壤湿度记忆、海表温度异常、大气遥相关型）中的可预报性？ 这是典型的多尺度、非线性、非局地耦合问题，传统统计诊断方法和动力降尺度方案均难以满足需求。

1.2 野火活动与气候遥相关的物理联系

气候遥相关（Teleconnection）作为大气科学经典概念，指大尺度气候系统通过行星波、海气耦合等过程在不同地理区域间建立的动力联系。近年来大量观测证据表明，全球野火活动并非孤立事件，而是受到ENSO、NAO、AO、PDO等主导气候模态的显著调制。Cardil等（2023）的定量研究表明，气候遥相关可解释全球52.9%的 burned area 变率。这种调制作用具有显著的时滞特征和区域差异性——西伯利亚极端野火与前冬北极涛动（AO）相位及前期土壤湿度异常相关；非洲萨瓦纳火活动与ENSO及印度洋海温异常存在2-6个月的滞后关系。

从物理机制看，遥相关通过三条路径影响野火：1）大气环流调控：遥相关型改变大尺度天气型频率，影响降水、温度、相对湿度等局地火险气象条件；2）前期土壤-植被记忆：前期降水异常通过土壤湿度记忆效应持续影响植被含水率，这是S2S尺度的关键可预报性来源；3） 人类活动调制 ：气候异常通过农业、畜牧业等社会经济活动间接改变火源分布和燃料结构。这三条路径构成典型的"全球强迫-区域响应-局地反馈"级联过程，传统统计方法难以同时捕捉其时空异质性和多尺度非线性特征。

1.3 深度学习范式在地球系统预测中的突破

深度学习（DL）为S2S预测提供了全新范式。与物理模式不同，DL通过数据驱动方式直接从历史样本中学习复杂非线性映射，规避了显式参数化物理过程的困难。WeatherBench 2.0等基准测试证实，DL模型在中期天气预报中已超越传统NWP模式。Fuxi-S2S、GenCast等模型进一步将技巧延伸至S2S尺度，其核心创新在于：1）利用历史再分析数据捕捉慢变海洋-大气信号；2）通过隐式动力学习低频模态演化；3）采用集成预报技术量化不确定性。

然而，野火预测具有特殊挑战：强类别不平衡（burned area 占比<1%）、多源异构数据融合（气象、植被、社会经济数据）、空间异质性（不同生物群落火机制迥异）、时间多尺度性（从日变化到季节循环）。现有DL野火研究多集中于短临预报（1-5天），S2S尺度研究尚处起步阶段。Michail等（2025）的FireCastNet采用图神经网络建模空间依赖，但未显式引入遥相关指数；AttentionFire等循环神经网络架构对长时间记忆捕捉能力有限。本研究的突破点在于：将大气科学先验知识（遥相关指数）以结构化方式嵌入DL架构，实现物理引导的深度学习（Physics-Guided DL）。

三、TeleViT架构的技术创新

3.1 不对称Tokenization策略：多尺度异构数据的统一表征

TeleViT的核心创新在于其不对称Tokenization策略，这解决了多尺度异构数据融合的长期难题。传统Vision Transformer（ViT）采用均匀网格划分，无法处理空间分辨率、通道维度和时间维度差异巨大的输入。TeleViT对三类输入实施差异化处理：

• 局地输入（Local Input）：80×80网格，14个通道（0.25°分辨率，约25km）。采用5×5的16×16空间patch，生成25个空间token。这种划分保留了火险驱动因子的精细空间结构，特别是地形、土地利用等中尺度特征。
• 全球输入（Global Input）：360×180网格，同样14个通道（1°分辨率，约100km）。采用12×6的30×30空间patch，生成72个token。粗分辨率可有效抑制中尺度噪声，凸显大尺度遥相关信号（如ENSO相关的SST异常模态）。
• 指数输入（Indices Input）：10个遥相关指数×10个月的历史序列，构成10×10矩阵。采用逐元素tokenization（patch size=1），生成100个时间token。这种细粒度处理允许模型学习不同指数的时间演化特征及指数间的相位关系。

每个token通过独立的线性投影映射到统一嵌入维度D=768，叠加可学习位置编码后输入Transformer编码器。这种设计的技术精妙在于：既保持了各类输入的固有结构特性，又在隐空间实现统一表征，使自注意力机制能在异构token间建立跨尺度、跨模态的依赖关系。相比之下，传统方法需通过繁琐的预处理（如插值、降维）将多源数据对齐，往往导致信息损失。

3.2 跨尺度注意力机制：全球-局地信息流建模

标准Transformer编码器在token化序列上执行自注意力计算，产生N×N的注意力权重矩阵（N=25+72+100=197）。关键突破在于注意力矩阵的块结构：

• 局地-局地块（Aₗₗ∈ℝ²⁵ˣ²⁵）：捕捉局地驱动因子的空间相互作用，如土壤湿度与植被指数的耦合、地形对气象场的调制。
• 局地-全球块（Aₗg∈ℝ²⁵ˣ⁷²）：建模大尺度环流对局地火险的调控。例如，NAO正位相时，北大西洋涛动异常通过罗斯贝波列影响地中海地区降水，该过程可能被特定局地-全球注意力头捕捉。
• 局地-指数块（Aₗᵢ∈ℝ²⁵ˣ¹⁰⁰）：直接量化遥相关指数对局地burned area的时滞影响。例如，前冬ENSO指数可能通过改变季风爆发时间影响夏季非洲萨瓦纳火活动。

注意力卷积（Attention Rollout）技术通过累积多层注意力流，揭示跨层级的信息传导路径。这种设计使模型能自动学习空间分层注意力：底层注意力头聚焦局地特征交互，高层头捕捉全球-局地远程连接。这与大气科学中"级联效应"（Cascade Effect）的物理图像高度一致。

3.3 空间结构保持的解码器设计

早期TeleViT版本采用分类token和大解码器，导致空间结构崩塌。本研究的关键改进是逐token解码器：每个局地token独立解码为其对应空间patch的预测，再通过空间拼接重构完整burned area图。该设计确保：

1. 空间局部性：每个空间位置的预测由其对应token主导，避免全局信息"淹没"局地信号；
2. 可解释性：注意力权重可直接解释为不同输入对特定空间单元的贡献；
3. 计算效率：解码器为简单的线性投影，避免上采样带来的伪影。

这种"编码器-注意力-局地解码"范式与U-Net的跳跃连接有本质区别：U-Net通过通道拼接传递低级特征，而TeleViT通过注意力机制实现动态的、依赖输入的跨尺度信息路由，更具灵活性。

四、实验设计与数据基础

4.1 SeasFire数据集：全球野火-气候耦合的宝库

SeasFire v0.4数据集是本研究的基石，其科学价值在于：首次将多圈层火险驱动因子统一到时空一致的Cube结构。数据集覆盖2001-2021年，8天时间分辨率，0.25°空间分辨率，包含：

• 大气层：2米气温、海平面气压、水汽压亏缺、向下短波辐射、总降水（对数变换后）
• 陆面层：土壤湿度（0-7cm）、归一化植被指数（NDVI）、人口密度（对数变换后）
• 海洋层：海表温度（SST）
• 遥相关指数：ENSO（NINO3.4、CENSO）、NAO、AO、PDO、PNA、WP、EA、EPO

数据预处理的关键科学性体现在：人口密度和降水的对数变换既压缩了长尾分布，又保留了零值，这对野火这种稀疏事件至关重要；标准化处理（Z-score）消除不同物理量纲，使注意力机制能公平比较各变量重要性；时间序列构造采用10个月历史指数，覆盖ENSO演变周期（约6-18个月），确保模型可捕捉季节锁相特征。

训练-验证-测试集按年份划分（2003-2017训练，2018验证，2019测试），这种时间外验证（Out-of-Time Validation）避免了严重的数据泄露问题。排除2001-2002年数据是因MODIS Aqua卫星发射后burned area观测精度显著提升，体现了对数据同源性的严格把控。

4.2 模型配置与超参数优化

超参数搜索揭示重要规律：小模型偏好性。最佳配置为8层、8头、MLP维度1536，远小于标准ViT-Base（12层、12头、3072）。这表明S2S野火预测任务的数据复杂度有限，深层网络易过拟合。Token尺寸优化显示：

• 局地Patch 16×16最优：过小patch（4×4）增加序列长度（至400 token），注意力矩阵稀疏性降低，难以学习有效交互；过大patch（20×20）压缩为16 token，损失中尺度信息。
• 全球Patch 30×30最佳：过大patch（60×60）将全球场简化为6×3=18 token，难以区分不同洋盆的SST异常；15×15过小则引入过多噪声。
• 指数Patch必须细粒度：Patch size>1导致时间平滑，破坏指数演化的非线性特征。例如，ENSO指数在数月内的相位反转（El Niño转La Niña）是预测关键，平滑后该信号消失。

这些优化结果体现了 "奥卡姆剃刀"原则在DL中的适用性 ：任务复杂度决定模型复杂度，盲目增大模型并非良策。

五、研究结果与性能评估

5.1 全局预测性能：AUPRC指标的深刻解读

TeleViTi,g在16周（128天）预报时效达到AUPRC 0.6016，较ViT（0.5824）提升3.3%，较气候学基准（0.5716）提升5.2%。AUPRC（Area Under Precision-Recall Curve）的选择具有科学深意：野火预测是极度不平衡的二分类问题（burned area占比<1%），传统AUC-ROC会因大量易分类的非火点而虚高。AUPRC聚焦正类（火点）的精确率和召回率，更能反映模型对真实火险的捕捉能力。

性能衰减曲线显示，TeleViTg（仅全球场）和TeleViTi,g的衰减斜率显著缓于ViT。这表明全球场提供的慢变信号在长时效预测中价值凸显。值得注意的是，TeleViTi（仅遥相关指数）性能接近ViT，说明单纯加入指数并未带来质的提升，反而增加计算开销。这暗示：遥相关指数的信息熵可能已被全球场（如SST、海平面气压）隐式包含，显式指数引入更多是物理先验的"软化约束"。

5.2 区域性能差异：生物群落火机制的映射

GFED区域分析揭示模型性能与火机制的深层联系：

• 非洲萨瓦纳（NHAF、SHAF）AUPRC≈0.8：该区火活动受降水季节循环严格驱动，旱季末期燃料累积与雷击火源同步，形成高度可预测的火周期。TeleViT完美捕捉这一周期性，体现对强季节性系统的卓越建模能力。
• 拉丁美洲热带区（NHSA、SHSA、CEAM）AUPRC≈0.5-0.6：亚马逊等区火活动与ENSO相关干旱耦合，但人类放火的不确定性降低可预报性。模型在厄尔尼诺年表现突出，但在正常年份易高估火险，反映对气候-人为耦合机制刻画不足。
• 地中海区（EURO、TENA）AUPRC≈0.3-0.4：夏季高温干旱是火驱动主因，但火活动空间分散且受局地地形、植被类型强烈调制。模型难以区分不同植被类型的燃料响应，显示对生态异质性的表征能力有限。
• 北方森林（BONA、BOAS）AUPRC<0.3：该区火活动由极端暖事件驱动，但燃料充足且连续，火蔓延受天气尺度扰动（如阻塞高压）控制，空间模式随机性强。TeleViT无法捕捉这种天气尺度随机性与气候态背景约束的张力。
• 中东干旱区（MIDE）性能异常低：该区火活动稀疏且与偶发降水异常相关，但人口密度token的重要性却很高，暗示模型可能过拟合到人类活动伪相关，而非真实气候驱动。

这些差异深刻表明：DL模型的可预报性上限由目标系统的内禀确定性决定。对于强强迫-强响应系统（如非洲萨瓦纳），DL可逼近理论上限；对于弱强迫-随机扰动主导系统（如北方森林），任何数据驱动方法均面临根本性局限。

5.3 预测分布演变：从确定性到概率性

图3的预测分布直方图揭示关键现象：长时效预测（h=16）的softmax分数分布更集中低值区，短时效（h=0）更分散。这并非性能下降，而是预测不确定性的合理表达。在S2S尺度，火活动固有不确定性增大，模型应表达更低的确信度。目前TeleViT输出的是类别概率（确定性预测），未来应拓展至深度集成（Deep Ensemble）或扩散概率模型（如GenCast），显式量化预报不确定性。这符合贝叶斯概率预测框架：P(火|气候) = ∫P(火|气候,参数)P(参数|数据)d参数。

六、模型可解释性与物理机制

6.1 注意力权重分析：信息流的量化诊断

注意力权重统计显示（图5）：局地token平均注意力权重≈0.012，全球token≈0.005，指数token≈0.004。标准差分析极具启发性：局地token注意力标准差极高（尤其在亚马逊、非洲），表明模型在不同空间位置选择性激活特定局地驱动因子；全球token标准差低，说明其提供全局一致的季节性背景场；指数token注意力最低且稳定，暗示其作为辅助约束而非主驱动。

图6的空间注意力图显示，局地-局地注意力与预测火区高度重合，证实"局地信息主导"假设。局地-全球注意力虽弱，但在非洲东南部显示对印度洋SST patch的微弱关注，可能隐含ENSO遥相关信号。然而，作者谨慎指出：低注意力值不能直接解释为因果关联，可能是注意力机制的过度参数化导致的微弱随机耦合。这涉及DL可解释性的根本困境：注意力权重反映相关性而非因果性，需结合物理先验排除伪相关。

6.2 集成梯度分析：变量重要性的时空演化

集成梯度（Integrated Gradients）结果（图7）揭示驱动因子的时效依赖性：

• 短时效（h=0）：NDVI最重要，反映当前植被状态对即时火险的控制。这是合理的：活燃料湿度是火蔓延的即时约束。
• 长时效（h=16）：人口密度、土壤湿度、SST占据主导。这体现S2S预测的核心机制： 土壤湿度的季节记忆 、SST异常的慢变强迫、人类活动的燃料管理效应。人口密度重要性上升可能因其代理了土地利用类型和火源分布的季节循环。
• 全球场：太阳辐射（SSR）最重要，因其直接决定燃料干燥速率和季节相位。这再次证明全球场主要提供季节循环基准，而非瞬态遥相关信号。

值得注意的是，传统火险指数（FWI）未出现在输入变量中。作者依赖原始气象场让模型自学习火险状态，这虽增加自由度，但也导致可解释性下降。未来应探索物理信息嵌入，如将FWI作为显式特征输入，约束模型学习物理一致的特征表示。

七、研究局限性与未来方向

7.1 当前方法的技术局限

1. 单时间步输入：模型仅使用当前时刻t的变量，忽略时间序列的动态演化。虽然输入包含10个月历史指数，但局地场未时序化。Michail等（2025）证明时序建模可提升技巧。未来可采用时空联合tokenization（如3D patch），或引入Perceiver-style的迭代注意力机制。
2. 注意力二次复杂度：标准自注意力计算量O(N²d)，N=197时计算尚可，但若加入时序维度N将激增至数千。线性注意力（如Performer、Linformer）或稀疏注意力（如Longformer）是必然选择，但需重新设计以适应异构图结构。
3. 静态空间编码：位置编码仅区分token顺序，未显式编码地理距离。对于遥相关，球面距离和大气波导路径至关重要。未来应采用球面位置编码（Sine/Cosine of lat/lon嵌入多尺度特征），或在注意力中引入地理先验掩码（如仅允许特定局地-全球patch对交互）。

7.2 遥相关指数利用的深层反思

核心发现是：显式遥相关指数未显著提升技巧。这引发深刻反思——是否意味着传统气候诊断的指数在DL框架下冗余？可能原因是：

• 信息重叠：全球场（如SST、海平面气压）已包含构建指数的全部信息，DL可自动学习最优指数组合（即"隐式指数"）。
• 线性假设失效：传统指数多为区域平均或主成分，基于线性框架。DL可学习非线性遥相关模态，如ENSO与印度洋偶极子（IOD）的协同效应。
• 时变权重：不同季节、不同气候态下，各指数贡献动态变化。静态指数难刻画此特性，而注意力机制可自适应调整权重。

但完全放弃物理指数存在风险：DL可能过拟合到数据噪声，学习虚假遥相关（如ENSO与中东火活动的伪相关）。Bommer等（2025）尝试将NAO指数转化为分类变量（正/负/中性），利用物理阈值约束注意力。更优策略是 因果结构注入 ：基于已知物理机制（如ENSO→降水→土壤湿度→火险）构建因果图，在注意力计算中屏蔽非法路径，实现物理引导的注意力稀疏化。

7.3 概率预测与不确定性量化

当前TeleViT输出确定性概率，但S2S预测本质上是概率性问题。火险概率分布比单点预测更具决策价值。两条技术路径：

1. 深度集成：训练10-20个随机初始化的TeleViT，通过集成方差量化认知不确定性。这在计算上可行，因DL推理远快于NWP。
2. 扩散概率模型：借鉴GenCast，将野火预测建模为条件生成问题，从噪声中迭代去噪生成burned area图。扩散模型天然支持概率采样，可生成符合气候统计特征的野火事件集合。

7.4 应用拓展与地球系统变量预测

TeleViT架构具有普适性，适用于任何具有"局地-全球"分层结构的地球系统变量预测：

• 植被胁迫预测：NDVI异常预测可复用相同框架，全球场提供气候胁迫背景，局地场提供土壤、地形信息。
• 干旱预测：标准化降水蒸散指数（SPEI）的S2S预测，遥相关指数（如PDO）对多年代际干旱有重要指示意义。
• 生态系统生产力：GPP预测需整合局地光合作用条件与全球辐射、CO₂强迫。

核心挑战是目标变量稀疏性与观测质量。burned area观测存在显著不确定性，MODIS火烧迹地产品在小面积火、云层覆盖区误差较大。未来需融合多源观测（VIIRS、Sentinel-2），构建不确定性加权损失函数，使模型学习对观测误差的鲁棒性。

作者与单位信息

本研究由希腊与西班牙的联合团队完成，核心作者包括：

• Ioannis Prapas（第一作者）：雅典国立技术大学Orion实验室，主要贡献为TeleViT架构设计与实验实现。
• Nikolaos Papadopoulos & Nikolaos-Ioannis Bountos：参与模型开发与数据分析。
• Dimitrios Michail：Harokopio大学，FireCastNet（图神经网络野火预测）的主要开发者，为本研究提供时空建模经验。
• Gustau Camps-Valls：瓦伦西亚大学图像处理实验室，地球系统机器学习领域权威，指导可解释性分析与物理信息融合。
• Ioannis Papoutsis（通讯作者）：雅典国立技术大学Orion实验室负责人，SeasFire数据集的主要构建者。

单位分工明确：雅典国立技术大学负责核心算法与数据处理，瓦伦西亚大学提供DL理论支持，Harokopio大学贡献地球系统科学解释。研究受欧洲空间局（ESA）Future EO-1 "SeasFire"项目资助，体现了欧洲在地球观测AI应用领域的协同创新。

代码与数据可用性

• SeasFire数据集：v0.4版本公开于专用数据门户，支持xarray直接读取，显著降低使用门槛。
• TeleViT代码库：GitHub开源，包含完整训练、评估、可视化pipeline，配置文件驱动设计便于复现与改进。
• 交互式XAI应用：HuggingFace托管的Gradio应用支持在线浏览2019年测试集的预测、注意力图、集成梯度归因，极大促进模型透明化与社区参与。

这种"数据-代码-交互工具"三位一体的开放科学实践，符合Nature/Science级期刊的reproducibility标准，值得国内研究借鉴。