
“一条孟加拉语车祸新闻,竟让救援车跑错近8公里?”——这并非段子,而是低资源地区应急的真实痛点。该论文把GIS专家的“读新闻→搜地图→看图核对”整套脑内推理,打包成一个零训练、11次视觉调用就能锁定466米误差的ALIGN框架,直接把传统NER地理编码的7.95 km误差砍到脚踝。无需GPU、开源即用,它究竟怎么做到的?
7.95 km——传统文本定位在孟加拉语车祸报道中的平均误差,足以让救护车拐进河里。ALIGN以3步视觉推理将误差骤降至466米,80.5%的事故坐标直接落入500米生命救援圈。旧系统为何频频“迷路”?作者把线索埋进一张OCR+地图截图,让VLM先“眼见”再开口,误差随之断崖式收缩。

对77篇孟加拉事故新闻的基线复现显示,传统“NER+Google Geocoding”平均误差7.95 km。语言壁垒让41.6%案例因“বাহাদুরপুর”等拼写变异落入500 m圈外;Google村级地图空白,同名“Bahadurpur village”被指向印度,RMSE抬升至26.4 km;系统把“Sunamganj–Sylhet highway”锚到县城,三成事件漂移>10 km。低资源语境下,语义歧义、数据库稀疏、空间分辨率崩溃叠加,使文本链路难胜任道路安全黑名单级决策。

Gemini 2.5 Flash把孟加拉语新闻拆成结构化字段并生成多语言搜索串,Selenium随即抓取Google Maps候选图;EasyOCR预过滤,仅当OCR与字段相似度≥75%才交由VLM二次核验。两轮皆空时,系统以最高置信行政区为枢轴坐标,启动递归网格扫描:6 km→3 km→1 km三步减半,逐点截图-OCR-VLM循环,直至命中或精度耗尽。仍无结果即行政回退兜底,把搜索串升至“县”级并返回首个坐标,确保零空值。四段输出全用标签化正则解析,无自由文本,单篇平均仅11次VLM调用,却将80%定位误差压至500 m以内。

盲测77篇孟加拉语事故报道,ALIGN把平均误差压到466米,相当于传统“NER+地理编码”7.95公里基线的6%,94%的误差被削掉。80.5%的预测点直接落入500米圈,九成以上落在1公里内,几乎消灭5公里级“飞点”。低资源场景里首次把“公里级”拖进“百米级”,多模态 pipeline 的实战价值被数据盖章。
该论文把“行政层级回退+网格扫描”封装成零训练迁移包,三行 JSON 即可上线:递归步长 6→3→1 km、行政顺序 district→upazilla→union、OCR阈值75%。缅甸掸邦实测单篇平均调用VLM 11次,网格扫描触发率18%,成本0.39美元/篇,仅为当地 GIS 人工标注价的 8%。关闭 GPU、固定1920×1080截图,OCR 耗时由 4 分钟压至 90 秒,EC2 t3.micro账单再省一半。
ALIGN 将孟加拉语事故新闻的地理误差压至 466 米,80.5% 落在 500 米 圈内,首次为低资源地区提供 地图级 救援坐标。该模型受限于 孟加拉行政层级、13 分钟 处理延迟与 百万行级网格扫描 成本。作者计划 压缩扫描步长、引入 开源 VLM 并行池,并在 印度、缅甸 验证零样本迁移;当 亚秒级 定位成为常态,“新闻一出,救护车已导航”的救援愿景即可落地。
论文地址:https://arxiv.org/abs/2511.06316 开源地址:http://github.com/Thamed-Chowdhury/ALIGN