标题: MobiWorld: World Models for Mobile Wireless Network
作者:Haoye Chai(柴浩野), Yuan Yuan(苑苑),Yong Li (李勇)
机构:清华大学,北京邮电大学
论文链接:https://arxiv.org/abs/2507.09462

点击文末阅读原文跳转本文arXiv链接
当“世界模型”这个火热的概念进入移动通信领域,会碰撞出怎样的火花?近日,来自清华大学和北京邮电大学的研究者们首次尝试为移动网络定义并构建了一个“世界模型”。它基于先进的扩散模型,能高保真地模拟复杂的移动网络环境,让网络优化告别现网实时交互,在虚拟世界中就能找到最优策略,为6G的智能进化铺平了道路。
随着6G时代的临近,移动网络正变得前所未有的复杂。海量连接、多样应用场景和极致性能要求,给网络规划和优化带来了巨大挑战。传统方法要么依赖于成本高昂、风险巨大的真实网络 “试错”;要么依赖于简化理想的仿真模型,结果往往与现实脱节。近年来,虽然专用的深度学习模型在数据预测等方面取得了一些成功,但它们泛化能力有限,难以应对真实网络中千变万化的新情况,尤其无法生成在不同优化策略下网络应产生的差异化反馈。
那么,有没有一种方法,能让我们拥有一个“网络沙盘”,在其中安全、高效、低成本地演练各种优化策略呢?最近大火的“世界模型”(World Model)带来了答案。从OpenAI的视频生成模型Sora,到机器人和自动驾驶领域,世界模型已经展现出理解复杂世界并进行可控推演的强大能力,能够支持高保真的模拟、规划和实时决策。
现在,这一强大范式首次被引入移动网络领域。 来自清华大学和北京邮电大学的研究者,提出了 MobiWorld,一个专为移动无线网络设计的生成式世界模型框架。它旨在通过高保真、灵活的环境模拟,为网络规划和优化提供支持,让网络智能体(agent)无需与昂贵的真实网络交互就能有效做出决策 。
简单来说,MobiWorld是一个为移动网络量身打造的生成式世界模型。可以把它想象成一个由AI驱动的超级模拟器,能够通过统一的模型架构生成多种维度的移动网络数据,这包括了用户轨迹、移动流量、信道质量,甚至是网络速率等一系列数据。
它的核心作用是:服务于规划优化决策的agent,为其提供全面、真实的网络孪生反馈。
这个过程就像一个闭环:
通过在这个虚拟世界中进行成千上万次的快速“试错”,智能体可以高效地学习到最优策略,最终部署到物理网络中,大大降低了现实世界的实验成本和风险 。

图 1 基于移动网络世界模型的闭环决策过程
MobiWorld与传统预测模型的最大区别在于其强大的“可控生成”(Controllable Generation)能力 。
网络优化本质上是一个“反事实”(Counterfactual)的探索过程,在面向移动网络成千上万的优化参数时,优化过程需要不断地尝试各种各样的参数搭配策略,这个过程中就会产生大量历史数据中不曾发生过的参数组合,此时,仅仅“复现”历史规律是远远不够的,模型必须在全新参数搭配策略的“控制”下“生成”网络的真实反应。
MobiWorld通过对移动网络数据和多种控制条件之间的联合分布进行建模,实现了这一点,这些控制条件包括:

图 2 MobiWorld系统结构
有了这种能力,MobiWorld就能在多种维度上实现可控生成,这包括模态可控(产生视频、图像、信号、时序等多种模态网络数据),任务可控(能够支撑长期、短期、补全等多类任务)、事件可控(能够针对不同的突发事件、网络参数配置进行高保真反事实推演)。
相似,但不相同! 想象这样一个例子,传统数字孪生系统/模拟器像一支临时搭建的乐队,乐队中每个人都有不错的演奏能力,但一旦上到交响乐舞台,各声部之间的临场互动与即兴协作能力不足,演奏能力严重下滑。而世界模型像能指挥整场“交响乐”的总监,它不强行写死每个声部的规则,而是从海量现场录音中学到不同声部如何彼此“听”和“让”,因此能在多种场景下给出更贴近真实的整体演奏。
类似地,移动网络世界模型和现有的数字孪生系统/模拟器(如NS-3、Omnet等)本质上都是在模拟网络世界的基本运作行为。但是,现有的模拟器大多基于理论数值计算,对复杂移动网络的多个模块独立仿真,虽然单个模块内实现一定模拟精度,但是在进行系统级模拟时就很难准确反映模块之间极其复杂的内在关联。与此不同,移动网络世界模型吸收各个模块之间的海量数据,能够在训练阶段充分学习模块之间的数据依赖关系,能够更加准确地反映移动世界的变化特征。
为了实现MobiWorld对于复杂分布的建模能力,近些年大放异彩的扩散模型作为生成模型新范式,能够有效地帮助建立多种多样控制条件和移动网络数据之间的“潜在”联系,并且针对不同类型、分布迥异的网络数据,采用混合专家模型(MoE) 的 Transformer结构能够更为精准地学习数据的相互关系。

图 3 MobiWorld技术框架图
在多小区协同节能的场景中,每个小区都可以通过载波开关进入不同的休眠状态,并与“补偿小区”协同分担用户。如何在保障用户体验的前提下,最大化节能效果是一个极具挑战的问题。
MobiWorld会根据时空环境信息(如土地属性、POI 分布)和网络配置参数(功率、频点、载波开关等)生成两类关键数据:一类是系统观测值(小区流量、用户的栅格分布),另一类是用户体验指标(接收信号功率,RSRP)。
随后,agent(如 PPO、MAPPO)接管决策,围绕“总能耗 + 平均 RSRP”的联合目标,探索小区载波关断与用户卸载比例的最佳组合。整个策略生成 → 虚拟环境反馈 → 策略更新的闭环决策过程收敛至最优节能策略。最终,这些经过充分验证的策略可以直接迁移到真实网络,提高部署的可靠性与鲁棒性。

图 4 MobiWorld支持的节能优化
实验结果表明,MobiWorld 在可控数据生成与节能优化两方面均表现出显著优势。在生成任务中,模型能够在短期预测和长期生成两种模式下,准确生成小区流量与栅格用户分布,且生成分布与真实数据高度一致;在用户侧 RSRP 的可控生成中,模型在不同发射功率、载波频点及用户距离等条件下均能输出真实结果,验证了可控生成能力。 图 5 MobiWorld数据生成效果(左:小区流量与栅格用户数,右:不同基站发射策略下RSRP值)
MobiWorld数据生成效果(左:小区流量与栅格用户数,右:不同基站发射策略下RSRP值)
在节能优化任务中,基于 MobiWorld 的强化学习方法在多种场景下的能耗效用均优于经验阈值法与启发式方法,这得益于其能够同时综合流量、用户分布和覆盖质量等多维信息进行策略决策。此外,通过生成高负载等反事实场景,MobiWorld 还能显著提升策略在稀有及极端网络状态下的鲁棒性与泛化能力。

基于MobiWorld的节能优化效果
未来展望:构建更全面、高效的无线网络世界模型
尽管MobiWorld已经展现出巨大潜力,但这只是通往AI-native的6G网络的第一步。正如论文中指出的,前方还有一片蓝海等待探索,未来工作的重心将围绕以下方向展开 :