2026年2月28日
作者:Aiden Chang, Amparo Canaveras, Ari Uskudar, Amol Phadke
自主网络正迅速成为电信行业最高优先级事项之一。根据最新的某机构《电信行业AI现状报告》,65%的运营商表示AI正在驱动网络自动化,50%的运营商将自主网络列为投资回报率最高的AI应用场景。
然而,许多电信运营商仍反映在AI和数据科学专业能力上存在差距。这使得在复杂、多域网络中难以规模化部署安全、闭环的自动化。
当前,大多数电信网络运营中心(NOC)仍采用反应式、告警驱动的工作流程。工程师需要手动处理来自多个工具的海量告警和性能数据,在碎片化的仪表板和日志中拼凑信息,然后才能实施修复或派遣现场团队。NOC是自主网络的自然起点,因为这里集中了大量高重复性任务,AI可以直接降低平均修复时间(MTTR)和运营支出(OPEX)。
某机构(一家为各行业企业提供技术咨询和数字化解决方案的全球领先供应商)与某机构正在合作弥合这一AI技能差距。具体做法是将自主网络构建模块——开放模型、工具和实现指南——转化为电信开发者可以在自己环境中直接采用和适配的资产。
本文概述了如何使用某机构 NeMo 微调推理模型,使其行为像NOC工程师一样,安全地驱动闭环、自愈工作流程。内容包括:
最终产出是一个可复现的方法,电信团队可以用它构建自己的专用AI智能体,用于网络运营。这些智能体能够针对高发故障类别执行定界、根因分析和修复,帮助运营商向TM Forum L4级及以上高度自主网络迈进。
传统NOC自动化大多基于规则且是开环的:脚本在固定条件下触发,但在面对噪声信号、跨域依赖和不断变化的网络行为时表现不佳。因此,许多L1和L2任务(定界、根因分析、变更后验证)仍依赖人工,导致MTTR居高不下,限制了运营商向真正自主运营迈进的步伐。
一个电信推理模型成为AI智能体的引擎,能够以可控、可审计的方式承担这种工作模式。智能体不再使用硬编码的运行手册和零散脚本,而是利用模型来解读故障、决定调用哪些工具,并根据实时响应调整行动。关键特性包括:
最终结果是闭环、自愈的网络。专用NOC智能体处理常规定界与修复,工程师则从被动处理告警转向主动优化和解决复杂问题。
该解决方案的技术方法将以下组件组合成一个可复现的流水线:
模型不是直接从原始日志和告警中学习,而是在经过筛选的示例上进行训练,这些示例展示了经验丰富的工程师如何分析故障、调用工具以及判断修复何时完成。
在此案例中,Qwen3-32B作为基础推理模型,针对电信NOC工作流进行微调,遵循以下设计原则:
NeMo Skills端到端编排该流水线,利用其CLI、vLLM或TensorRT LLM服务器以及训练工具,从原始故障数据到微调后的电信推理模型。
流水线的输入是一个完全合成的故障数据集,该数据集模拟真实NOC行为建模。每条记录包含区域、域、优先级、问题类型、可能原因和时间戳等字段。同时还包含工程师备注,描述中间步骤,以及总结最终解决方案和关闭代码的结单备注。
故障摘要捕捉了网络性能下降或中断的原因,是模型被训练解决的核心问题。流水线聚焦于最高频、高影响的故障类型,这些故障占据了绝大部分故障量且需要明确的操作。推理模型深入学习那些驱动MTTR和OPEX的关键案例。
为了模拟真实的NOC工作流,定义了一组自定义工具供智能体在多步流程中调用,例如:
针对每种问题类型,领域专家将现有工作流转化为逐步指南,并映射到上述工具。示例包括:首先查阅哪个定界工具包、查询哪些告警、何时重启设备,以及如何验证光纤中断、电源故障或网元问题。
这些指南成为合成推理轨迹的蓝图,模型将从这些轨迹中学习。它们还定义了NOC智能体在生产环境中执行闭环工作流时的动作空间。
为了将专家NOC流程转化为电信专用推理模型的训练数据,遵循下面概述的三步NeMo Skills工作流。它将运行手册转换为结构化、多轮次的推理轨迹,可供自主NOC智能体使用。
步骤1:生成结构化动作序列
使用NeMo Skills的参考工作流,一个教师模型基于包含故障字段和指南模板的提示,为每个故障生成标准化的动作序列。这些步骤直接映射到NOC工具。
轨迹的格式使得每一步都记录了动作、参数、工具调用和即时结果,形成NOC工作流的结构化视图。
步骤2:附加每步推理
第二轮为每个动作附上推理文本,解释为什么要执行这一步、使用了哪些信号,以及它如何影响下一个决策。这创建了一条推理链,反映了有经验的NOC工程师如何基于拓扑、告警和历史行为进行推理。
由于原始轨迹可能冗长或重复,一个压缩阶段会合并相关步骤,同时保留关键决策点,使序列对训练更高效。
步骤3:格式化为多轮次、工具调用模型
使用NeMo Skills的另一个工作流,将格式化后的轨迹转换为Qwen兼容的格式,该格式编码了多轮次对话式交互和工具调用动作。多轮次标记化模拟了真实交互场景:智能体在推理、调用工具和解释工具响应之间交替进行,这对于部署ReAct风格的NOC智能体至关重要。
最终得到一个课程学习结构的数据集:简单案例和较短轨迹出现在前面,而更复杂的多步故障出现在后面,支持模型训练过程中的课程学习。
微调阶段对编译好的推理数据集进行标准训练/测试分割,NeMo Skills负责编排数据准备,Qwen3 32B作为基础推理模型。NeMo Skills的prepare_data工具应用了电信专用提示模板(noc_reasoning_sft)和Qwen分词器。这将训练分割中的每条轨迹转换为一个监督微调示例,包含:
最终生成一个包含SFT就绪示例的JSONL文件,用于电信推理模型。
为了提升学习效率,通过将样本从简单的单一问题故障排序到更复杂的多步、多工具案例,应用课程学习。这使得模型在处理长序列、多轮次排查模式之前,先掌握核心NOC行为。
多轮次标记化确保每个示例保留了查询、工具调用、响应和后续动作的真实序列,而非孤立的单轮提示。这些能力对于需要长上下文协调多个工具的下游ReAct风格智能体至关重要。
最终,Qwen3-32B在此电信推理课程上进行微调,使用长序列长度和跨GPU的张量模型并行。检查点和实验跟踪使团队能够迭代数据质量、课程设计和超参数。
结果是一个电信专用的推理模型,它理解故障字段、关闭代码和NOC流程,能够在生产环境中可靠地驱动多工具、多轮次的工具调用工作流。
初始评估聚焦于故障摘要准确性:嵌入ReAct风格智能体(带工具)的模型预测并执行给定故障正确修复路径的能力。
实验将微调后的电信推理模型与基线Qwen3-32B在留出的故障数据上进行对比,测量不同问题类型和关闭代码类别上的准确率、精确率和召回率。还可以在单个问题类型内分析故障摘要准确性,以突出推理轨迹和课程学习带来最大收益的地方,为后续合成数据生成和指南设计提供迭代依据。多轮评估表明,微调后的模型将准确率从约20%提升到了约60%。
除故障摘要指标外,随时间推移可以引入额外的评估方法以进一步加固系统,包括:
电信专用推理模型——由合成数据、结构化轨迹和安全工具调用驱动——可以使NOC向零接触、自愈运营迈进。通过聚焦高影响关闭代码、将专家指南编码为多轮推理轨迹,并使用某机构 NeMo软件工具包微调大模型,运营商可以构建能够可靠承担真实NOC工程师任务的智能体。
该流水线是可复用和可适配的,因此这种方法可以针对每个运营商的工具、数据和策略进行定制。这将加速整个行业从手动告警处理向智能、自主网络运营的转型。
要开始微调推理模型以构建网络运营的AI智能体,请参阅“教会模型推理电信网络故障”相关资源。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。