首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >告别监控盲区:深度采集RoCE网卡内部数据

告别监控盲区:深度采集RoCE网卡内部数据

原创
作者头像
星融元Asterfusion
发布2025-10-29 11:26:46
发布2025-10-29 11:26:46
390
举报
文章被收录于专栏:智算中心网络智算中心网络

当下大规模AI训练成为常态,RoCEv2凭借高性能、低延迟与低CPU开销的优势,已成为构建智算中心的优先选择。然而,RoCE对网络无损的严苛要求,配置不当会放大拥塞,如 PFC、ECN、Buffer滞留等引发的高延迟、性能下降等,而这些问题统一表现为“GPU通信异常”。而逐项排查的操作相当繁琐。

如何有效采集RoCE网卡状态数据?

为解决 RoCE 网络监控运维上的不便,我们新推出了EasyRoCE-NE(RoCE网卡状态采集,NIC Exporter)RoCE网卡状态采集工具。

EasyRoCE 工具集是依托开源、开放的网络架构与技术,为AI 智算、超算等场景的RoCE网络提供的一系列实用特性和小工具,如一键配置RoCE,高精度流量监控等。

NE 是 EasyRoCE 工具集中针对服务器网络监控部分的组件。由两部分构成:Exporter 客户端(NIC Exporter)、监控面板自动化创建程序(NIC Generator

采集数据

NIC Exporter 运行在GPU服务器内部,采集GPU网卡的配置、流量状况信息。转换为Prometheus能读取的标准格式并通过HTTP接口暴露。

可视化呈现

NIC Generator运行在部署EasyRoCE 工具集的服务器上,从 AID 工具((数据库组件)读取GPU服务器的IP信息。即可自动在 UG 工具 中创建可视化面板,将**NIC Exporter**采集到的信息展示出来。

部署指南

第一步:准备工作

  1. 下载NE工具包(ne.tgz、nic_exporter)(相关连接在主页获取)
  2. 先通过AID完成网络规划(GPU服务器硬件信息等),并将其上传到服务器的EasyRoCE 工具集目录下

第二步:开始安装

1、将nic\_exporter上传到GPU服务器中,并后台启动

代码语言:txt
复制
chmod +x nic_exporter
nohup ./ nic_exporter &

2、将nic\_exporter.tgz上传到服务器的EasyRoCE工具集目录下并解压,解压后其目录结构如下

代码语言:txt
复制
.
├── ne_dashboard.json  #UG面板文件
├── nic_generator.py   #启动脚本
└── requirements.txt   #依赖

其中ne_dashboard.json为UG的面板文件,nic_exporter.py是工具的启动脚本。

⚠️ 注意:这里为了为了避免影响服务器自身的python环境,推荐使用venv作资源隔离

代码语言:txt
复制
python
  -m venv .venv
source
  .venv/bin/activate

安装依赖

代码语言:txt
复制
pip install -r requirement.txt

启动

代码语言:txt
复制
./nic_generator.py

3、打印如下即成功创建UG面板

代码语言:txt
复制
Pushing dashboard to Grafana...
Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4}
All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk
Pushing dashboard to Grafana...
Dashboard pushed successfully: {'id': 116, 'slug': 'gpu-server8', 'status': 'success', 'uid': 'easyroce-ne-gpu-server8', 'url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version': 4}
All dashboards processed. Total: 8. Url: http://10.106.219.5:3000/dashboards/f/2LzXeK6Hk

【面板展示】

访问打印信息中的URL即可访问UG面板

NE面板目录
NE面板目录

面板中一个Dashboard为一台GPU服务器,点击面板即可看见网卡详细信息以及网卡的收发包情况

NE网卡详细信息展示
NE网卡详细信息展示

左上角变量就是该服务器的网卡,切换变量则可以展示不同网卡的信息。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如何有效采集RoCE网卡状态数据?
    • 采集数据
    • 可视化呈现
  • 部署指南
    • 第一步:准备工作
    • 第二步:开始安装
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档