前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >游戏、电商、Web3……「腾讯云可观测」护航企业出海,精准规避跨境网络暗礁

游戏、电商、Web3……「腾讯云可观测」护航企业出海,精准规避跨境网络暗礁

作者头像
腾讯云可观测平台
发布于 2025-04-18 04:45:46
发布于 2025-04-18 04:45:46
1010
举报

导语:在全球数字化转型和企业出海的浪潮中,「腾讯云可观测」凭借对网络质量和用户体验的高效洞察,深度赋能国内出海企业,助力其有效应对海外公网质量挑战,构建“质量可观测、风险可防范、性能可优化”的全球业务可观测体系。

对于游戏、电商、Web3 等领域的头部出海企业而言,不可控的全球公网环境,犹如出海旅程中的暗礁,潜藏着风险与挑战,随时可能影响业务的顺利开展:

  • 当中东用户因公网质量劣化而无法支付——如何提前探知?
  • 当东南亚用户因区域流量封禁而直接流失——如何防范风险?
  • 当港澳用户因 CDN 调度失衡而体验波动——如何动态优化?

若缺乏对公网质量和用户体验的主动探测能力,则无异于将出海企业的业务,构建在了流沙之上。

直面公网的不确定性,企业需要用确定性技术矩阵来应对。腾讯云可观测平台,通过全球网络质量掌控、终端用户体验洞察等能力,供企业打造完善的可观测体系,助力企业在复杂的国际环境中保持竞争力,从而增益海外可持续的业务增长。

1.质量观测:CAT+RUM,洞察网络

在业务拓展过程中,出海企业常常面临因远距离传输而导致的网络传输缓慢、不稳定、延迟和掉线等问题。这些问题严重影响了用户在不同地域和网络环境下的一致体验,尤其在跨境电商、在线游戏、音视频流媒体等对网络依赖性极强的领域表现得尤为突出。

Aberdeen Group 的研究表明:网站响应时间慢 1 秒,可能会造成用户转化率减少 7%,页面 PV 减少 11%,客户满意度降低 16%;如果一个网站超过 3 秒没有响应,57% 的用户会放弃浏览。由此可见,用户体验直接影响着企业品牌形象和经济收入。

2.png
2.png

为了解决这些挑战,腾讯云可观测平台推出了 CAT(云拨测RUM(终端性能监控,为企业构建多种场景和维度下的网络质量可观测性,助力企业实时掌握网络性能、快速定位问题,以及优化 CDN 选型和调度策略,从而提升整体的用户体验和业务转化率。

腾讯云可观测平台的 CAT(云拨测)和 RUM (终端性能监控)的组合方案,能为企业提供多维度的网络质量监控,如下表所示的常见场景:

结合 CAT(云拨测)的主动探测,与 RUM(终端性能监控)的真实用户感知能力,腾讯云可观测平台为企业提供全场景、多层次的网络质量洞察体系。

  • 区域性质量建模
    • 主动探测矩阵:基于全球 500+城市节点,通过周期性 TCP/PING/HTTP 拨测,建立区域网络质量基线。
    • 用户体验掌控:RUM 捕获真实用户设备的 DNS 解析耗时、SSL 握手时间等 7 层网络数据,结合 CAT 拨测结果交叉验证,解决传统监控“数据失真”问题。
  • 全链路分段分析
    • 性能瓶颈定位:RUM 将请求拆解为 DNS 解析、TCP 建连、首字节传输等阶段,精准定位问题环节。
    • 多维数据关联:CAT 的 MTR 路径分析能力与 RUM 的地理热力图联动,识别跨运营商路由跳变导致的区域性丢包问题。
  • CDN 选型决策支持
    • 多厂商性能对比:通过 CAT 对同一资源发起多 CDN 厂商节点访问测试,输出区域性服务质量报告(如首包时延、下载速率)。
    • 动态权重评估:基于 RUM 采集的真实用户数据,构建节点评分模型,指导流量调度策略优化。

1.1

CAT(云拨测):主动式全球网络探针

云拨测(Cloud Automated Testing,CAT)利用分布于全球的监测网络,以真实终端用户使用场景为视角,提供模拟终端用户体验的拨测服务,实现对网络质量、页面性能、端口性能、文件传输、音视频体验等场景进行周期性监控,并支持多维度分析性能指标,利用可视化性能数据和告警通知,帮助客户及时对业务质量作出反应,保证业务稳定正常运行。

  • 多维场景 云拨测支持网络质量、页面性能、端口性能、文件传输(上传、下载)和音视频体验等场景的监控。
  • 多维分析 云拨测支持从地图分析、多类型图表趋势分析、地区分析、运营商分析等维度深入分析云拨测任务的性能结果,并支持分析单个拨测样本的详情。
  • 灵活告警 云拨测结合腾讯云可观测告警能力,为客户提供实时、灵活的告警服务,便于客户实时处理异常。

以网络质量监控的场景为例,使用 CAT(云拨测),我们可以对指定的服务器(IP或域名)做 Ping 监测、DNS 监测、Tracert 监测,获取监测过程中的链路节点网络数据和时延、丢包等,实时了解网络链路波动情况,从而有效降低网站访问无效、卡顿、响应慢、耗时长等问题,提升用户体验。

  • 广泛分布的探测点:全面覆盖多种网络环境 腾讯云拨测丰富的网络资源,可以覆盖 99% 的用户接入方式和网络环境,真正做到无死角监控 。
5.png
5.png
  • 地区、运营商多维聚合对比:快速定位影响范围 全地域,运营商网络质量对比一目了然。快速发现区域性、运营商网络问题,及时修复,最大化降低业务影响。
6.png
6.png
  • 详细日志信息:完整保留故障现场 针对每一次探测,腾讯云拨测为您提供探测点基本信息外,还全量保留 Dig、Ping 日志,跃点信息。无需复现,直接保留故障现场。
7.png
7.png
  • 自动抓包:无死角全面传输情况捕捉 若详细日志不足以支持故障排查,需要抓包分析终极手段,腾讯云拨测任务配置中,支持针对探测中的“错误请求”或者针对“全部请求”自动抓包。后续,可以在详细日志页面,下载数据包,深入分析。
8.png
8.png

1.2

RUM(终端性能监控):透视真实用户体验

以终端性能监控 RUM-App 为例,其网络能力专注于移动 app 场景,可结合网络监控和移动拨测,运行在用户手机设备上,天然覆盖各种网络环境。通过网络监控,可以实时监听用户真实请求的各阶段耗时;而移动拨测则能补充更多维度的信息,覆盖监控不到的场景,获取的数据更加真实和全面。

以 RUM 客户排查 CDN 问题的场景为例:

第1步. 接入 RUM 网络监控

app 接入 RUM 网络监控能力,实时获取真实用户最真实的体验情况,了解用户在不同城市、不同时间、不同运营商的访问体验,通过多维度的数据分析,迅速识别和度量问题的严重性。 某客户接到告警通知,某关键域名广东地区的请求耗时劣化。

9.png
9.png

通过对网络监控分段耗时数据的分析,发现 TCP 和 TTFB 耗时相对较高,初步判断与网络路由有关。

10.png
10.png

第2步. 创建拨测任务

为了进一步排查验证,客户创建了被动拨测任务,当 CDN 域名出现慢请求时,自动进行拨测。

推荐方式:打开被动拨测能力,当发生类似的问题的时候,自动进行拨测。

11.png
11.png

拨测结果发现,在慢请求中,用户与 CDN 节点之间的路由较长,并且存在跨运营商的情况(网络路由质量 <= 2)。

12.png
12.png

第3步. 排查 CDN 问题

在检查 CDN 配置没有明显问题后,客户将监控数据反馈给 CDN 厂商,经过 CDN服务的详细排查,确定问题源于 CDN 服务的调度策略更新出现了问题。通过调整和优化调度策略,最终解决了这个问题。

2.风险可防范:被动止损到主动防御

当前,网络劫持攻击日益频繁,尤其是在海外。由于网络环境复杂、运营商众多,DNS 污染和流量劫持等问题屡见不鲜。 当用户从 app 发起请求时,黑客可利用中间人攻击篡改内容,运营商可能强制插入广告页面,政策封禁更会让特定区域服务瞬间瘫痪。

这不仅导致用户流失、交易失败,更可能因敏感数据泄露引发法律风险。据测算,一次未被及时发现的 DNS 劫持,可让电商类 app 单日损失超百万订单。而许多攻击,由于请求并没有实际到达服务端,无法通过服务端监控来识别,仅能依赖用户反馈,时间流程长、定位慢,业务损失大。 CAT+ RUM 网络监控,可以帮助业务更高效的识别定位劫持攻击,减少业务损失。

13.png
13.png
  • DNS 劫持 在发起网络请求时,需要先向 DNS 服务器请求解析域名获取到对应的 IP,再向目标 IP 发起请求,许多攻击者会在这个流程内篡改域名解析结果,将用户发起的请求导向不可用的 IP,甚至是导向钓鱼网站、广告等站点 IP,造成业务及用户损失。
  • IP 封禁 当特定 IP 被列入封禁名单时,运营商骨干网会通过 BGP 协议劫持路由路径,将本应发往目标 IP 的流量重定向至无效路由节点。
  • 特定端口封锁 当用户尝试与目标服务器建立连接时,某些地区防火墙会根据预设规则,对特定IP 的特定端口号(如 443 HTTPS 端口)的包直接丢弃。攻击者可能通过伪造大量非法请求触发风控机制,或利用政策合规问题诱导监管机构封禁,使得用户请求直接被丢弃或返回虚假错误信息,最终导致服务在该区域完全不可用。
  • TCP 重置攻击 在 TCP 三次握手阶段(客户端发送 SYN→服务端响应 SYN-ACK→客户端回复ACK),攻击者可通过监听网络流量伪造虚假的 RST(连接重置)数据包,强制中断正常连接建立,导致服务不可用

2.1

CAT + RUM 共同抵御网络攻击

14.png
14.png
  • DNS 劫持抵御 在后台服务的监控中,往往只关注业务接口的错误率、耗时等,而 DNS 劫持场景下, 实际请求并没有到达服务端,因此业务感知困难。而 RUM 网络监控会采集 APP 内所有请求的域名、解析的 IP、地理位置等数据,助力识别劫持现象。
    • 对于服务端 IP 相对固定的情况,可以通过实时比对各地区用户请求的域名解析 IP 与预设的 IP 白名单是否一致,当检测到异常 IP 占比突增时自动告警,快速定位问题。
    • 而在使用了 CDN、负载均衡等场景下,服务端 IP 是动态的,难以通过预设的白名单识别。 这种情况下,可以通过计算各域名、地区、IP 的错误率,响应包大小波动等来识别异常 IP,例如,如果某个 IP 在此之前未出现过,而突然出现并且异常率高达 90% 以上时,极有可能就发生了 DNS 劫持。
  • IP 封禁、特定端口封锁抵御 当发生了 IP 封禁或端口封锁时,客户端往往会发生连接超时或网络不可达的错误,而 IP 封禁往往是某地区、国家一起封的,因此会呈现某个地区的连接超时异常率突增的情况,如果此时服务端没有异常,那便可以定位为 IP 封禁或端口封锁的情况并告警,让业务及时联系采取行动。
  • TCP 重置攻击抵御 在 TCP 重置攻击下,客户端会出现连接重置的错误,这种情况,如果也有明显的地域特征显现,那么也可以通过数据分析识别出来,但如果地域特征不特别明显,那么需要识别出异常是由于客户端网络原因,或者服务器异常原因、还是被封禁、攻击的原因。 为了达成这一点,可以结合 RUM 的移动拨测能力来识别。通过配置请求错误后拨测任务,当发生网络错误时,自动对发生了错误的 IP 进行 Ping/TCP Ping 和MTR 探测,如果 Ping 和 MTR 结果正常,而 TCP Ping 失败,且服务端也没有异常,那么也极有可能是 TCP 攻击。

2.2

客户案例:CAT+RUM 解决 DNS 劫持问题

某头部出海社交 app 客户,时常收到用户反馈自身网络状态良好,但 app 报网络错误的反馈,但服务器的监控一直正常,为了更好的用户体验,客户接入了 RUM 网络监控功能。开启后,通过监控数据发现,有部分 CDN 节点的服务端 IP 异常率高达 90% 以上。

客户通过事前配置云拨测任务及告警、事中通过 RUM 分析数据,就能及时探测到劫持情况,并获知它的影响范围。通过分析,这些 IP 并不来自于 CDN 厂商节点,而是钓鱼网站、ISP 广告网站等。

15.png
15.png

例如上述 89.208.107.49,就是一个常见的被劫持后跳转到的异常 IP:

16.png
16.png

定位到上述劫持问题之后,一方面客户联系当地运营商解决当前问题,同时开始接入 HTTPDNS 服务,以彻底解决此问题。

3.性能优化:RUM+EdgeOne 方案

腾讯云 RUM 与 EdgeOne 深度协同,构建了从用户体验感知到智能调度的闭环体系,旨在提升用户体验和服务质量。其核心价值体现在以下技术场景中:

  1. 监控 EdgeOne 服务质量:通过实时监控 EdgeOne 的服务性能,确保各项指标始终处于最佳状态。这一监控系统能够及时捕捉到服务的延迟、丢包率等关键数据,为后续的优化提供数据支持。
  2. 及时告警,主动跟进识别区域及核心客户网络质量劣化:系统能够在网络质量出现异常时,迅速发出告警,确保相关团队能够第一时间介入。通过对区域以及核心客户的网络质量进行深入分析,帮助企业及时发现潜在问题,减少对用户体验的影响。
  3. 移动拨测支持定位分析网络异常问题归属:借助移动拨测技术,用户可以在不同网络环境下进行测试,系统能够精准定位网络异常的来源。这一功能不仅提高了故障排查的效率,还为网络优化提供了有力的数据依据。
  4. RUM 触发 EdgeOne 节点自动调度,保证高可用性:RUM + EdgeOne 联合调度方案,能够从 RUM 侧获取全球用户最后一公里体验, 协助 EdgeOne 实现基于策略的平滑调度。当 RUM 监测到用户体验下降时,系统会自动触发 EdgeOne 节点的调度,确保流量能够迅速切换到健康的节点。这一智能调度机制大幅提升了系统的高可用性,确保用户在任何情况下都能获得稳定的服务体验。

3.1

RUM + EdgeOne 联合方案背景

经过十余年的积累与沉淀,EdgeOne 的质量地图和调度系统已达到成熟阶段,行业口碑稳居第一梯队,问题自愈覆盖率高达 98%。

然而,面对复杂多变的海外网络环境,稳定性和质量面临新的挑战:单一的能力无法全面覆盖所有问题,因此需要客户端与服务端共同构建质量看板,以便更好地支持业务发展。 通过建立双边协同机制,构建全天候、一站式的质量看板和容灾逃生能力,我们能够迅速发现并解决业务访问异常,例如局部成功率下降和延时上升等问题。

借助全球用户的最后一公里用例体验,RUM 与 EdgeOne 的联合调度将实现策略的平滑调整,从而优化网络性能,确保用户在不同网络环境下都能获得流畅的体验。

3.2

客户案例: RUM 触发 EdgeOne 调度

其原理是腾讯云 RUM 提供全面的真实用户体验洞察,基于准确的数据驱动分析,快速识别并解决影响用户满意度的问题。通过这种联合调度的机制,可以实现对网络质量的实时监控和动态调整,从而提高服务的稳定性和用户体验。

1.数据采集与上报:

通过腾讯云 RUM SDK,收集用户的真实网络体验数据,包括请求耗时、响应耗时细分(如 DNS 解析耗时、TCP 建连耗时、SSL 耗时、首字节耗时等)以及 HTTP 错误码等信息。

2.数据分析与决策:

异常检测:RUM 服务端会对收集到的数据进行实时分析,通过对比当前指标与历史基线,识别出网络质量的异常波动,并同步给 EdgeOne 侧。

调度决策:EdgeOne 侧根据异常检测的结果,做出调度决策,如切换到备用机房或回源站,以优化用户体验。

3.调度执行:

调度切换:一旦做出调度决策,系统会自动执行切换操作,将流量从问题区域转移到其他健康区域。

业务恢复:在切换后,系统会监控业务是否恢复正常,如果问题得到解决,则保持当前调度策略;否则,可能需要进一步调整。

以某出海社交客户为例,某次典型的故障发生和最终解决的过程如下图所示。由于缺乏真实用户 LastMile 数据的补充判断,故障持续时间长达数小时,严重影响终端用户体验。

18.png
18.png

而客户上线 RUM 触发 EdgeOne 自动调度的方案后,由 RUM 采集到的真实用户 LastMile 数据,结合 EdgeOne 后台检测数据,做出智能调度决策。据客户侧统计,该方案上线半年后,终端用户访问故障率降低了 31%。

19.png
19.png

除故障之外,RUM 还可上报时延信息,EdgeOne 侧以一定策略对比基线数据后,做出是否调度的决策。如下图所示,是某出海客户近期的两次由 RUM 感知高时延,自动触发 EdgeOne 调度,最终降低访问时延、保障终端用户体验的案例:

结语:落地效果 & 未来展望

在全球数字化转型浪潮中,腾讯云可观测平台以 质量可观测、风险可防范、性能可优化 三位一体技术矩阵,为出海企业构建了从被动响应到主动掌控的质变路径。基于部分头部企业的实战验证,我们的方案为客户带来以下显著收益对比:

未来,我们将在此基石上深化 AI 驱动的可观测大脑 ,实现技术价值与商业增长的双向跃迁:

  • 预测性决策:基于历史数据构建动态阈值系统,提前识别区域性网络劣化趋势,让风险防控从"救火式"转向"防火式";
  • 商业价值闭环:通过「数据采集→智能分析→资源调度」链路,实现运维成本与营收增长的 ROI 透视突破,驱动技术投入创造业务增长的裂变效应。

最终,让每一次用户交互转化为可度量、可预测、可放大的增长动能,与全球企业共同构建智能、弹性、可持续的全球化服务网络。

联系我们

如有任何疑问,欢迎加入官方技术交流群

关于腾讯云可观测平台

腾讯云可观测平台(Tencent Cloud Observability Platform,TCOP)基于指标、链路、日志、事件的全类型监控数据,结合强大的可视化和告警能力,为您提供一体化监控解决方案。满足您全链路、端到端的统一监控诉求,提高运维排障效率,为业务的健康和稳定保驾护航。功能模块有:

  • Prometheus 监控:开箱即用的 Prometheus 托管服务;
  • 应用性能监控 APM:支持无侵入式探针,零配置获得开箱即用的应用观测能力;
  • 云拨测 CAT:利用分布于全球的监测网络,提供模拟终端用户体验的拨测服务;
  • 前端/终端性能监控 RUM:Web、小程序、iOS、Android 端等大前端质量、性能监控;
  • Grafana 可视化服务:提供免运维、免搭建的 Grafana 托管服务;
  • 云压测 PTS:模拟海量用户的真实业务场景,全方位验证系统可用性和稳定性;
  • ......等等
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云可观测 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档