Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >视频云转拉灾备——腾讯云挂掉引发的思考

视频云转拉灾备——腾讯云挂掉引发的思考

原创
作者头像
榴莲其实还可以
发布于 2018-07-25 11:26:47
发布于 2018-07-25 11:26:47
2K0
举报

故事背景

就在昨天,腾讯云部分功能挂了,经查实广州机房的光缆被挖断导致。当时也影响到了我们视频云转拉这边的业务。有个例子是,一个小客户有个流没有拉起,但是收到了已经拉起的回包。经过我们的分析,原因如下:当转拉请求下发到服务器(内网之间的通信,使用的是内网IP),服务器能收到并处理该请求,所以正常回包。当请求处理程序启动ffmpeg进程时,ffmpeg会去和源站建连(使用外网IP),由于光缆断了,外网肯定是不通的,转拉自然也不会成功。正因此也引发了我们关于转拉灾备的一个思考。

思考与解决方案

解决方案说起来肯定是很简单的,既然机器外网不同,那很简单,以后的转拉请求不发给这台机器就ok了。那现在问题就变成了:怎样知道这台机器不行了?

对此我们充分利用了转拉模块的上游模块——状态中心。解决方案:

1,ffmpeg进程定期上报心跳包到状态中心(上报的字段至少包括两个:进程所在ip, 进程状态);

2,状态中心定期(比如1分钟)统计下各ffmpeg进程发过来的包,以ip为作为关键字分类,统计该ip下正常的ffmpeg进程和异常的进程(对于网络这个问题,异常就是ffmpeg报建立连接失败错误)的次数。

3,当异常情况的比例达到一定的阈值的时候,我们可以认为这台机器有些问题了,暂时到不可用ip列表中。

4,状态中心隔一段时间(比如1小时)扫描一次不可用ip列表。将存在超过一定时间阈值(同样可以是1小时)的ip解禁。因为ip放入到不可用列表后,该机器不会收到转拉请求,所以不知道机器所处的状态,故需要手动删除。如果此时故障还未修复(比如外网依然不通),该机器很快又会加入到不可用ip列表中。

结语

阿里云挂完,腾讯云挂。像腾讯,阿里这样中国互联网超一流的公司,也偶尔会遇到因为容灾问题而导致的服务不可用问题。对于我们后台开发,很多服务经常会依赖于别人,除了指望别人做的可靠之外,也应该思考下如何从自身出发,加强程序的健壮性。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
腾讯网关 TGW 基础原理入门
作者:厉辉,腾讯后台研发高级工程师,当前在腾讯游戏后台团队工作,熟悉四七层负载均衡以及 API 网关等技术领域,同时也是 CNCF Ambassador 以及 Apache APISIX PMC。 本文是在组内技术分享的发言稿,主要介绍 TGW 基本原理和架构,同时为了加深理解,会辅助对比 TGW 与 LVS(ipvs)的异同。本次分享是偏基础性的 TGW 介绍,不会特别深入技术细节,目的是帮助需要用到 TGW 的同事快速的了解 TGW。 零、引言 TGW,全称 Tencent Gateway,是一套实现多
腾讯技术工程官方号
2022/04/14
3.7K0
腾讯网关 TGW 基础原理入门
从技术角度谈一谈,我参与设计开发的手Q春节红包项目
今年春节期间,QQ以AR技术为支撑、娱乐体验为导向在春节期间推出系列红包并成功刷屏,系列红包包括三大玩法+年初一彩蛋,分别是“LBS+AR天降红包”、刷一刷红包和“面对面”红包,加上“娱乐红包”(明星刷脸红包),共计在春节期间派发了2.5亿现金红包和价值30亿的卡券礼包。根据企鹅智酷提供的数据,手机QQ的用户渗透率在全平台排名第二,为52.9%(第一是微信)。本文将会详细介绍手Q春节红包项目的设计、容灾、运维、架构以及总结。
Java高级架构
2018/08/16
1K0
从技术角度谈一谈,我参与设计开发的手Q春节红包项目
一文揭秘服务灾备,完美回答企业数据的“送命题”!
不论是自然灾难还是人为灾难,只要有数据传输、存储和交换的地方,就会产生数据失效、丢失、损坏等风险,一旦发生,就会给数据中心带来难以估计的损失;而灾备,是一种对业务数据安全的重要保护方式。
玄姐谈AGI
2021/02/08
6570
性能百万/s:腾讯轻量级全局流控方案详解
WeTest质量开放平台团队
2017/07/19
2.6K0
性能百万/s:腾讯轻量级全局流控方案详解
ffmpeg视频云转拉耗时优化(续)
背景 https://cloud.tencent.com/developer/article/1149105?s=original-sharing 上次在这里详细分析了ffmpeg转拉过程中的耗时问题
榴莲其实还可以
2018/07/12
2.1K0
ffmpeg视频云转拉耗时优化(续)
世界杯直播技术揭秘及视频云直播回源系统的应用
近些年,视频直播应用蓬勃发展,带宽也是日渐新高,腾讯云旗下的视频云直播为斗鱼、快手、虎牙、龙珠、CNTV广大的企业客户提供了很大的支持,在行业内起到了引领的作用。
用户2951495
2018/08/27
1.5K0
腾讯云实时音视频云端录制子系统上线,为多个行业带来全新改变
- 云端录制系统的技术实现 - 在远程教育、秀场直播、视频会议、远程定损、金融双录、在线医疗等应用场景中,考虑取证、质检、审核、存档和回放等需求,常需要将整个视频通话或互动直播过程录制下来。 针对这些场景的录制需要,我们需要有一套通用的高可用的云端录制系统来实现。 以往常见的方法是,通过将音视频数据推到 CDN 进行录制。这种方案虽然比较方便,但是整个链路引入了较多环节和供应商,彼此耦合较深,无论是开发新特性或者是调查问题,都会相对麻烦。 在分析了多种解决方案的利弊以后,我们设计并且实现了一个能
腾讯云音视频
2021/09/10
1.4K0
视频案例 | AMS 新闻视频广告的云原生容器化之路
卓晓光,腾讯广告高级开发工程师,负责新闻视频广告整体后台架构设计,有十余年高性能高可用海量后台服务开发和实践经验。目前正带领团队完成云原生技术栈的全面转型。 吴文祺,腾讯广告开发工程师,负责新闻视频广告流量变现相关后台开发工作,熟悉云原生架构在生产实践中的应用,拥有多年高性能高可用后台服务开发经验。目前正推动团队积极拥抱云原生。 陈宏钊,腾讯广告高级开发工程师,负责新闻视频广告流量变现相关后台开发工作,擅长架构优化升级,有丰富的海量后台服务实践经验。目前专注于流量场景化方向的广告系统探索。 一、引言 新闻视
腾讯云原生
2022/05/25
1.1K0
视频案例 | AMS 新闻视频广告的云原生容器化之路
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
自研业务存储平台-是 QQ 的富媒体(图片、视频、语音、文件等)数据传输、存储、处理等全链路解决方案的平台。致力于为用户提供稳定快速的群聊 、单聊图片上传和下载服务。为了面对突发热点也能快速响应,作者团队决定对其进行上云处理。本文着重以 QQ 聊天图片(简称:QQ 图片)为例讲述整个上云的过程及调优。
腾讯云开发者
2023/08/18
4620
超时错误码减少99.85%,QQ聊天图片自研上云的技术详解
海量服务实践──手Q游戏春节红包项目设计与总结
1. 需求背景 1.1.红包类别 2017年的手Q春节游戏红包共有刷一刷/AR地图/扫福三种,如下图所示: 1.2.体验流程 虽然红包分三种,但在游戏业务侧这边的体验都是一样:用户得到一个红包卡券,打开后展示一个(刷一刷红包)或者多个(AR地图红包)游戏的礼包列表,用户选择一个礼包后弹出区服组件,用户确认对应的区服角色信息后会礼包会在48个小时内发放到账。体验如下: 1.3.后台需求 游戏红包的设计容量为入口卡券页流量80k/s,以上体验流程一共涉及三个后台接口: 礼包列表:用户界面的礼包内容需
小时光
2018/01/29
1.5K0
海量服务实践──手Q游戏春节红包项目设计与总结
技术解码 | 伪直播及拉流多平台转推介绍
伴随着直播技术的发展,及各类直播产品的火爆应用,伪直播的场景被越来越多的使用。同时面对越来越多的直播平台,同一个直播源对多平台分发的需求也越来越多。 应用场景: 线上直播课,不少在线教育行业,使用伪直播进行授课,将历史录制的上课视频文件,进行不定时段的作为直播课放出,一方面减少了老师上课压力,对于重复内容,不需要再次实时讲解,还可以抽身出来在后台对学生的疑问进行实时解答。 重大赛事活动,受疫情影响,无法大规模线下聚集参与活动,越来越多的活动场景被搬到线上直播,面对空无一人的场地,为了提高直播活动的质量
腾讯云音视频
2021/05/13
1.9K0
【从0到1学习边缘容器系列-3】应用容灾之边缘自治
边缘计算模式下,云端的控制中心和边缘端的设备之间网络环境较复杂,网络质量差次不齐没有保障。用户往往希望在弱网环境下,边缘容器能提供高可用的业务能力。TKE 边缘容器团队在弱网环境下提出了边缘自治功能。本文着重介绍了边缘容器在弱网环境下为了保证业务高可用而做的工作。 问题背景 边缘计算使用的边缘设备数量庞大、分布全国各地,网络环境复杂,因特网、以太网、5G、WIFI 等形态均有可能。因此,云端的控制中心和边缘端的设备之间网络环境较复杂,网络质量差次不齐没有保障。 kubernetes 传统工作模式是所有组件
腾讯云原生
2022/04/14
8300
【从0到1学习边缘容器系列-3】应用容灾之边缘自治
海量服务实践:手 Q 游戏春节红包项目设计与总结(下篇)
接上篇《海量服务实践:手 Q 游戏春节红包项目设计与总结(上篇)》 5.系统保障 第四部分讲述了业务需求的开发,但是否功能开发完成后我们就这样就可放到线上安心睡大觉了呢? 如果出现一部分
吴逸翔
2017/02/09
1.8K0
海量服务实践:手 Q 游戏春节红包项目设计与总结(下篇)
腾讯云多Kubernetes的多维度监控实践
本次内容根据2017年11月4日 K8S Geek Gathering 沙龙深圳站腾讯云高级工程师王天夫的演讲内容整理而成。 本次分享的主要内容涉及腾讯云容器的顶层整体设计,包括产品功能,及提供的
腾讯云开发者社区
2017/11/15
3.4K0
腾讯云多Kubernetes的多维度监控实践
基于云原生基础设施的后台架构设计思考
作者:defooli  腾讯CSIG工程师 前言 在后台服务体系中,基础设施是运行在业务逻辑之下的计算、网络、存储资源以及通用的基础服务。如果没有完善的基础设施,业务团队只能以"小作坊"形式运作,具有较弱的服务治理能力,产生效率较低,大部分时候只是为了满足业务短期需求,如果出问题了再安排人力来优化,但是并不能很好收敛架构不完善带来的效率和质量问题,特别对于ToB的场景,质量和口碑犹其重要,不应该有持续的服务质量问题。针对如何实现一套完整的基础设施及其应具备的能力,下面做了一些思考和分析。 基础构架的设计
腾讯大讲堂
2021/02/19
8620
【从0到1学习边缘容器系列-3】应用容灾之边缘自治
导语:边缘计算模式下,云端的控制中心和边缘端的设备之间网络环境较复杂,网络质量差次不齐没有保障。用户往往希望在弱网环境下,边缘容器能提供高可用的业务能力。TKE 边缘容器团队在弱网环境下提出了边缘自治功能。本文着重介绍了边缘容器在弱网环境下为了保证业务高可用而做的工作。
腾讯云原生
2020/09/11
1.4K0
【从0到1学习边缘容器系列-3】应用容灾之边缘自治
如何削减 50% 机器预算?“人机对抗”探索云端之路
覃竞才,高级工程师,现任职于TEG安全平台部-业务安全中心,目前主要负责中心人机对抗数据平台建设。在后台开发方面具备丰富的设计开发经验。 前言 人机对抗旨在联合各个安全团队,共同治理黑灰产。由于历史原因,业务端对各个安全能力的访问方式入口多,对接系统/协议有十几个,呈现碎片化的状态,对外不利于业务对安全能力的便捷接入,对内不利于安全团队间的协同共建。为了提升各方面的效率,人机对抗服务在建设过程中大范围使用云服务,取得了很好的效果。回顾安全能力上云的过往,是一个从模糊到清晰,从迟疑到坚定的过程,在此给大家做
腾讯云原生
2021/07/20
3370
腾讯云分布式数据库 DCDB 架构解密
文章主要介绍了分布式数据库在金融互联网场景下的设计和实现,包括DCDB的架构、基础环境、实例配置、功能、性能、以及扩展性。同时,还探讨了分布式数据库在云原生架构下的应用和挑战,以及TDSQL在金融云上的解决方案和案例。
胡彬
2017/06/23
3.9K0
腾讯云分布式数据库 DCDB 架构解密
跨园区容灾,升级不停服:高可用负载均衡集群实践
腾讯云中间件团队
2017/03/31
4.7K0
跨园区容灾,升级不停服:高可用负载均衡集群实践
腾讯课堂停课不停学:业务后台实践
| 导语 疫情爆发,腾讯发起“停课不停学”专项,腾讯课堂一下子被推到风口浪尖上,2天上线极速版,2周内支持同时在线人数超百倍增长,对整个后台挑战非常大。整整2个月下来,同合作团队一起,白天7点开始盯监控和开发版本,凌晨12点例行压测和发布扩容,踩过很多坑也取得很多收获,这里拎几个关键点记录下
王昂
2020/04/29
2.7K1
腾讯课堂停课不停学:业务后台实践
推荐阅读
相关推荐
腾讯网关 TGW 基础原理入门
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档