腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
TakinTalks稳定性社区
专栏成员
举报
21
文章
8134
阅读量
12
订阅数
订阅专栏
申请加入专栏
全部文章(21)
数据(14)
系统(14)
监控(6)
实践(6)
数据库(5)
异常(5)
管理(4)
架构(4)
流量(4)
优化(4)
服务(3)
存储(2)
模型(2)
配置(2)
日志(2)
设计(2)
性能(2)
sql(1)
apache(1)
金融(1)
游戏(1)
开源(1)
分布式(1)
自动化(1)
自动化测试(1)
安全(1)
迁移(1)
企业推(1)
paas(1)
测试(1)
高可用(1)
工具(1)
工作(1)
基础(1)
集群(1)
开发(1)
时序数据库(1)
同步(1)
线程(1)
效率(1)
研发(1)
搜索文章
搜索
搜索
关闭
亿级流量下的高可用实践:携程门票秒杀架构如何设计?
高可用
架构
流量
设计
实践
随着旅游业的后疫情时代复苏,携程门票预订交易系统迎来复苏浪潮。面对亿级流量冲击,系统以"稳、准、快"为目标,应对高并发秒杀活动。通过缓存热点识别、大Key优化、数据库负载减轻、供应商稳定性提升、精细化流量控制及数据一致性保障等策略,携程成功提升了系统性能,例如,Redis查询性能从300μs优化至100μs,系统能支撑数十万单/分钟的交易流量,确保了在高负载下的稳定运行和持续高可用性。详细的解决策略和方法,请参阅文章正文。
TakinTalks稳定性社区
2024-11-14
229
0
B站监控2.0架构升级:P90查询性能如何提升10倍?
数据
性能
存储
架构
监控
在2021年年底,B站基于Prometheus+Thanos方案,完成了统一监控平台的落地。但随着业务的快速发展,许多问题也逐步显现。
TakinTalks稳定性社区
2024-10-21
151
0
亿级流量下的故障事前预防:B站如何从0-1构建变更防控体系?
管理
流量
模型
数据
系统
大约70%的故障都是由变更引起的,B站也深受其害。在经历了多起由变更引发的事故后,B站设计并实施了变更防控平台,从技术支撑能力、技术落地、跨领域赋能、组织文化建设等多方面入手,以期变被动应对为主动防御。目前,该平台已接入60+平台、400+场景,每天执行超过1000次变更检测,日拦截100+次潜在故障。自平台上线后,B站变更类事故占比得到有效下降,实现业务稳定性和效率的双重提升。详细的解决策略和方法,请参阅文章正文。
TakinTalks稳定性社区
2024-08-02
304
0
半年减少70%PAAS层配置故障:OPPO数据库迁移效率和稳定性如何提升?
迁移
paas
配置
效率
数据库
在降本增效的背景下,OPPO数据库团队进行了缩容、减少节点数、机房搬迁等一系列操作,同时面临效率低下和溢出故障的双重挑战。团队为此采取了一系列调优措施,包括架构优化、标准化配置、业务整改、配置参数校验和构建卡点等。通过这些实践,OPPO在半年内顺利迁移了500个MySQL节点、800个MongoDB节点和1000个Redis节点,同时显著降低了沟通成本和数据库成本。此外,因配置问题导致的故障次数减少了70%,显著提升了数据库的可靠性。详细的解决策略和方法,请参阅文章正文。
TakinTalks稳定性社区
2024-07-08
126
0
告警数量减少95%:去哪儿数据库巡检报警系统做了哪些优化?
数据库
集群
系统
线程
优化
尤其是在节前高峰等重要时间点,提前进行风险和容量评估等工作显得更为重要和紧急,而如何利用巡检信息进行综合研判也就显得更有价值。
TakinTalks稳定性社区
2024-06-03
227
0
蚂蚁集团:Apache HoraeDB时序数据库性能提升2-4倍是如何做到的?
优化
apache
时序数据库
数据
性能
Apache HoraeDB 是蚂蚁集团针对高基数时序数据场景设计并优化的开源时序数据库,后捐献给 Apache 软件基金会。它专门针对需要处理大量时间序列数据的应用场景,如物联网(IoT)、应用性能监控(APM)和金融交易监控等。
TakinTalks稳定性社区
2024-04-28
638
1
100+次演练验证:酷家乐如何打造高效的自动化演练平台?
数据
系统
自动化
自动化测试
流量
酷家乐自某次故障后开始升级演练平台,旨在提高系统在面对真实故障时的应急响应效率。面对业务线真实场景演练中高达39%的人工验证比例这一瓶颈,酷家乐构建了自动化流水线,设计了针对性的自动化用例,并选择了合适的自动化框架,确立了清晰的自动化流程。这些措施显著提升了自动验证效率,2023年第三季度演练次数超过100次,展现了自动化演练平台在提升系统稳定性和可靠性方面的显著成效。详细的解决策略和方法,请参阅文章正文。
TakinTalks稳定性社区
2024-04-15
204
0
1秒内审核3万条SQL:如何用规范识别与解决数据库风险?
系统
数据库
sql
安全
数据
数据库是存储关键信息、支持业务运营和分析决策的基石。然而,数据库的复杂性——研发效率低、安全管控难、变更不稳定、数据管控难,和对其稳定性、安全性的极高要求同样使得它们成为企业 IT 结构中的一个脆弱环节。通过数据库规范的建设,NineData平台目前已支持100+规范,覆盖60种数据源,已审核800万 SQL,实现3万条 SQL 1秒审核完。详细的实践方法和细节,请参阅文章正文。
TakinTalks稳定性社区
2024-03-21
417
0
日志资源成本减少35%:新东方可观测体系改造如何降本增效?
系统
管理
监控
日志
数据
新东方的可观测标准化改造开始于2021年下半年。一直以来,新东方致力于提供综合性教育服务,这包括了双减政策实施前的K12教育阶段,以及之后的素质教育、智慧教育、成人教育和国际教育等多方面的教育体系。
TakinTalks稳定性社区
2024-01-29
357
0
去哪儿如何实现故障率降低65%?技术+管理的数字化度量体系实践
管理
模型
实践
数据
系统
如何全面把握系统现状,以便在关键时刻做出明智的决策?这是很多负责全局稳定性的管理者深感关切的问题。基于这一背景,同时也为了寻求提升研发工作效率提升,去哪儿网构建了一套数字化质量度量体系,以此来更精确地度量、管理并提升系统稳定性。
TakinTalks稳定性社区
2023-12-12
432
0
去哪儿“技术债”偿还实践:如何高效、低风险砍掉50%无用代码?
服务
工具
流量
实践
系统
TakinTalks稳定性社区专家团成员,去哪儿旅行基础架构组技术专家。公司云原生 SIG 成员,负责测试环境治理平台、代码精简平台、组件市场等,专注于研发效能领域。2022 年深度参与的“线上代码精简50%”项目获得公司级技术型一等奖,指导多个团队完成系统精简,积累了大量经验。
TakinTalks稳定性社区
2023-12-04
396
0
七年4个阶段:滴滴可观测架构演进与实践
存储
架构
实践
数据
系统
TakinTalks稳定性社区专家团成员,滴滴出行可观测架构负责人。深耕可观测领域多年,专注于架构设计与优化。带领团队完成了滴滴第二代到第四代的架构迭代。多个可观测开源项目的Contributor。目前聚焦在滴滴可观测的稳定性建设和滴滴场景下的可观测性的实现与落地工作。
TakinTalks稳定性社区
2023-12-04
687
0
故障发现、定位提效超70%,去哪儿可观测体系做了哪些优化?
监控
数据
系统
异常
优化
TakinTalks稳定性社区专家团成员。2018年加入去哪儿网,目前负责去哪儿网CI/CD、监控平台和云原生相关平台建设。期间负责落地了去哪儿网容器化平台建设,协助业务线大规模应用迁移至容器平台,完成监控系统Watcher2.0的改造升级和根因分析系统落地。对监控告警、CI/CD、DevOps有深入的理解和实践经验。
TakinTalks稳定性社区
2023-12-04
657
0
APM建设踩了哪些坑?去哪儿旅行分布式链路追踪系统实践
分布式
日志
实践
数据
系统
TakinTalks稳定性社区专家团成员。毕业于大连理工大学,10年以上大型分布式基础架构经验,专注于大型分布式基础架构和大数据处理领域。曾就职于58集团,主要负责58到家基础架构工作。后进入去哪儿旅行,负责分布式链路追踪系统的建设以及APM体系的搭建。在大数据、高并发的场景有丰富的经验。
TakinTalks稳定性社区
2023-12-04
330
0
SRE实战:如何低成本推进风险治理?稳定性与架构优化的3个策略
数据库
架构
数据
系统
优化
TakinTalks稳定性社区发起人。参编《信息系统稳定性保障能力建设指南1.0》和《稳定性保障服务商能力要求》。2017年联合创立数列科技,专注于高可用性领域,为企业提供稳定性解决方案,帮助快速稳定地应对技术挑战。
TakinTalks稳定性社区
2023-12-04
588
0
月近万次发布,故障率<4‰如何做到?去哪儿测试左移重难点揭秘!
测试
开发
配置
数据
异常
TakinTalks社区专家团成员。2019年加入去哪儿网,负责测试流程的治理和测试工具建设。主导/参与建设的平台有自动化测试、全链路压测、代码覆盖率、Mock平台、智能推荐等。曾先后就职于京东商城、海尔集团等,擅长性能压测平台建设,并实现近亿级QPS压测,曾多次为618、双11等重要活动保驾护航;
TakinTalks稳定性社区
2023-12-04
449
0
如何在金融企业推进故障演练?中国人寿分阶段实践总结
金融
企业推
监控
实践
系统
TakinTalks社区专家团成员。拥有多年开发和运维经验,专注高可用领域,目前负责中国人寿混沌工程等多项高可用举措的规划和落地实施,对于构建高可用系统具有深入的理解和实践经验。
TakinTalks稳定性社区
2023-12-04
295
0
支撑百万商户、千亿级调用:微盟如何通过链路设计降本40%?
开源
服务
监控
设计
异常
TakinTalks稳定性社区专家团成员。2017年加入微盟,目前负责公司APM体系建设,包含APM体系从规范到实施,推动APM体系在公司的落地,主导了微盟APM平台、监控告警平台等平台的建设。
TakinTalks稳定性社区
2023-12-04
264
0
“930大促”日活增速超40% ,哈啰如何用预案高效应急?
数据库
同步
系统
研发
异常
TakinTalks稳定性社区专家团成员。十年互联网行业研发经验,2015年加入哈啰出行,参与哈啰业务系统从0到1的建设,作为核心Owner主导多个重点稳定性保障项目,在高可用架构、技术风险等领域有丰富经验。目前主要牵头哈啰稳定性保障体系化建设,通过人员组织建设、工具/平台建设、关键项目落地等措施保障哈啰所有业务稳定性。
TakinTalks稳定性社区
2023-12-04
409
0
B站容量管理:游戏赛事等大型活动资源如何快速提升10+倍?
游戏
服务
管理
基础
数据
TakinTalks社区专家团成员,2020年加入B站,先后负责主站/直播/OGV/推广搜相关的SRE工作。深度参与多活、活动保障、混沌工程、容量治理相关的建设,并主导容量管理平台、混沌平台的架构设计和落地。曾负责B站S赛、跨年晚会、拜年祭等相关活动的基础架构保障工作,目前主要负责推广搜业务的稳定性建设、PaaS治理。
TakinTalks稳定性社区
2023-12-04
494
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档