作者 | 汪勋 策划 | 凌敏 从单体架构到集群架构再到微服务架构,业务越来越庞大,也越来越复杂。每一次架构的升级,在提升了业务吞吐量的同时,必然会带来更大的复杂度。云原生时代背景下,微服务、Service Mesh、 Serverless 等新技术的出现,业务的复杂度很快就远远超越了个人的人力极限,大规模应用更是需要成千上万专业的人协作才能完成。应用稳定性链路中的因素也越来越多,一个应用相关的稳定性指标从基础设施到中间件,再到应用自身的模块、组件、中间件、基础设施等,每个环节都会有致命的因素导致应用
本周,我们有了一次有益的经验,合并了这个PR[1],将OpenTelemetry规范[2]提升到了1.0版本。
稳定压倒一切,没有稳定就没有生成。国家是如此,业务系统也是如此。老子说,“治大国若烹小鲜”,治理系统也是要做到同样,要掌握火候,精选食材,用料恰当,辅以煎炒烹炸煮,则方能出一盘好菜。
系统架构是项目中技术实现的最重要的环节。系统架构的良好与否关系到系统的性能指标、安全指标、稳定性指标、可扩展性、业务实现等等。
每一位被故障折磨的稳定性负责人,都或多或少面临自证的困境:如何证明今年的稳定性工作是出色的?在无法完全避免故障发生的前提下,如何证明稳定性保障工作的价值?在团队和工具尚不完备时,如何高效率推进稳定性建设工作?
近年来,在容器、Kubernetes、云原生等技术推动下,Serverless 技术也迎来了迅速发展,国内各大厂都在积极建设 Serverless 相关产品,美团也于 2019 年初开始了 Serverless 平台的建设。Serverless 平台的建设挑战较多,例如技术选型、冷启动优化、高可用保障、容器稳定性提升、研发体系建设等。
今日头条丨一点资讯丨腾讯丨搜狐丨网易丨凤凰丨阿里UC大鱼丨新浪微博丨新浪看点丨百度百家丨博客中国丨趣头条丨腾讯云·云+社区
微服务通信框架及治理平台OCTO作为美团基础架构设施的重要组成部分,目前已广泛应用于公司技术线,稳定承载上万应用、日均支撑千亿级的调用。业务基于OCTO提供的标准化技术方案,能够轻松实现服务注册/发现、负载均衡、容错处理、降级熔断、灰度发布、调用数据可视化等服务治理功能。
01. 背景 生产环境中,业务面临的负载压力变化是不定的,为了保障业务的稳定性,需要根据负载大小的变化调整应用实例的数量或资源规格,同时从资源成本角度考虑,需要在保障业务稳定性的同时,尽量减少不必要的资源占用。 为了满足上述两方面的诉求,应用管理平台需要提供弹性能力。下述将整体分析弹性技术以及 K8s 中的实现,并通过一款云产品做演示,从业务视角使用弹性能力。 02. 弹性技术 对于弹性技术,一般会从两个维度进行考虑: 弹性策略 弹性效率 弹性策略重点关注如何管理触发弹性行为的发生,以及弹性行为作用的维
背景 生产环境中,业务面临的负载压力变化是不定的,为了保障业务的稳定性,需要根据负载大小的变化调整应用实例的数量或资源规格,同时从资源成本角度考虑,需要在保障业务稳定性的同时,尽量减少不必要的资源占用。 为了满足上述两方面的诉求,应用管理平台需要提供弹性能力。下述将整体分析弹性技术以及 K8s 中的实现,并通过一款云产品做演示,从业务视角使用弹性能力。 弹性技术 对于弹性技术,一般会从两个维度进行考虑: 弹性策略 弹性效率 弹性策略重点关注如何管理触发弹性行为的发生,以及弹性行为作用的维度,弹性效率重点
导语 2022腾讯全球数字生态大会已圆满落幕,大会以“数实创新、产业共进”为主题,聚焦数实融合,探索以全真互联的数字技术助力实体经济高质量发展。大会设有29个产品技术主题专场、18个行业主题专场和6个生态主题专场,各业务负责人与客户、合作伙伴共同总结经验、凝结共识,推动数实融合新发展。 本次大会设立了微服务与中间件专场,本专场从产品研发、运维等最佳落地实践出发,详细阐述云原生时代,企业在开发微服务和构建云原生中间件过程中应该怎样少走弯路,聚焦业务需求,助力企业发展创新。 随着大数据时代的到来,企业在生产和经
背景 生产环境中,业务面临的负载压力变化是不定的,为了保障业务的稳定性,需要根据负载大小的变化调整应用实例的数量或资源规格,同时从资源成本角度考虑,需要在保障业务稳定性的同时,尽量减少不必要的资源占用。 为了满足上述两方面的诉求,应用管理平台需要提供弹性能力。下述将整体分析弹性技术以及 K8s 中的实现,并通过一款云产品做演示,从业务视角使用弹性能力。 弹性技术 对于弹性技术,一般会从两个维度进行考虑: 弹性策略 弹性效率 弹性策略重点关注如何管理触发弹性行为的发生,以及弹性行为作用的维度,
在 Java 生态系统中,Tomcat 线程池、Dubbo 线程池和 Druid 连接池等资源池被广泛使用。若缺乏有效的监控机制,资源池可能会面临一系列挑战,包括难以察觉的性能瓶颈、资源的不必要浪费、系统稳定性的潜在威胁,以及问题定位的复杂性等。
最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。
在今年的 Google 游戏开发者峰会上,我们为开发者带来了各种工具和服务的更新和最新动态,这些工具和服务都旨在帮助您打造高质量的游戏体验,助力您的游戏业务稳步发展。本文将为您详细介绍如何使用它们,并帮助您的游戏取得成功。
混沌工程是近年来新出现的概念,主要用于稳定性方面的研究,英文全称为chaos engineering,由网飞公司最先提出。因为最开始混沌工程称作chaos monkey,形容就像有一只猴子在系统中捣乱一样,以至于到现在每次提到混沌工程都会用一只捣乱的猴子来比喻。
vivo 人工智能计算平台小组从 2018 年底开始建设 AI 计算平台至今,已经在 k8s 集群、以及离线的深度学习模型训练等方面,积累了众多宝贵的开发、运维经验,并逐步打造出稳定的基础容器平台 - AI 容器平台(VContainer)。为了支撑公司 AI 在线业务的发展,满足公司对算力资源的高效调度管控需求,需要将在线业务,主要包括 C 端、推理等业务,由原来的虚拟机或物理机迁移至 AI 容器平台。于是小组从 2020 年初开始,基于在线业务的需求对 AI 容器平台进行进一步建设,并将平台与公司的 CMDB、CICD 等基础模块进行打通,使在线业务能够顺利从虚拟机、物理机迁移至 AI 容器平台。
在Java架构师的多线程项目中,锁是保证线程安全、协调并发访问共享资源的重要工具。然而,锁的使用往往伴随着并发性能的折损。如何在保证线程安全的同时,最大化并发性能?本文将深入探讨多线程环境下的锁设计,涵盖运行原理、应用场景,并结合源码分析,为Java架构师们提供一份精妙的锁设计指南。
Spring Boot是一个快速开发框架,提供了一系列的功能模块,包括监控、管理和测试等。本文将深入探讨Spring Boot中监控、管理和测试功能的原理与应用,并提供实际应用场景的示例。
OpenTelemetry 的指标功能现在可以作为候选版本,在 Java,.NET,还有 Python 使用!这意味着规范、API、SDK,以及创作、捕获、处理和以其他方式与指标交互的其他组件,现在拥有完整的 OpenTelemetry 指标功能集,并且随时可供使用。这些候选版本将在未来几周内正式发布。
导读:本文摘自于SkyWalking创始人吴晟撰写的《Apache SkyWalking实战》一书,详细讲述了SkyWalking的架构设计与优势。
- 场景:(性能测试)场景是若干个基于 HTTP/HTTPS 的 URL/API 的组合。URL/API 可能关联了数据文件表示不同用户。不同的 URL/API 表示不同的业务含义(比如登录、加入购物车),最终组合成一个接近用户各种真实行为同时具备一定用户量级的压测模型。
作者 | 中国工商银行金融科技研究院云计算实验室 前 言 互联网金融时代,金融产品和服务模式出现了日新月异的变化,新技术层出不穷,应用架构的复杂程度不断增加,系统承载的交易量也随之攀升,如何在加快企业数字化转型的同时保障业务安全稳定运行,是金融 IT 系统建设面临的重要问题,而以交易流量为切入点开展流量防护工作,则是 IT 系统在稳定性守护方面至关重要的环节。 为了进一步提升业务交易的连续性,中国工商银行(后简称工行)于 2015 年开始探索分布式流量防护能力,从最初的逐步尝试到抽取提炼,再到如今
2020年3月,得物技术团队在三个月的时间内完成了整个交易体系的重构,交付了五彩石项目,业务系统也进入了微服务时代。系统服务拆分之后,虽然每个服务都会有不同的团队各司其职,但服务之间的依赖也变得复杂,对服务治理等相关的基础建设要求也更高。
在现代计算机系统中,分布式系统的出现越来越普遍。分布式系统由多个计算机节点组成,这些节点之间通过网络通信来共同协作完成任务。在这种系统中,跟踪(Tracing)是一种非常重要的技术,可以帮助开发人员和运维人员更好地了解系统的运行情况,发现潜在的问题并进行优化。
◆ 一、开源项目简介 滴滴LogiAM来源于滴滴多年来大量的运维实践经验。经历过多方考验,对于大规模Agent日志采集治理管控及巡检诊断已经沉淀出一套完善的解决方案。在云原生时代背景下,LogiAM以“应用/服务”为采集粒度,满足了从业务层面创建采集任务的需求。 ◆ 二、开源协议 使用Apache-2.0开源协议 ◆ 三、界面展示 ◆ 四、功能概述 ◆ 用户体验地图 主机/容器管理:用于维护主机、容器信息至系统(含:容器-主机关系) 服务管理:用于维护服务信息至系统(含:服务-主机、服务-容器关系)
监控缓存中间件,如 Redis 是关键的,因为它直接影响到应用性能和可靠性。以下是监控 Redis 时应考虑的主要指标:
该系列的第一篇在此:Java Web技术经验总结一,主要包含我在日常工作中的经验和心得体会(如有不足之处欢迎指出)。 Maven的使用经验 依赖的scope有test、provided、compile等。test:一般是单元测试场景使用,在编译环境加入classpath,但打包时不会加入,如junit等;provided:表示容器或者JDK已经提供该依赖,打包时不需要打包入war;compile:默认范围,在工程环境的classpath(编译环境)和打包(如果是WAR包,会包含在WAR包中)时候都有效
数据的价值一个是数据驱动决策,主要通过数据可视化平台、自助BI分析工具提升决策分析效率。另一个是数据在业务端的创新应用,主要是API接口服务的方式,即DAAS(dataAPI as a service
通过前面对混沌工程工具的详细分析,我们已经对如何进行故障注入有了更明晰的了解。然而,本文将详细介绍混沌工程的具体实施过程,以便提供全面的指导。
随着分布式技术的发展与演进,微服务技术成为了大型分布式IT架构的必然选择。从本质上来讲,微服务是一种架构风格,将一个大型的系统拆分为多个拥有独立生命周期的应用,应用之间采用轻量级的通信机制进行通信。这些应用都是围绕具体业务进行构建,可以独立部署、独立迭代,也可能根据业务负载独立的水平扩展。微服务思想以及相关的技术为IT架构的发展带来了一系列深刻的变革。
程序员的世界非常魔幻,有时不明白老板们在想什么,突发奇想说公司想做云原生转型,然而计划的第一件事是从 Jenkins 流水线转移到 Gitlab CI。碰到什么困难,老板们开始怀疑技术上存在问题,试图通过技术解决一切问题,而不考虑公司组织架构是否需要变革。
编程语言(programming language)是一种计算机和人之间交流的形式。它是一种为了完成计算机任务而编写的特定语言。编程语言包括指令、变量、函数、条件语句、循环语句等等。程序员使用编程语言来告诉计算机执行任务,例如打开文件、执行数学运算、连接数据库等等。不同的编程语言适用于不同的应用领域,例如Java和Python在Web开发、机器学习、数据分析等领域应用广泛,而C++在操作系统、游戏开发等领域应用较多。
对业务来说,完备的应用健康性和数据指标的监控非常重要,通过采集准确的监控指标、配置合理的告警机制,我们能够提前或者尽早发现问题,并做出响应、解决问题,进而保证产品的稳定性,提升用户体验。
关于 JAVA 在开发几年之后,该学的技术都已经学到了之后,势必就要开始学习一些优化方面的工作,比方说 SQL 的优化,毕竟能写的好 SQL 的人,在公司中那是非常受欢迎的,毕竟谁不想让自己的接口秒出接口呢?但是我们要学的也不光是 SQL 的优化,有时候还有对 JAVA 的一些性能,做出优化操作,让我们的代码更健壮,今天我们就来聊聊这个 JAVA 性能优化的事情。
做互联网的童鞋们一定都有过这样的经历,看过很多架构书,看过很多架构师成长指南,看过很多优秀的案例分享以及讲座。所以当我们刚毕业的时候,对于大厂的认知一定都是这样的。
前段时间业务团队偶尔会碰到一些 Pulsar 使用的问题,比如消息阻塞不消费了、生产者消息发送缓慢等各种问题。
2014年,Netflix团队创建了一种新的角色,叫作混沌工程师(Chaos Enigneer),并开始向工程社区推广。项目目标、业务场景、人员结构、实施方式的不同导致了对于稳定状态行为的定义不太标准。
服务框架是一个比较成熟的领域,有太多可选项。Spring Boot/Cloud,由于 Spring 社区的影响力和 Netflix 的背书,目前可以认为是构建 Java 微服务的一个社区标准。
过去的 10 年间,软件的架构发生了巨大的变化,从早先流行的单体 MVC 架构,变成现成 5:5 开的分布式 vs 单体。只是呢,有大量的软件开发人员,并没有从单体的思维转成变化。于是,我们在一个个的组织里,见到了一个又一个的 “分布式单体”。 架构治理变得非常迫切。 Why ArchGuard? 作为一个架构师或者是软件开发人员,在架构治理上,我们面对的诸多挑战有: 设计与实现不匹配。设计的软件架构与真正实施后的架构,存在着巨大的差异。而这个差异,往往需要实施一段时间之后才能发现。 代码量巨大,难以识别。
随着人工智能、云计算等技术的兴起,5G 网络的不断成熟,万物互联时代应用需求日益多样化的同时,对于芯片架构的需求也越来越多样化。ARM 架构在提供可靠性能的基础上,以低功耗、低开销的特点被广泛应用到数据中心和云计算领域,并成为必不可少的部分。 在此背景下,腾讯云重磅推出搭载 ARM 架构处理器的新一代 CVM 标准型 SR1,并于即日起正式开启公测。标准型实例 SR1 搭载主频达 2.8GHz 的 Ampere® Altra® 处理器,基于全新优化虚拟化平台,提供了平衡、稳定的计算、内存和网络资源。
随着微服务架构的流行,系统的复杂性与运维难度大大增加。如何实时监控系统的运行状态,快速定位性能瓶颈,已成为一个不可回避的问题。SkyWalking正是在这样的背景下诞生的一个全新的开源APM(Application Performance Management)系统。本文将详细介绍SkyWalking的技术原理、应用场景、快速入门等,以帮助读者全面了解这个强大的分布式跟踪、应用监控平台。
技术是为了解决实际问题服务的,那么并发是为了解决什么问题呢?我用一句话总结,就是:在资源有限、并且不改变程序执行结果(正确性)的情况下,合理运用并发编程和架构设计来尽可能多地 提高你程序的性能和稳定性 。
作者 | 中国信息通信研究院 随着分布式架构成为主流的系统架构设计方案,业务系统的迭代速度越来越快,后端系统架构越来越复杂,单一节点问题可能被无限放大,大规模分布式系统的稳定性保障能力越来越成为业界关注的重点。与此同时,伴随着技术角色分工越来越细、技术专业化程度越来越深,分布式系统的架构特性为其稳定性建设中的架构设计、组织设计等也带来了新的挑战。很多企业缺乏解决分布式架构下的系统稳定性、服务高可用建设相关问题的经验。 如何全局、精准、高效地进行分布式系统的稳定性建设工作?为此,中国信息通信研究院在以“云赋新
说到音视频云服务,大多数人可能联想到的是网络直播应用场景,实际上,硬件对音视频云服务的需求也在逐渐提升。而这样的市场需求也推动了整个行业的发展,目前,阿里云、腾讯云和网易云等巨头都已入局,除此之外还有
这些内容的前提是最好有一些 OpenTelemetry 的背景知识,看起来就不会那么枯燥,为此这篇文章就来做一个入门科普,方便一些对 OpenTelemetry 不是那么熟的朋友快速掌握一些 OpenTelemetry 的基本概念。
多活架构(Multi-Active Architecture)是一种设计用于提高系统可用性和容错性的架构模式。它通常用于构建分布式系统或服务,以确保即使在部分组件或节点失效的情况下,系统仍然能够继续提供服务。
大家好,我是独孤风。 今天我们来聊一下另一个元数据管理平台Apache Atlas。Atlas其实有一些年头了,是在2015年的时候就开源。
领取专属 10元无门槛券
手把手带您无忧上云