Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >用户案例 | 腾讯医疗资讯平台云原生容器化之路

用户案例 | 腾讯医疗资讯平台云原生容器化之路

作者头像
腾讯云原生
发布于 2021-11-03 02:10:27
发布于 2021-11-03 02:10:27
1K0
举报

yuhuliu,腾讯研发工程师,关注存储、大数据云原生领域。

摘要

医疗资讯业务在高速发展过程中,形成了覆盖不同场景、不同用户、不同渠道的几十个业务,以及上千个服务。为了高效满足用户多样化的需求,腾讯医疗技术团队通过 TKE 上云,使用 Coding DevOps 平台,以及云上可观测技术,来提升研发效率、降低运营运维成本。本文介绍我们在上云过程中一些实践和经验,以及一些思考和选择。

业务背景

stage1: 腾讯医疗资讯平台主要包括了医典、医生、医药等核心业务,其中医典主要提供医疗相关内容获取、医疗知识科普传递;医生满足医生和患者的互联;医药服务了广大药企。在业务发展过程中我们原来基于 taf 平台构建了大量后台服务,完成了初期业务的快速搭建。

由于业务数量较多,大量业务有多地域的述求,最终我们在 taf 平台部署多个业务集群。这个时候发布、运维、问题排查纯靠人工阶段,效率较低。

业务上云

stage2: 随着业务规模的急速扩张,传统的开发、运维方式在敏捷、资源、效率方面对业务迭代形成较大的制约。随着公司自研上云项目推进,拥抱云原生化,基于 K8s 来满足业务对不同资源多样化需求和弹性调度,基于现有成熟 devops 平台来进行敏捷迭代,越来越成为业务正确的选择。医疗后台团队开始了整体服务上云的迁移。

上云之前,还有几个问题需要考虑

  1. 服务众多,代码如何管理
  2. 上云后怎么快速进行问题定位、排查
  3. 监控告警平台如何选择
  4. 基础镜像怎么选择

关于服务代码管理

使用 git 做代码版本控制,按业务建立项目组,每个服务使用单独的代码仓库,仓库名使用同一命名规范。

关于问题排查

调研云上有成熟的 elk 服务,业务只需要把日志放到同一目录,通过 filebeat 采集后,通过 ETL 逻辑可以把日志方便导入 Elasticsearch。这样的做法还有个优点就是可以同时支持前后端服务日志的采集,技术较为成熟,复用了组件能力,通过在请求中埋点加入 traceid,方便在全链路定位问题。

关于监控告警平台

CSIG 提供了基于日志监控的 CMS 平台,将业务日志导入到 CMS 后,可以基于上报的日志配置监控和告警,监控维度、指标业务可以自己定义。我们采用了主调、被调、接口名等维度,调用量、耗时、失败率等指标,满足业务监控告警诉求。基于日志的监控可以复用同一条数据采集链路,系统架构统一简洁。

关于基础镜像

为了方便业务初期快速上云,以及统一服务启动、数据采集上报,有必要对业务的基础镜像进行处理,预先建立对应目录,提供脚本和工具,方便业务快速接入。这里我们提供了不同语言、版本的基础镜像,封装了 supervisord 和 filebeat,通过 supervisord 来拉起 filebeat 和业务服务。

Devops

stage3: 在上云过程中,也通过和质量同学逐步完善,将开发过程中原有人工操作的步骤 pipeline 化,来提高迭代效率,规范开发流程;通过单测和自动化拨测,提升服务稳定性。采用统一的流水线后,开发、部署效率从原来的小时级别降低到分钟级别。

这里主要使用了 coding 平台,为了区分不同环境,建立了开发、测试、预发布、测试四套不同流水线模板,还引入了合流机制来加入人工 code review 阶段。

在合流阶段:通过 MR HOOK,自动轮询 code review 结果,确保代码在 review 通过后才能进行下一步(不同团队可能要求不一样)。

在 CI 阶段:通过代码质量分析,来提升代码规范性,通过单元测试,来保证服务质量。

在 CD 阶段:通过引入人工审批和自动化拨测,提高服务稳定性。

资源利用率提升

stage4:在业务整体上云后,由于不少业务有多地域部署(广州、南京、天津、香港)的述求,加上每个服务需要四套(开发、测试、预发布、正式)不同的环境,上云后我们初步整理,一共有3000+不同 workload。由于不同业务访问量具有很大不确定性,初期基本上按照理想状态来配置资源,存在不少的浪费。

为了提高资源整体利用率,我们进行了一系列优化,大致遵循如下规范:

这里由于 HPA 会导致业务容器动态扩缩,在停止过程中如果原有流量还在访问,或者启动还未完成就导入流量,会导致业务的失败,因此需要预先开启 TKE 上 preStop 以及就绪检测等配置

  1. 优雅停止,进程停止前等北极星、cl5 路由缓存过期;入口:tke->工作负载->具体业务->更新工作负载 如果使用的服务发现是 CL5,推荐 preStop70s,北极星配置 10s 足够了。
  2. 就绪、存活检测,进程启动完成后再调配流量;入口:tke->工作负载->具体业务->更新工作负载,根据不同业务配置不同探测方式和时间间隔。

通过上面一系列调整优化,我们的资源利用率大幅提升,通过 TKE 上弹性升缩,在保证业务正常访问同时,局部高峰访问资源不足的问题基本解决,避免了资源浪费,也提升了服务稳定性;但多环境问题还是会导致存在一定损耗。

可观测性技术

stage4:初期使用基于日志的方式来做(log/metric/tracing),满足了业务快速上云、问题排查效率提升的初步述求,但随着业务规模增长,愈加庞大的日志流占用了越来越多的资源,日志堆积在高峰期成为常态, CMS 告警可能和实际发生时已经间隔了半个小时,ELK 的维护成本也急剧上升。

云原生的可观测技术已经成为必要,这里我们引入了 Coding 应用管理所推荐的可观测技术方案,通过统一的 coding-sidecar  对业务数据进行采集:

  • 监控:云监控中台
  • 日志:CLS
  • Tracing:APM

通过接入这些平台的能力,我们的问题发现、定位、排查效率有了极大的提高,业务的运营维护成本较大降低。通过监控、和 tracing,也发现了不少系统潜在的问题,提高了服务质量。

结尾

最后,要感谢上云过程中全体开发同学的辛勤付出,以及各位研发 leader 的大力支持。

  往期精选推荐  

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
IT运维是企业信息化建设中不可或缺的一环,其作用在于确保系统稳定性、提高效率和降低成本,对企业的业务生产和服务质量有着至关重要的影响。自十四五规划以来,随着企业数字化转型的加速推进,以及信创转型的大规模铺开,企业IT架构复杂度日益上升,直接引发了对自身运维体系的更高要求。但与此同时,在政策、需求及供给端的多重因素驱动下,IT运维产业也迎来了前所未有的重大发展机遇,具体如下:
爱分析ifenxi
2023/05/09
4030
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
FA15# 日志平台演进点梳理
可观测数据平台需至少整合Logging(日志)、Metrics(指标)、Tracing(链路)三个基本类型数据,并延伸events(事件)、网络流量、用户行为分析、审计、基础的IT设施监控等各类数据的融合。
瓜农老梁
2022/06/23
3940
FA15# 日志平台演进点梳理
用户案例 | 腾讯小视频&转码平台云原生容器化之路
李汇波,腾讯业务运维高级工程师,目前就职于TEG 云架构平台部 技术运营与质量中心,现负责微信、QQ社交类业务的视频转码运维。 摘要 随着短视频兴起和快速发展,对于视频转码处理的需求也越来越多。低码率高清晰,4K、超清、高清、标清适配不同终端和不同网络环境来提升用户体验,以及水印、logo、裁剪、截图等多样化的用户需求。 对于资源的多样化需求和弹性扩缩容也需要快速响应,而随着公司自研上云项目的推进,设备的稳定性和多样性可提供更多选择,来满足像朋友圈、视频号、广告、公众号等转码业务快速、稳定、抗突发的资源需
腾讯云原生
2021/11/17
1.4K0
干货 | 携程监控系统Hickwall演进之路
作者简介 大伟,携程软件技术专家,关注企业级监控,日志,可观测性领域。 一、背景 监控领域有三大块,分别是Metrics,Tracing,Logging。这三者作为IT可观测性数据的三剑客,基本可以满足各类监控、告警、分析、问题排查等需求。 Logs:我们对于Logs是更加宽泛的定义,即记录事物变化的载体,包括常见的访问日志、交易日志、内核日志等文本型以及GPS、音视频等泛型数据。日志在调用链场景结构化后其实可以转变为Trace,在进行聚合、降采样操作后会变成Metrics。 Metrics:是聚合后的数
携程技术
2022/03/04
1.8K0
腾讯云小微AI语音助手云原生之路
云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。可见,云原生并不是简单地使用云平台运行现有的应用程序,而是一种能充分利用云计算优势对应用程序进行设计、实现、部署、交付和操作的应用架构方法。
俞淦
2022/11/08
15.2K0
腾讯云小微AI语音助手云原生之路
【腾讯云应用性能观测x日志服务】:链路日志关联,加速故障定位
顾自然 腾讯云监控产品经理,硕士毕业于墨尔本大学。目前主要负责腾讯云业务层监控相关产品策划工作,对应用监控和运维领域有深刻理解。 前言 随着微服务架构的逐渐流行,在熵增且庞杂的系统中准确的定位一个请求的完整生命周期,逐渐成为了研发同学面对的最大的痛点之一,以研发同学自测过程为例,开发同学往往希望在发起测试的 Http/RPC 请求后,能够通过一个简单的方式获取整个测试请求的上下文信息。这其中通常包括相关的上下游链路、各个服务内部请求的方法堆栈,以及链路上打印的日志等数据,对于指标-链路-日志的一体化监控的需
腾讯云可观测平台
2022/03/24
1.4K0
全量容器化:腾讯云日志服务CLS的云原生破局之道
数字化转型的本质是一个企业不断打破自我壁垒的过程,这种壁垒的打破通常来源于两个方面,一个是技术重构,另一个是组织重构。本次分享主要侧重的是技术重构方面,将围绕如何实现应用现代化,以业务视角找到实现业务云原生化的破局之道,从而获得更高的业务价值。
日志服务CLS小助手
2023/05/08
6050
分钟级落地,基于腾讯云ES Serverless的云原生容器服务日志分析
作为云原生技术的爱好者,笔者活跃在各种开发者社群,这不,又让我发现了一个宝藏:腾讯云Elasticsearch Serverless服务,具备自动弹性、免运维的特性,丰富的产品能力,能分钟级实现容器服务的日志采集与可观测分析。当然,秉持着“不吃独食”的开源心态,为了让大家也能免费体验到这款开箱即用的产品,笔者连着请小编吃了一周的宵夜,最终领取到了免费体验卷➕资源包特惠1元购➕开发者课程(也有免费代金券,爱了!)等满满福利,具体领取方式可见文末相关链接。
用户10023828
2024/05/14
5380
最佳案例 | 游戏知几 AI 助手的云原生容器化之路
张路,运营开发专家工程师,现负责游戏知几 AI 助手后台架构设计和优化工作。 游戏知几 随着业务不断的拓展,游戏知几 AI 智能问答机器人业务已经覆盖了自研游戏、二方、海外的多款游戏。游戏知几研发团队主动拥抱云原生,推动后台业务全量上云,服务累计核心1w+。 通过云上的容器化部署、自动扩缩容、健康检查、可观测性等手段,提高了知几项目的持续交付能力和稳定性,形成了一套适合游戏知几自身的上云实践方案。本文将会介绍游戏知几项目中遇到的痛点以及探索出的一套可靠的上云实践方案。 知几项目背景 游戏知几[1]是一款游戏
腾讯云原生
2022/05/18
1.6K1
最佳案例 | 游戏知几 AI 助手的云原生容器化之路
云原生背景运维转型之 SRE 实践
作者:yorkoliu,腾讯 IEG 业务运维专家 一、前言 上一篇文章《云原生背景下的运维价值思考与实践(上)》 重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值。这篇内容我想谈谈 DevOps 的下半段,通过我们的构建服务稳定性保障实践,利用 SRE 的思想与方法,不断去冲刺稳定性的终极目标:“提升 MTBF(平均故障时间间隔)、降低 MTTR(故障平均修复时间)”,很多小伙伴会有疑问,DevOps 与 SRE 到底是什么样的关系?在 Google
腾讯技术工程官方号
2022/01/17
2.7K0
资源利用率提高67%,腾讯实时风控平台云原生容器化之路
陈建平,后台开发工程师,现就职于TEG安全平台部-业务安全中心,主要负责中心实时策略风控平台开发。 导语 随着部门在业务安全领域的不断拓展,围绕着验证码、金融广告等服务场景,腾讯水滴作为支撑业务安全对抗的实时风控系统,上线的任务实时性要求越来越高,需要支撑的业务请求量也随之增加。对于业务快速上线和资源快速扩缩容的需求,且公司自研上云项目往全面容器化上云方向推进,水滴风控平台开始进行自研上云的改造。本文主要针对腾讯水滴平台上云过程中的实践总结,希望对其他业务迁移上云有一定参考价值。 水滴后台架构 腾讯水滴
腾讯云原生
2021/08/23
1.2K0
全量容器化:腾讯云日志服务CLS的云原生破局之道
数字化转型的本质是一个企业不断打破自我壁垒的过程,这种壁垒的打破通常来源于两个方面,一个是技术重构,另一个是组织重构。本次分享主要侧重的是技术重构方面,将围绕如何实现应用现代化,以业务视角找到实现业务云原生化的破局之道,从而获得更高的业务价值。本文根据腾讯云日志服务研发负责人王国梁在 ArchSummit 2023上海站的演讲内容整理而成。欢迎阅读。
腾讯云开发者
2023/05/12
5250
案例 | 腾讯广告 AMS 的容器化之路
张煜,15年加入腾讯并从事腾讯广告维护工作。20年开始引导腾讯广告技术团队接入公司的TKEx-teg,从业务的日常痛点并结合腾讯云原生特性来完善腾讯广告自有的容器化解决方案。 项目背景 腾讯广告承载了整个腾讯的广告流量,并且接入了外部联盟的请求,在所有流量日益增大的场景下,流量突增后如何快速调配资源甚至自动调度,都成为了广告团队所需要考虑的问题。尤其是今年整体广告架构(投放、播放)的条带化容灾优化,对于按需分配资源、按区域分配资源等功能都有着更强的依赖。在广告内部,播放流系统承载了整个广告播出的功能,这
腾讯云原生
2021/06/25
1.7K0
腾讯云ES Serverless x TKE,分钟级低门槛实现一站式可观测容器日志分析
作为云原生技术的爱好者,笔者活跃在各种开发者社群,这不,又让我发现了一个宝藏:腾讯云Elasticsearch Serverless服务,具备自动弹性、免运维的特性,丰富的产品能力,能分钟级实现容器服务的日志采集与可观测分析。当然,秉持着“不吃独食”的开源心态,为了让大家也能免费体验到这款开箱即用的产品,笔者连着请小编吃了一周的宵夜,最终领取到了免费体验卷➕资源包特惠1元购➕开发者课程(也有免费代金券,爱了!)等满满福利,具体领取方式可见文末相关链接。
腾讯QQ大数据
2024/05/27
2100
腾讯云ES Serverless x TKE,分钟级低门槛实现一站式可观测容器日志分析
开发敏捷高效 | 云原生应用开发与运维新范式
5 月 18 日,腾讯云举办了 Techo Day 腾讯技术开放日,以「开箱吧!腾讯云」为栏目,对外发布和升级了腾讯自研的一系列云原生产品和工具。其中,腾讯云开发者产品中心总经理刘毅围绕“开发敏捷高效”这一话题,分享了关于“云原生应用开发与运维新范式”的主题演讲。本次演讲将为大家分享,腾讯云是如何通过云上开发运维协作能力,支持多职能团队流畅协作,助力企业加速数字化敏捷转型,提升云原生架构的运维效率,受益云原生。
Cloud Studio
2023/05/25
4100
开发敏捷高效 | 云原生应用开发与运维新范式
资源利用率提高67%,腾讯实时风控平台云原生容器化之路
随着部门在业务安全领域的不断拓展,围绕着验证码、金融广告等服务场景,腾讯水滴作为支撑业务安全对抗的实时风控系统,上线的任务实时性要求越来越高,需要支撑的业务请求量也随之增加。对于业务快速上线和资源快速扩缩容的需求,且公司自研上云项目往全面容器化上云方向推进,水滴风控平台开始进行自研上云的改造。本文主要针对腾讯水滴平台上云过程中的实践总结,希望对其他业务迁移上云有一定参考价值。
冬夜先生
2021/09/07
8550
中国工商银行基于eBPF技术的云原生可观测图谱探索与实践
作者 | 中国工商银行金融科技研究院   在互联网金融时代,各大银行业务量呈爆发性增长态势,业务模式更新迭代更加频繁,传统的 IT 架构越来越无法应对新业务形态所带来的巨大冲击与挑战。云原生相关技术使业务应用呈现微服务众多、多语言开发、多通信协议等典型特征,调用链路日益复杂,监控数据爆发性增长,传统监控方式已无法适应云原生场景。 在这个背景下,中国工商银行积极开展云原生可观测图谱的探索和实践,针对可观测体系中的痛难点,通过深入研究内核新技术,进一步完善云原生技术版图。 1 业界云原生可观测体系痛点 中国
深度学习与Python
2023/03/29
5280
中国工商银行基于eBPF技术的云原生可观测图谱探索与实践
8月腾讯云容器产品技术月报|留言抢腾讯定制T恤
2021年8月 VOL:16 腾小云告诉你最前线的产品新特性 总有一款让你心动~ 云说新品 容器产品新特性 8月上新 腾讯云边缘服务TKE@Edge 从中心云管理边缘云资源的容器系统 边缘容器服务(Tencent Kubernetes Engine for Edge,简称 TKE Edge)是腾讯云容器服务推出的用于从中心云管理边缘云资源的容器系统。 ServiceGroup功能增强:DeploymentGrid 支持查看和管理实例,支持对分布在不同地域的应用
腾讯云原生
2021/09/03
1.7K0
QQ浏览器信息流云原生应用之路
宋廷豪,高级工程师,就职于PCG-腾讯看点。主要负责QQ浏览器信息流推荐架构的相关工作。 背景 QQ 浏览器信息流(QB)推荐架构支撑了 QQ 浏览器、快报主 feeds 场景、浮层等信息流卡片实时推荐的能力,架构上不仅仅要支持多业务、多产品,如 QB 、快报、外部合作等,而且需要能够快速支持各种类型场景的能力,如主 TL 、浮层,且能够快速扩展支持垂直频道和 APP 。那么信息流推荐架构需要做到灵活模块化,水平易扩展。 为了做到海量级实时精准推荐,信息流推荐架构划分为了四层:展控层、排序层(精排/粗排
腾讯云原生
2021/08/17
7710
全量容器化:腾讯云日志服务CLS的云原生破局之道
数字化转型的本质是一个企业不断打破自我壁垒的过程,这种壁垒的打破通常来源于两个方面,一个是技术重构,另一个是组织重构。本次分享主要侧重的是技术重构方面,将围绕如何实现应用现代化,以业务视角找到实现业务云原生化的破局之道,从而获得更高的业务价值。本文根据腾讯云日志服务研发负责人王国梁在 ArchSummit 2023 上海站的演讲内容整理而成。 腾讯云 CLS 的业务背景和挑战 腾讯云日志服务(Cloud Log Service,CLS)是腾讯云全自研的一站式、高可靠、高性能日志数据解决方案。支持各种数据源
深度学习与Python
2023/05/09
3870
全量容器化:腾讯云日志服务CLS的云原生破局之道
推荐阅读
相关推荐
2023爱分析・可观测性平台市场厂商评估报告:乘云科技
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档