Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >回答关于Kubernetes 监控的 9 个问题

回答关于Kubernetes 监控的 9 个问题

作者头像
灵雀云
发布于 2024-07-18 09:46:47
发布于 2024-07-18 09:46:47
1320
举报

Kubernetes 中,你可以监控很多方面,但关键是要明确哪些监控点是至关重要的。在最近的一次网络研讨会上,我们讨论了在 Kubernetes 平台上应该监控哪些内容、应遵循哪些最佳实践,以及为什么 Kubernetes 监控对于云原生应用开发如此重要。最后,我们收到了一些很好的问题,希望将这些问题的答案分享给大家。

1. 如何监控成本?

理解每个工作负载当前的成本、成本产生的原因,以及如何降低成本至关重要。例如,如果你为某个工作负载设置了 1 个 CPU 的请求,但实际上它只使用了一半,那么你就有一半的资源被浪费了。监控可以帮助你发现哪些工作负载经常达到 CPU 和内存的阈值,从而相应地调整资源分配。要清楚地了解成本,需要分析工作负载在一段时间内的运行成本。

2. 如何选择监控工具?

Prometheus、Grafana、Datadog 和 Fairwinds Insights 可以很好地协同工作。Prometheus、Grafana 和 Datadog 主要负责实时监控,能够即时告诉你应用是否出现问题。而 Fairwinds Insights 则帮助你发现潜在的漏洞、过度配置的问题或配置错误。这些工具相互补充,共同提供全面的监控解决方案。

3. Kubernetes 中的最佳可观察性框架是什么?

有多种框架可供选择。我们内部使用 Datadog,因为它易于使用且功能强大。还有 Open Telemetry 这样的开放标准,它提供了一系列用于生成、收集和导出遥测数据的 APISDK 和工具。Prometheus 和 Grafana 也是 Kubernetes 中可观察性的优选工具,选择哪种取决于你对易用性、成本和社区支持的权衡。

4. 谁负责应用程序指标和仪表板警报的不同指标和日志?

理想的是,有一个平台或 SRE 团队负责监控节点本身的核心指标、Kubernetes 服务、控制平面和任何运行中的附加组件。而应用程序团队则应负责监控应用程序生成的日志,包括作业启动和扩展事件。在应用程序扩展或资源不足导致的问题上,可能需要两个团队的协作。

5. 在采用自适应黄金信号跟踪之前,如何建立基线?

建立基线是一个持续的过程,需要不断地调整和完善监控的内容、仪表板显示和警报设置。首先,要跟踪延迟、流量、错误和饱和度这四个黄金信号,并观察正常行为。在应用启动初期,要频繁检查仪表板,以确定什么是正常的行为模式。

6. 命名空间的最佳实践是什么?

使用命名空间是最佳实践之一。避免将所有应用部署在同一个默认命名空间中,这会导致权限和资源管理上的混乱。至少应该按团队或应用分离命名空间。此外,可以创建层次化的命名空间结构,或通过标签来进一步区分和跟踪资源。

7. 为什么 Kubernetes 平台中的监控至关重要?

无论是否使用 Kubernetes,监控都是必不可少的。没有监控,你就无法了解应用环境的健康状况,也无法及时发现和解决问题。监控可以帮助你发现性能下降或资源压力等问题,避免用户体验受损。

8. 有没有备份系统来导出整个集群或一些节点?

开源解决方案 Velero 可以用来备份和恢复 Kubernetes 集群。我们建议将所有基础设施定义为代码,这样即使集群出现问题,也可以快速地通过重新应用基础设施代码来重建。

9. Datadog 和 Splunk,哪个更适合用于指标监控?

没有固定的推荐,但内部使用 Datadog,它在日志管理和 Kubernetes 指标集成方面表现出色。Splunk 可能也有类似的功能,建议在小规模集群上尝试两者,看哪个更适合你的需求。

确保在 Kubernetes 中进行监控,这将帮助你管理复杂性,收集集群事件、日志和跟踪的指标,并设置警报以快速响应问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 云原生技术社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
使用OpenTelemetry实现Kubernetes事件监控
在 Kubernetes 中,事件是提供对集群内状态变化洞察的对象。进行 Kubernetes 事件监控对于实时洞察 Kubernetes 集群的运行状态至关重要。它使管理员能够快速识别并响应问题,优化资源分配,并确保其容器化应用程序的平稳高效运行。
云云众生s
2024/03/28
4010
使用OpenTelemetry实现Kubernetes事件监控
OpenAI: Kubernetes集群近万节点的生产实践
OpenAI已经将Kubernetes集群规模扩展至7500个节点,为大型神经网络模型(如GPT-3,CLIP和DALL·E)及小型实验性研究提供了可扩展的基础架构。很少将单个Kubernetes集群扩展到如此规模,为此进行了一些必要的改进,但好处是单一的基础架构使我们的机器学习研究团队可以在不修改代码的前提下,快速扩展以缩短实验时间、加速研发进度。
zouyee
2021/02/01
1.1K0
OpenAI: Kubernetes集群近万节点的生产实践
需要尽早知道的Kubernetes最佳实践
我希望能早点知道的Kubernetes最佳实践。从我在生产环境中使用Kubernetes的经验中学习,并避免常见的陷阱。
云云众生s
2025/01/23
1680
需要尽早知道的Kubernetes最佳实践
监控解决方案:10个 Kubernetes 监控工具
Kubernetes (K8s) 是开发人员中最常用的容器编排平台。它自动化部署、扩展和管理容器的能力彻底改变了我们大规模构建和运行应用程序的方式。然而,随着 Kubernetes 变得越来越流行,为了提供高性能应用程序,对强大的监控解决方案的需求变得更加迫切。
DevOps云学堂
2023/08/22
2.9K0
监控解决方案:10个 Kubernetes 监控工具
OpenShift 4 监控技术栈解析
红帽OpenShift 4.6最新版刚出来, 最新的监控技术栈经过了较大的调整并且GA(生产可用)了.
东风微鸣
2022/04/21
1.2K0
OpenShift 4 监控技术栈解析
通过平台工程设置 Kubernetes 标准
翻译自 Setting Kubernetes Standards with Platform Engineering 。
云云众生s
2024/03/27
970
通过平台工程设置 Kubernetes 标准
分布式应用的 4 个核心可观测性指标
如今,一种最为流行的架构设计模式便是将应用程序单体分解为更小的微服务。然后,每个微服务负责应用程序的特定方面或功能。例如,一个微服务可能负责提供外部 API 请求,而另一个可能处理前端的数据获取。
Luga Lee
2021/12/10
1.5K0
Kubernetes 最佳实践:综合指南
翻译自 Kubernetes Best Practices: A Comprehensive Guide 。
云云众生s
2024/03/27
3230
使用Microsoft的Retina监控Kubernetes网络
开源 Retina 使用 eBPF 为 Kubernetes 中的容器网络带来可观测性。
云云众生s
2024/03/31
1580
Linkerd|实现Kubernetes可观察性监测
在本文中,我们将向您展示如何完成基本的Kubernetes可观察性任务:从运行在Kubernetes集群上的应用程序获得黄金指标或黄金信号。我们不需要修改任何代码,也不需要进行任何配置,只要安装Linkerd(一个开源的超轻服务网格)就可以做到这一点。我们将介绍什么是服务网格,术语可观察性是什么意思,以及这两者在Kubernetes上下文中是如何关联的。
用户5166556
2023/03/18
4430
Linkerd|实现Kubernetes可观察性监测
重新构想可观测性:分散式堆栈的案例
在现代分布式架构中采用解耦的 o11y 堆栈,在成本效益和可重用性方面具有显著优势。
云云众生s
2024/09/01
1040
重新构想可观测性:分散式堆栈的案例
Grafana收购Asserts.ai给用户带来的影响
Grafana Labs收购Asserts.ai,以便通过更简单、更自动化的方式帮助用户分析指标数据。
云云众生s
2024/03/27
940
DCGM:监控Kubernetes集群的GPU资源
<Kubelet从入门到放弃>系列将对Kubelet组件由基础知识到源码进行深入梳理。因上篇文章Kubelet从入门到放弃系列:GPU加持中介绍了Nvidia系列GPU如何加持Kubernetes,我们除了关注GPU资源的使用,也关注GPU资源的管理,因此本文推出 Kubernetes集群中如何监控GPU资源。
zouyee
2021/03/23
4.6K0
Kubernetes 可观测性:利用 4 个开源工具
你可能已经知道Kubernetes是领先的容器编排系统。根据最新的CNCF 研究,可能已经将它用于生产工作负载或在未来一年考虑使用它。2021 年的研究发现,惊人的 96% 的受访者正在使用 Kubernetes 或计划在不久的将来使用它——而 69% 的受访者目前正在生产中使用 Kubernetes。Kubernetes 为大型组织和小型组织提供了许多好处:它提高了开发人员的生产力、降低了成本、提高了效率,并最终为最终用户带来了更好的体验。
没有故事的陈师傅
2022/09/15
8860
Kubernetes 可观测性:利用 4 个开源工具
《istio实战指南》第7章 可视化工具
第7章 可视化工具 分布式追踪 分布式追踪(Distributed Tracing)主要用于记录整个请求链的信息。在微服务应用中,一个完整的业务往往需要调用多个服务才能完成,服务之间就产生了交互。当出现故障时,如何找到问题的根源非常重要。追踪系统可以地展示出请求的整个调用链以及每一步的耗时,方便查找问题所在 本节主要介绍如何使用Jaeger在Istio中实现追踪 启动Jaeger Jaeger是一个开源的分布式追踪系统,它可以在复杂的分布式系统中进行监控和故障排查。Jaeger的主要功能包括分布式请求监控
yeedomliu
2020/07/15
1.7K0
《istio实战指南》第7章 可视化工具
Kubernetes成熟度模型:预期的业务成果
当你迁移到Kubernetes时,你必须显示出明确的业务优势。预期的业务成果将包括随着时间的推移节省成本,因为你拥有更好的基础设施利用率,通过减少故障点提高性能,并提高安全性。
CNCF
2021/03/15
7430
2020年Kubernetes中7个最佳日志管理工具
Kubernetes在容器编排市场中占主导地位,通常用于托管微服务。但是,微服务的每个实例都会生成大量日志事件,这些日志事件很快就会变得难以管理。更糟糕的是,当出现问题时,由于服务间的复杂交互以及不可预知的故障模式,很难找到根本原因。
公众号: 云原生生态圈
2020/11/10
4.6K1
2020年Kubernetes中7个最佳日志管理工具
详细了解 Linkerd 2.10 基础功能,一起步入 Service Mesh 微服务架构时代
Linkerd 提供了许多功能,如:自动 mTLS、自动代理注入、分布式追踪、故障注入、高可用性、HTTP/2 和 gRPC 代理、负载均衡、多集群通信、重试和超时、遥测和监控、流量拆分(金丝雀、蓝/绿部署)等。
为少
2021/07/07
1.4K0
Kubernetes 网络监控:它是什么,为什么需要它?
本文翻译自 Kubernetes network monitoring: What is it, and why do you need it? 。
云云众生s
2024/03/27
1820
Kubernetes 网络监控:它是什么,为什么需要它?
使用服务网格来实现Kubernetes可观察性
你们刚刚采用了Kubernetes。恭喜你!但是现在要做什么?任何Kubernetes采用者的第一个可观察性任务之一是监控——至少,你需要知道什么时候出现了问题,以便你可以快速地修复它们。
CNCF
2021/03/15
3810
使用服务网格来实现Kubernetes可观察性
相关推荐
使用OpenTelemetry实现Kubernetes事件监控
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档