首页
学习
活动
专区
工具
TVP
发布

极客运维

专栏成员
32
文章
73021
阅读量
15
订阅数
滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台
桔妹导读: LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管控、监控告警、资源治理等核心场景,经历过大规模集群、海量大数据的考验。内部满意度高达90%的同时,还与多家知名企业达成商业化合作。
一条老狗
2021-01-18
7960
滴滴开源Logi-KafkaManager 一站式Kafka监控与管控平台
LogI-KafkaManager脱胎于滴滴内部多年的Kafka运营实践经验,是面向Kafka用户、Kafka运维人员打造的共享多租户Kafka云平台。专注于Kafka运维管控、监控告警、资源治理等核心场景,经历过大规模集群、海量大数据的考验。内部满意度高达90%的同时,还与多家知名企业达成商业化合作。
一条老狗
2021-01-15
1.4K0
一次CPU sys上涨引发对kafka PageCache的思考
线上某个kafka集群由于种种原因,从 24 * 机型 A 置换迁移为 12 * 机型 B。从集群总资源维度看,排除其他客观因素,置换后,CPU总核数少了一半,使用率上升其实也是预期之内的。事实上置换后,集群CPU使用率确实也由原有的 20%提升至 40%,上升了约 1 倍多。但置换后,cpu sys使用率均值约达到了 12%,较为抢眼,系统相关服务却并无异常,令人有些困惑。
一条老狗
2020-10-29
8890
kafka消费组及重平衡的影响
消费组应该算是kafka中一个比较有特色的设计模式了,而他的重平衡机制也是我们在实际生产使用中,无法避免的一个问题。
一条老狗
2020-06-16
3.9K0
kafka生产者的幂等和事务处理
之前和大家聊过kafka是如何保证消息不丢失的,今天再讲讲在不丢消息的同时,如何实现精确一次处理的语义实现。
一条老狗
2020-05-09
2.4K0
kafka是如何保证消息不丢失的
今天和大家聊一下,kafka对于消息的可靠性保证。作为消息引擎组件,保证消息不丢失,是非常重要的。
一条老狗
2020-02-24
12K0
kafka的发行版选择
今天继续和大家聊一下,kafka的各种发行版。kafka历经数年的发展,从最初纯粹的消息引擎,到近几年开始在流处理平台生态圈发力,衍生出了各种不同特性的版本。
一条老狗
2020-02-13
2.2K0
kafka分区数过多引发的弊端
上篇文章我们了解到,如果一个topic分区越多,理论上整个集群所能达到的吞吐量就越大。那么,分区数越多就越好吗?显然不是。今天我们来聊下kafka在分区数过多的情况下,会带来哪些弊端。
一条老狗
2020-01-14
5.7K1
kafka分区数和吞吐量的关系
要讲 kafka 分区数和吞吐量的关系,首先得理解什么是分区(partition)。
一条老狗
2019-12-27
4K0
【Dr.Elephant中文文档-8】调优建议
你可以使用Dr. Elephant来分析你的作业(只需在搜索页贴入你的作业ID),就可以知道你的作业有哪些地方需要优化。
一条老狗
2019-12-26
9380
【Dr.Elephant中文文档-7】自动调优
Dr.Elephant这个项目希望构建一个可以自动优化hadoop mapreduce相关函数的调优框架。在这种情况下,是为了函数消耗最少的资源来完成作业。我们还希望在未来的版本将作业时间也作为函数资源消耗的参考指标。我们使用迭代算法和粒子群优化算法进行自动调优。这些迭代通过分析作业的多次运行结果来完成,我们已经在15-20次的作业中优化了20-30%的资源。
一条老狗
2019-12-26
6950
【Dr.Elephant中文文档-6】度量指标和启发式算法
我们将作业的资源使用量定义为任务容器大小和任务运行时间的乘积。因此,作业的资源使用量可以定义为mapper和reducer任务的资源使用量总和。
一条老狗
2019-12-26
1.3K0
【Dr.Elephant中文文档-5】用户指南
这个页面包含了集群最近的统计信息。列出了最近 24 小时分析过的作业数量,可进行优化的作业数量和待优化的作业数量。
一条老狗
2019-12-26
9800
【Dr.Elephant中文文档-4】开发者指南
为了在本地部署Dr.Elephant测试,你需要安装Hadoop(version 2.x)或者Spark(Yarn mode, version > 1.4.0),以及资源管理服务和历史作业服务(可以用伪分布式)。关于伪分布式模式在 YARN 上运行 MapReduce 作业相关说明可以在这里(https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html)[1]找到。
一条老狗
2019-12-26
1.2K0
【Dr.Elephant中文文档-3】快速安装说明
Step 1: 在 GitHub 上注册一个账号,并 fork 一份Dr. Elephant项目代码。
一条老狗
2019-12-26
1.5K4
【Dr.Elephant中文文档-2】管理员指南
Dr. Elephant依赖于 YARN 的资源管理服务器和历史作业记录服务器,来获取作业详细信息和记录。YARN 作业及其分析的详细信息将存储在当前配置的后端 mysql 中。因此在运行Dr. Elephant前,必须安装好 MySQL 和 hadoop 2。从#162开始,将不再支持JAVA 6。
一条老狗
2019-12-26
1K0
【Dr.Elephant中文文档-1】Dr. Elephant简介
Dr. Elephant是一个Hadoop和Spark的性能监控和调优工具。它能自动采集作业的度量指标并分析他,然后以简单明了的方式展现出来。Dr. Elephant的设计思想是通过作业分析结果来指导开发者进行作业调优,从而提升开发者效率和集群资源的利用率。Dr. Elephant使用了一组可配置的插件式启发算法来分析hadoop和spark作业并提供优化建议。然后针对结果数据来建议如何调整作业。这个算法还计算了作业的许多其他度量标准,用来为集群作业优化提供了有价值的参考信息。
一条老狗
2019-12-26
3.1K1
Dr.Elephant实战常见问题及解决方法
通过之前一系列的文章叙述,想必大家都对dr.elephant有了一个较为清晰的了解。通过自己线上经验的积累,以及和一些读者的交流,我汇总了一些大家在实战中遇到的问题和解决方案。
一条老狗
2019-12-26
1.9K0
kafka集群扩容后的数据均衡
生产环境的kafka集群扩容,是一个比较常见的需求和操作。然而kafka在新增节点后并不会像elasticsearch那样感知到新节点加入后,自动将数据reblance到整个新集群中,因此这个过程需要我们手动分配。
一条老狗
2019-12-26
5K0
kafka数据存储目录间迁移
生产环境kafka集群,在数据量大的情况下,经常会出现单机各个磁盘间的占用不均匀情况。
一条老狗
2019-12-26
4.2K1
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档