社区首页 >专栏 >生产环境中的面试问题，实时链路中的Kafka数据发现某字段值错误，怎么办？

生产环境中的面试问题，实时链路中的Kafka数据发现某字段值错误，怎么办？

王知无-import_bigdata

发布于 2023-11-14 10:51:25

69725

文章被收录于专栏：大数据成神之路大数据成神之路

大家好呀，今天分享的是一个生产环境中遇到的问题。也是群友遇到的一个面试问题。

原问题是：

早晨8点之后发现kafka的record中某个字段的值出现了错误，现在已经10点了，需要对kafka进行数据订正，怎么样定位和解决这个问题，达到最快响应和最小影响。

这个问题是一个很「大」的问题，我们挑重点的说。

首先，我们在做数据开发的过程中涉及到一些基本要素：时效性保障、质量保障、稳定性保障，此外还有敏捷性、可管理性等其他要素。根据公司业务场景和重要性不同，重点也有所侧重。

时效性保障

时效性保障主要关注的几个方面：

Kafka延迟监控：Flink消费产生的lag、业务数据下发的延迟；
在分层和时效延迟上做好平衡，保证链路的可复用的同时避免链路过程产生额外的时效问题；
数据乱序；
压测，应对流量高峰期，特别是大促场景下，提前做好资源保障、任务优化等措施；
设置延时基线，通过优化程序代码、资源、解决倾斜与反压等问题，使其控制在基线内；
指标监控，监控任务FailOver情况、CheckPoint指标、GC情况、作业反压等，出现异常告警。

数据质量保障

这是个老生常谈的话题了。我们在离线时代已经有了非常完善的数据质量监控体系。大家重点看加粗内容即可。

数据一致性监控

实时计算端到端的一致性。 常用手段就是通过输出幂等方式保障，这种方式要求输出使用存储介质支持重写，对于不支持幂等的存储，比较常用的就是DWD层的kafka，可能会产生重复的数据，那么在下游使用的时候可以使用row_number()语法进行去重，保证相同的key不会被多次计算；
离线与实时的一致性，需要保证使用数据源一致、加工业务逻辑一致。

数据完整性监控

保证数据从源头到数据加工再到前端数据展示，不能因为加工逻辑权限，存储异常，前端展现异常等原因导致数据丢失。例如：

数据源层出现背压时，导致数据源头（mq,Kafka）消息积压，积压严重时导致资源耗尽，进而导致数据丢失；
数据处理层数据加工未按照需求进行加工，导致目标有效数据丢失；
数据存储层的存储容量写满时，导致新数据无法继续写入导致数据丢失；
数据加工正确性、数据加工及时性、数据快速恢复性构成数据完整性

数据加工正确性监控

目标源数据按照业务需求加工成目标有效数据，目标有效数据根据不同维度不同指标计算成需要展示的不同指标数据。例如：

数据源层原始数据包含不同联盟的点击数据，那么数据处理层过滤掉不需要的联盟点击数据，并将目标联盟的点击数据根据媒体和创意信息补齐当前点击所属的账号、计划、单元;
业务层根据媒体，账号、计划、单元不同维度计算出对应的点击总量;

数据快速恢复性

数据在流转路径中因为异常导致流转中断，数据停止在某一个环节中，当异常解决，系统恢复正常时，停止的数据（停止的数据）需要快速恢复流转，并且这种恢复是正确的，不应该存在重复的消费和加工或者遗漏。例如：

数据处理层因为消费程序性能问题导致消息积压，性能问题解决后数据挤压问题逐步得到缓解直到恢复正常水平;
数据处理层因为消费程序bug导致程序崩溃，重启后数据消费正常;

稳定性保障

任务压测

提前压测应对流量高峰期，特别是大促场景下，提前做好资源保障、任务优化等措施。

任务分级

制定保障等级，从任务影响面大小、数据使用方来划分，一般情况公司层面优先于部门层面，外部使用优先于内部使用，高优先级任务需要优先/及时响应、必要情况下做双链路保障机制。

做好指标监控

指标监控，监控任务failover情况、checkpoint指标、GC情况、作业反压等，出现异常告警。

高可用HA

整个实时Pipeline链路都应该选取高可用组件，确保理论上整体高可用；在数据关键链路上支持数据备份和重放机制；在业务关键链路上支持双跑融合机制

监控预警

集群设施层面，物理管道层面，数据逻辑层面的多方面监控预警能力

自动运维

能够捕捉并存档缺失数据和处理异常，并具备定期自动重试机制修复问题数据

回到问题本身

再回答问题本身，我们可以从下面三个方面回答：

事前

本问题是从数据质量角度产生的问题，可以从数据质量监控的角度，有必要的数据质量监控和对应的报警；

事中

在问题发生后，要有正确的SOP流程处理数据异常。例如，通过公告、默认值、开关等方法，降低数据质量带来的舆情影响；

事后

要进行数据修复。是否需要进行数据回溯，或者通过离线回补等方式进行修复。

当然这只是一个思路，你能结合工作中的具体场景，举例说明就更好啦。

如果这个文章对你有帮助，不要忘记 「在看」 「点赞」 「收藏」 三连啊喂！

2022年全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学，大数据专业

我们在学习Flink的时候，到底在学习什么？

193篇文章暴揍Flink，这个合集你需要关注一下

Flink生产环境TOP难题与优化，阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他！| Flink CDC线上问题小盘点

我们在学习Spark的时候，到底在学习什么？

在所有Spark模块中，我愿称SparkSQL为最强！

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】2021年过半，社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-11-12，如有侵权请联系 cloudcommunity@tencent.com 删除

kafka

本文分享自大数据技术与架构微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

25 条评论

热度

最新

用户3487952

2021-08-18

请问答题可选python 和 scala吗

回复回复点赞举报

用户7883014回复ZHANGHAO

2020-10-22

请问，cca175考试难吗？需要参加培训吗？

33点赞举报

ZHANGHAO回复用户7883014

2020-10-25

个人感觉不难，就是常用的一些Spark的操作得掌握

回复回复点赞举报

ZHANGHAO回复用户7883014

2020-10-25

自己刷模拟题就可以了，可以不用参加培训

回复回复点赞举报

查看全部3条回复

用户3918528回复ZHANGHAO

2020-06-22

請問你是怎樣準備考試的？在哪裡可以找的考試相關的材料嗎？謝謝！

11点赞举报

ZHANGHAO回复用户3918528

2020-10-25

我是刷模拟题的

回复回复点赞举报

用户5915895回复ZHANGHAO

2019-07-27

感谢分享！请问如果要求保存结果为某个delimiter的text file, 可以保存为csv格式吗？我的理解是csv也是某种text格式。比如 df.write.format("csv").option("sep", "\t").save("\some\path").

11点赞举报

ZHANGHAO回复用户5915895

2019-07-28

如果说明了要保存成csv那就保存成csv就可以了。如果说明是文本格式，那用saveText保存成文本文件就ok了。

回复回复点赞举报

用户4481609回复ZHANGHAO

2019-04-22

1、英文要求高么，怕看不懂题目，能用在线翻译吗？2、文本编辑器使用自己的还是它提供的？3、考试环境是一个系统的交互环境么还是写完答案直接提交？

11点赞举报

ZHANGHAO回复用户4481609

2019-04-24

考试题目的英语还是挺基础的。基础的英语水平要有。考试环境是一个CentOS系统，文本编辑器使用这个系统里面的文本编辑器即可。具体的信息你可以看这个CCA175的主页 https://www.cloudera.com/about/training/certification/cca-spark.html

回复回复点赞举报

用户5183397回复ZHANGHAO

2019-04-15

请问可以使用自己电脑上的编辑器进行写代码，在复制去执行吗？能详细描述一下考试环境吗？

44点赞举报

ZHANGHAO回复用户5183397

2019-04-15

不可以，只能用提供的机器。考试环境就是一个远程的centOS的服务器，屏幕比较小，通过浏览器来访问的。

回复回复点赞举报

用户5183397回复ZHANGHAO

2019-04-15

考试的时候需要开启摄像头？一般笔记本上的摄像头可以吗？