数据完整性:主要用于记录数据缺失的程度,可以分为数据条目缺失与数据字段值缺失。
可以通过以下步骤对数据完整性进行监控:
数据准确性:主要用于记录数据值与客观事物真实值的接近情况,一般我们会对数据记录的信息进行检测,检测其是否存在错误或异常。例如:我们在系统中提交信息,或接入外部数据源时字段顺序错位,在"出生日期"字段中填入"xx省xx市",在"联系电话"字段中填入"ssxdtsfs"之类的错误信息,造成了数据库中的信息与真实信息存在不一致的情况。导致其他业务系统调用或数据开发人员在使用时无法使用等异常问题。通常我们可以通过正则表达式校验的方式对特定业务字段的值进行准确性检测。
数据有效性:主要用于记录数据的字段值是否符合字段类型的定义,是否超出字段类型的限制。
可以通过以下步骤对数据有效性进行监控:
数据时效性:是一个在单位时间内数据对决策产生价值的属性。
数据从生成到ETL加工处理再到写入持久化数据库中存在一定的时间间隔。对于特定数据如果时间间隔较长,则可能会导致已经生成的决策或结论失去参考意义或价值。例如:在实时标签计算场景下,当部分属性的输入或同步出现延迟,则会导致标签计算出现误差。进而计算出的标签结果则会与预期产生较大偏差。
数据一致性:主要用于记录数据从输入到输出,经过一系列ETL加工处理后,特定唯一字段是否出现加工前后不一致的情况。
可以通过以下步骤堆数据一致性进行监控:
数据质量报告:
根据数据质量指标与评估规则,对数据质量的相应指标数据进行分析,最后得出各个评估规则的百分比得分。使用合理的方法进行设置规则的权重。然后对规则进行打分。最后得出数据质量报告。
效果如下图所示:
调度框架:XXL-JOB
主要技术:SQL,Python爬虫
BI工具:metabase
数据库:MYSQL
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。