首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

作者头像
大数据流动
发布于 2023-12-06 07:15:38
发布于 2023-12-06 07:15:38
5.3K05
代码可运行
举报
文章被收录于专栏:实时计算实时计算
运行总次数:5
代码可运行

大家好,我是独孤风,从本周开始,争取每周为大家带来一个优秀的开源项目推荐。

开源项目不仅促进了技术的发展和普及,还为全球范围内的开发者和用户社区建立了一个共享知识、协作和创新的平台。站在巨人的肩膀上才能看的更远,我们平时也应该多多关注开源项目,不仅学习其丰富的知识,也要找机会为开源事业做出自己的贡献。

话不多说,今天为大家推荐的开源项目名为SQLLineage。

SQLLineage 是一个使用 Python 开发的 SQL 血缘分析工具。它专注于提供 SQL 查询的血缘关系和依赖关系的深入分析。

Github首页地址为: https://github.com/reata/sqllineage

目前标星891,最新版本是v1.4.8,主要开发语言为Python 。

一、概述

简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。

数据血缘(Data Lineage),也有翻译为数据沿袭,都数据血缘(Data Lineage)是指追踪数据从其源头到目的地的路径,包括它在整个数据生命周期中的流动、转换和使用情况。数据血缘的核心目的是提供对数据流动和变化的完整可视化,从而帮助组织理解数据的来源、经过的处理步骤以及最终如何被利用。

数据血缘是元数据管理的重要组成部分,通过收集获取元数据可以分析生成数据血缘,这样可以增加数据透明度,便于审计和合规,也就是说数据血缘在数据安全,数据管理领域意义重大。

而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。

我们假设有这样的一个SQL。

通过SQLLineage可以快速的分析出表级别的血缘。

也可以分析出列级别的血缘。

这样的话,数据的前后关系就一目了然了。

同时SQLLineage还支持多种SQL语法的解析器,这不管是我们直接拿来用,还是分析其代码都非常的有帮助。

二、主要特性

SQLLineage 还提供了如下的丰富的功能支持。

简化 SQL 解析: SQLLineage 提供了一个简单易用的接口来理解 SQL 查询的源和目标表,无需担心复杂的 SQL 解析过程。

高效的解析库: 使用 sqlfluff 和 sqlparse 等库来解析 SQL 命令,分析 AST,并使用 networkx 图形库存储血缘信息。

易于安装和使用: 可以通过 PyPI 快速安装,并通过简单的命令行操作来解析 SQL 查询。

一些更高级的用法:

  • 处理多个 SQL 语句: 可以分析包含多个 SQL 语句的查询,识别中间表。
  • 详细血缘结果: 提供详细的血缘分析结果,每个 SQL 语句的血缘信息都可以显示出来。
  • 方言意识: 支持不同的 SQL 方言,以适应不同的关键词和语法。
  • 列级血缘: 支持列级血缘分析,展示所有列的血缘路径。
  • 血缘可视化: 支持血缘结果的图形可视化,可以在浏览器中查看表级和列级血缘的有向无环图(DAG)表示。

三、安装部署与使用

SQLLineage 由Python开发而成,所以可以非常方便的使用Python相关组件进行安装。

安裝

可以直接使用pip安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install sqllineage

也可以通过github来安装

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install git+https://github.com/reata/sqllineage.git

分析

有两种方式,去解析sql。可以用-e直接分析一个sql语句,这里分析出了源表和目标表:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ sqllineage -e "insert into db1.table1 select * from db2.table2"
Statements(#): 1
Source Tables:
    db2.table2
Target Tables:
    db1.table1

也可以用-f来直接分析一个sql文件:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ sqllineage -f foo.sql
Statements(#): 1
Source Tables:
    db1.table_foo
    db1.table_bar
Target Tables:
    db2.table_baz

对于连续的两个sql也可以进行分析:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ sqllineage -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

可以用-v指令来看每一个sql的执行结果。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ sqllineage -v -e "insert into db1.table1 select * from db2.table2; insert into db3.table3 select * from db1.table1;"
Statement #1: insert into db1.table1 select * from db2.table2;
    table read: [Table: db2.table2]
    table write: [Table: db1.table1]
    table cte: []
    table rename: []
    table drop: []
Statement #2: insert into db3.table3 select * from db1.table1;
    table read: [Table: db1.table1]
    table write: [Table: db3.table3]
    table cte: []
    table rename: []
    table drop: []
==========
Summary:
Statements(#): 2
Source Tables:
    db2.table2
Target Tables:
    db3.table3
Intermediate Tables:
    db1.table1

指定分析器

下面的例子,可以使用 --dialect=postgres关键字来指定要使用的分析引擎:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ sqllineage -e "insert into analyze select * from foo;"
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    
$ sqllineage -e "insert into analyze select * from foo;" --dialect=ansi
Statements(#): 1
Source Tables:
    <default>.foo
Target Tables:
    <default>.analyze

$ sqllineage -e "insert into analyze select * from foo;" --dialect=postgres
...
sqllineage.exceptions.InvalidSyntaxException: This SQL statement is unparsable, please check potential syntax error for SQL

提示:用这个命令sqllineage --dialects 看看都有哪些分析器。

列级血缘

可以分析列级血缘,比如下面的sql。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
INSERT OVERWRITE TABLE foo
SELECT a.col1,
       b.col1     AS col2,
       c.col3_sum AS col3,
       col4,
       d.*
FROM bar a
         JOIN baz b
              ON a.id = b.bar_id
         LEFT JOIN (SELECT bar_id, sum(col3) AS col3_sum
                    FROM qux
                    GROUP BY bar_id) c
                   ON a.id = sq.bar_id
         CROSS JOIN quux d;

INSERT OVERWRITE TABLE corge
SELECT a.col1,
       a.col2 + b.col2 AS col2
FROM foo a
         LEFT JOIN grault b
              ON a.col1 = b.col1;

可以使用-l关键字来进行列级血缘分析

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
$ sqllineage -f foo.sql -l column
<default>.corge.col1 <- <default>.foo.col1 <- <default>.bar.col1
<default>.corge.col2 <- <default>.foo.col2 <- <default>.baz.col1
<default>.corge.col2 <- <default>.grault.col2
<default>.foo.* <- <default>.quux.*
<default>.foo.col3 <- c.col3_sum <- <default>.qux.col3
<default>.foo.col4 <- col4

可视化

最后可以用下面的指令来启动一个web浏览器,进行血缘展示。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sqllineage -g -f foo.sql

赶紧体验一下吧~

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数据血缘分析-Python代码的智能解析
如果你的工作是从事数据挖掘、数据仓库建设或者信息系统开发/维护,有没有曾经遇到过如下的烦恼?
大数据技术架构
2022/12/01
2K0
数据血缘分析-Python代码的智能解析
SQL语句规范参考
2. 引用字符时应使用单引号。如:update testable set idcol=’abcd’。
星哥玩云
2022/08/18
1.4K0
SqlAlchemy 2.0 中文文档(四十)
列的插入和更新默认值是指在针对该行进行插入或更新语句时,为该列创建默认值的函数,前提是对该列的插入或更新语句未提供任何值。也就是说,如果一个表有一个名为“timestamp”的列,并且进行了不包含该列值的插入语句,那么插入默认值将创建一个新值,例如当前时间,该值将用作要插入到“timestamp”列的值。如果语句包含该列的值,则默认值不会发生。
ApacheCN_飞龙
2024/08/21
7290
分享:Oracle sql语句优化
最近做查询时,写的一条查询语句用了两个IN,导致tuexdo服务积压了不少,用户没骂就不错了。最后经过技术经理的点拨,sql语句性能提升了大约10倍,主要用了表连接、建索引、exists。这才感叹SQL性能优化的重要性啊,网上搜了半天,找到一篇令我非常满意的日志,忍不住分享之:
williamwong
2018/07/24
3.4K0
分享:Oracle sql语句优化
SqlAlchemy 2.0 中文文档(三十八)
使用数据库元数据 - SQLAlchemy 的数据库元数据概念入门教程,位于 SQLAlchemy 统一教程中
ApacheCN_飞龙
2024/06/27
5540
SQL Server秘籍:数据分隔解密,数据库处理新境界!
在数据数据过程中经常会遇到数据按照一定字符进行拆分,而在不同版本的SQL SERVER数据库中由于包含的函数不同,处理的方式也不一样。本文将列举2个版本的数据库中不同的处理方法。
俊才
2023/11/27
2800
SQL Server秘籍:数据分隔解密,数据库处理新境界!
HIVE入门_1
本文介绍了如何使用 Hive 进行数据倾斜处理。首先介绍了 Hive 数据倾斜的基本概念,然后通过示例介绍了如何通过分桶、合并小文件、增加 Reduce 数目、使用 CombineTable 等方式来解决数据倾斜问题。同时,本文还提供了避免数据倾斜的一些建议,例如通过合理设置 Map 和 Reduce 数目、使用 Merge-on-Read(MOR)表、合理设置缓存、使用 Table 和 Partition 等方法。通过这些方法,可以有效地解决 Hive 中的数据倾斜问题,提高数据处理效率。
用户1147754
2018/01/02
5650
面试|不可不知的十大Hive调优技巧最佳实践
Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。可以说从事数据开发工作,无论是在平时的工作中,还是在面试中,Hive具有举足轻重的地位,尤其是Hive的性能调优方面,不仅能够在工作中提升效率而且还可以在面试中脱颖而出。在本文中,我将分享十个性能优化技术,全文如下。
Spark学习技巧
2021/03/05
1.5K0
面试|不可不知的十大Hive调优技巧最佳实践
MySQL多表关联数据同时删除sql语句
DELETE删除多表数据,怎样才能同时删除多个关联表的数据呢?这里做了深入的解释:
用户4988376
2021/08/10
5.2K0
Flink1.16 SQL Gateway 迁移Hive SQL任务实战
我们有数万个离线任务,主要还是默认的DataPhin调度CDP集群的Hive On Tez这种低成本任务,当然也有PySpark、打Jar包的Spark和打Jar包的Flink任务这种高成本的任务【Java和Scala都有】。毕竟SQL上手门槛极低,是个人都能写几下并且跑起来,还可以很容易看到run成功的数据长得像不像。其实HQL任务的性能并不会好到哪里去,主要是SQL Boy便宜,无脑堆人天就可以线性提升开发速度。DataPhin的底层基本可以确认就是beeline -f包了一层,而它本身作为二级队列,并不是真正意义上的网关。
王知无-import_bigdata
2023/02/01
1.4K1
AnalyticDB_分布式分析型数据库
​ 分析型数据库AnalyticDB(原名 ADS)是阿里巴巴针对海量数据分析自主研发的实时高并发在线分析系统,可以针对万亿级别的数据进行多维度分析透视和业务探索。采用分布式计算,具有强大的实时计算能力。
全栈程序员站长
2022/09/30
2.2K0
AnalyticDB_分布式分析型数据库
Atlas血缘分析在数据仓库中的实战案例
1.1 执行SQL 1.2 手写的数据地图 1.3 atlas血缘分析 1.4 打标签 1.4.1 CLASSIFICATION分类 1.4.2 GLOSSARY词汇表 1.5 字段搜索 1.5.1查看表字段 1.5.2 追踪字段关系
王知无-import_bigdata
2022/03/11
3.6K0
Atlas血缘分析在数据仓库中的实战案例
ShardingSphere实践(8)——影子库
        在基于微服务的分布式应用架构下,业务需要的多个服务是通过一系列的服务、中间件的调用来完成,所以单个服务的压力测试已无法代表真实场景。在测试环境中,如果重新搭建一整套与生产环境类似的压测环境,成本过高,并且往往无法模拟线上环境的复杂度以及流量。因此,业内通常选择全链路压测的方式,即在生产环境进行压测,这样所获得的测试结果能够准确地反应系统真实容量和性能水平。
用户1148526
2022/08/30
1.7K1
ShardingSphere实践(8)——影子库
数据科学|Hive SQL语法总结
Hive是一个数据仓库基础的应用工具,在Hadoop中用来处理结构化数据,它架构在Hadoop之上,通过SQL来对数据进行操作,了解SQL的人,学起来毫不费力。
陆勤_数据人网
2019/12/31
1.9K0
Pandas 2.2 中文官方教程和指南(十·二)
将多级索引的 DataFrames 存储为表与存储/选择同质索引的 DataFrames 非常相似。
ApacheCN_飞龙
2024/05/24
1.2K0
Hadoop Hive sql语法详解
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构
黄规速
2022/04/14
2.3K0
马哈鱼带你发现SQL中的数据血缘
在大型数据仓库和数据湖中,完整的数据血缘关系可以用来进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。
MySQL技术
2021/09/17
2.9K0
马哈鱼带你发现SQL中的数据血缘
聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起
前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。
大数据流动
2022/11/23
2.1K0
聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起
PostgreSQL JSONB 使用入门
Photo by Tobias Fischer[9] on Unsplash[10]
goodspeed
2020/12/22
8.6K0
PostgreSQL JSONB 使用入门
Spark SQL 字段血缘在 vivo 互联网的实践
有了字段间的血缘关系,便可以知道数据的来源去处,以及字段之间的转换关系,这样对数据的质量,治理有很大的帮助。
2020labs小助手
2022/04/25
1.5K0
相关推荐
数据血缘分析-Python代码的智能解析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档