微信公众号:知了小巷
关注可了解更多技术文章和视频资源。问题或建议,请公众号留言。
很多时候我们对流的数据不能进行很好的结构化查询,就是不能像SQL一样查询数据流,当然现在flink和spark(structured)streaming可以做到实时的流处理(支持SQL语义和语法及扩展)。
本文要介绍的是基于PostgreSQL的一个开源扩展数据库PipelineDB,它能连续地在数据流上做SQL查询,并通过增量的方式将数据保存到结构化的数据库中。
主要特点和优势
不需要编写应用代码
只需要使用SQL就可以处理实时的数据。
使用持续执行的执行计划和执行引擎来处理复杂的正在运行中的计算任务。
运行在PostgreSQL之上
PipelineDB是标准的PostgreSQL扩展,依托极其成熟、可靠和活跃的PG生态系统,使得PipelineDB非常的稳定。
甩掉ETL
PipelineDB免去了数据处理的ETL层,根据提前声明好的SQL语句直接不断地将颗粒化的流数据写入数据库即可。
效率高、可持续
PipelineDB只存储连续查询的结果输出,这些查询随着数据的不断获取而增量更新。
PipelineDB的安装
下载rpm文件,直接安装即可 pipelinedb-0.9.7u5-centos6-x86_64.rpm
根据安装成功后的提示初始化存储目录
启动pipelinedb
停止pipelinedb
修改pipelinedb配置文件
配置允许特定IP访问
置服务IP和端口
重启pipelinedb
使用psql访问并创建用户和分配角色
退出和查看数据库
下载安装扩展librdkafka
使用Navicate客户端连接pipelinedb
连接选择postgres
更多内容见 pipeline_kafka
image
image
image
Happy...
图片显示
下面的是我的公众号二维码图片,欢迎关注。
知了小巷
领取专属 10元无门槛券
私享最新 技术干货