前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据采集组件:Flume基础用法和Kafka集成

数据采集组件:Flume基础用法和Kafka集成

作者头像
知了一笑
发布2021-03-10 14:59:22
6980
发布2021-03-10 14:59:22
举报
文章被收录于专栏:知了一笑

一、Flume简介

1、基础描述

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;

特点:分布式、高可用、基于流式架构,通常用来收集、聚合、搬运不同数据源的大量日志到数据仓库。

2、架构模型

Agent包括三个核心组成,Source、Channel、Sink。Source负责接收数据源,并兼容多种类型,Channel是数据的缓冲区,Sink处理数据输出的方式和目的地。

Event是Flume定义的一个数据流传输的基本单元,将数据从源头送至目的地。

Flume可以设置多级Agent连接的方式传输Event数据,从最初的source开始到最终sink传送的目的存储系统,如果数量过多会影响传输速率,并且传输过程中单节点故障也会影响整个传输通道。

Flume支持多路复用数据流到一个或多个目的地,这种模式可以将相同数据复制到多个channel中,或者将不同数据分发到不同的channel中,并且sink可以选择传送到不同的目的地。

Agent1理解为路由节点负责Channel的Event均衡到多个Sink组件,每个Sink组件分別连接到独立的Agent上,实现负载均衡和错误恢复的功能。

Flume的使用组合方式做数据聚合,每台服务器部署一个flume节点采集日志数据,再汇聚传输到存储系统,例如HDFS、Hbase等组件,高效且稳定的解决集群数据的采集。

二、安装过程

1、安装包

apache-flume-1.7.0-bin.tar.gz

2、解压命名

代码语言:javascript
复制
[root@hop01 opt]# pwd
/opt
[root@hop01 opt]# tar -zxf apache-flume-1.7.0-bin.tar.gz
[root@hop01 opt]# mv apache-flume-1.7.0-bin flume1.7

3、配置文件

配置路径:/opt/flume1.7/conf

代码语言:javascript
复制
mv flume-env.sh.template flume-env.sh

4、修改配置

添加JDK依赖

代码语言:javascript
复制
vim flume-env.sh
export JAVA_HOME=/opt/jdk1.8

5、环境测试

安装netcat工具

代码语言:javascript
复制
sudo yum install -y nc

创建任务配置

代码语言:javascript
复制
[root@hop01 flume1.7]# cd job/
[root@hop01 job]# vim flume-netcat-test01.conf

添加基础任务配置

注意:a1表示agent名称。

代码语言:javascript
复制
# this agent
a1.sources = sr1
a1.sinks = sk1
a1.channels = sc1

# the source
a1.sources.sr1.type = netcat
a1.sources.sr1.bind = localhost
a1.sources.sr1.port = 55555

# the sink
a1.sinks.sk1.type = logger

# events in memory
a1.channels.sc1.type = memory
a1.channels.sc1.capacity = 1000
a1.channels.sc1.transactionCapacity = 100

# Bind the source and sink
a1.sources.sr1.channels = sc1
a1.sinks.sk1.channel = sc1

开启flume监听端口

代码语言:javascript
复制
/opt/flume1.7/bin/flume-ng agent --conf /opt/flume1.7/conf/ --name a1 --conf-file /opt/flume1.7/job/flume-netcat-test01.conf -Dflume.root.logger=INFO,console

使用netcat工具向55555端口发送数据

代码语言:javascript
复制
[root@hop01 ~]# nc localhost 55555
hello,flume

查看flume控制面

三、应用案例

1、案例描述

基于flume在各个集群服务进行数据采集,然后数据传到kafka服务,再考虑数据的消费策略。

采集:基于flume组件的便捷采集能力,如果直接使用kafka会产生大量的埋点动作不好维护。

消费:基于kafka容器的数据临时存储能力,避免系统高度活跃期间采集数据过大冲垮数据采集通道,并且可以基于kafka做数据隔离并针对化处理。

2、创建kafka配置

代码语言:javascript
复制
[root@hop01 job]# pwd
/opt/flume1.7/job
[root@hop01 job]# vim kafka-flume-test01.conf

3、修改sink配置

代码语言:javascript
复制
# the sink
a1.sinks.sk1.type = org.apache.flume.sink.kafka.KafkaSink
# topic
a1.sinks.sk1.topic = kafkatest
# broker地址、端口号
a1.sinks.sk1.kafka.bootstrap.servers = hop01:9092
# 序列化方式
a1.sinks.sk1.serializer.class = kafka.serializer.StringEncoder

4、创建kafka的Topic

上述配置文件中名称:kafkatest,下面执行创建命令之后查看topic信息。

代码语言:javascript
复制
[root@hop01 bin]# pwd
/opt/kafka2.11
[root@hop01 kafka2.11]# bin/kafka-topics.sh --create --zookeeper hop01:2181 --replication-factor 1 --partitions 1 --topic kafkatest
[root@hop01 kafka2.11]# bin/kafka-topics.sh --describe --zookeeper hop01:2181 --topic kafkatest

5、启动Kakfa消费

代码语言:javascript
复制
[root@hop01 kafka2.11]# bin/kafka-console-consumer.sh --bootstrap-server hop01:2181 --topic kafkatest --from-beginning

这里指定topic是kafkatest。

6、启动flume配置

代码语言:javascript
复制
/opt/flume1.7/bin/flume-ng agent --conf /opt/flume1.7/conf/ --name a1 --conf-file /opt/flume1.7/job/kafka-flume-test01.conf -Dflume.root.logger=INFO,console

四、源代码地址

代码语言:javascript
复制
GitHub·地址
https://github.com/cicadasmile/big-data-parent
GitEE·地址
https://gitee.com/cicadasmile/big-data-parent
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 知了一笑 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、Flume简介
    • 1、基础描述
      • 2、架构模型
      • 二、安装过程
        • 1、安装包
          • 2、解压命名
            • 3、配置文件
              • 4、修改配置
                • 5、环境测试
                • 三、应用案例
                  • 1、案例描述
                    • 2、创建kafka配置
                      • 3、修改sink配置
                        • 4、创建kafka的Topic
                          • 5、启动Kakfa消费
                            • 6、启动flume配置
                            • 四、源代码地址
                            相关产品与服务
                            负载均衡
                            负载均衡(Cloud Load Balancer,CLB)提供安全快捷的四七层流量分发服务,访问流量经由 CLB 可以自动分配到多台后端服务器上,扩展系统的服务能力并消除单点故障。轻松应对大流量访问场景。 网关负载均衡(Gateway Load Balancer,GWLB)是运行在网络层的负载均衡。通过 GWLB 可以帮助客户部署、扩展和管理第三方虚拟设备,操作简单,安全性强。
                            领券
                            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档