如何使用HTTP源设置Apache Flume并使用File_Roll接收器将数据保存在本地

Apache Flume是一个分布式、可靠且可扩展的日志收集和聚合系统。它可以用于将大量的数据从各种源（包括HTTP源）收集并传输到目标存储（如本地文件系统）中。

要使用HTTP源设置Apache Flume并使用File_Roll接收器将数据保存在本地，可以按照以下步骤进行操作：

安装和配置Apache Flume：首先，确保已经安装了Java和Apache Flume。然后，创建一个Flume配置文件，例如flume.conf，配置HTTP源和File_Roll接收器。在配置文件中，指定HTTP源的监听端口和URL路径，并将数据传输到File_Roll接收器。配置示例：

# flume.conf
agent.sources = http-source
agent.sources.http-source.type = org.apache.flume.source.http.HTTPSource
agent.sources.http-source.bind = 0.0.0.0
agent.sources.http-source.port = 8888
agent.sources.http-source.handler = org.apache.flume.source.http.JSONHandler

agent.sinks = file-sink
agent.sinks.file-sink.type = hdfs
agent.sinks.file-sink.hdfs.path = /path/to/save/data
agent.sinks.file-sink.hdfs.filePrefix = events-
agent.sinks.file-sink.hdfs.rollInterval = 3600
agent.sinks.file-sink.hdfs.rollSize = 0
agent.sinks.file-sink.hdfs.rollCount = 100

agent.channels = memory-channel
agent.channels.memory-channel.type = memory
agent.channels.memory-channel.capacity = 10000
agent.channels.memory-channel.transactionCapacity = 1000

agent.sources.http-source.channels = memory-channel
agent.sinks.file-sink.channel = memory-channel

启动Apache Flume代理：使用以下命令启动Apache Flume代理，并指定配置文件的路径：

$ bin/flume-ng agent --conf conf --conf-file /path/to/flume.conf --name agent -Dflume.root.logger=INFO,console

发送数据到HTTP源：使用HTTP POST请求将数据发送到配置的HTTP源。例如，使用curl命令发送数据：

$ curl -X POST -H "Content-Type: application/json" -d '{"message": "Hello, Flume!"}' http://localhost:8888

检查本地文件系统中的数据：Apache Flume将接收到的数据保存在指定的本地文件系统路径中。您可以检查该路径，确认数据是否已成功保存。

需要注意的是，以上步骤仅为使用HTTP源设置Apache Flume并使用File_Roll接收器将数据保存在本地的基本过程。根据实际需求，您可能需要进一步配置和调整Flume代理以满足特定的要求。

推荐的腾讯云相关产品：腾讯云日志服务（CLS）可以作为日志收集和聚合的解决方案，用于替代Apache Flume。您可以通过腾讯云日志服务将日志数据收集、存储和分析。详情请参考腾讯云日志服务产品介绍：腾讯云日志服务。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Flume浅度学习指南

Flume简介 cloudera 公司开源的，贡献给Apache基金会 http://flume.apache.org/ http://archive.cloudera.com/c......、客户端的用户行为日志、软件的运行操作日志可以将数据从数据源中采集并移动到另外一个目的地：数据源=>系统本地日志文件中的数据、jms、avro端口、kafka、系统本地目录下......如何将linux本地的一个日志文件中的日志数据采集到hdfs上脚本+hdfs命令 =>【周期性】上传 #!...event事件： event事件是flume传输日志数据时基本单元，在flume-agent内部数据都是以事件形式存在 source将采集到的数据封装成一个个的event事件，将事件提交到...sources = exec 要求使用flume实时监控读取系统本地一个日志文件中动态追加的日志数据并实时写入到hdfs上的某个目录下 # example.conf: A single-node

1.1K3 0

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

Spark Streaming 为每个输入源启动对应的接收器。接收器以任务的形式运行在应用的执行器进程中，从输入源收集数据并保存为 RDD。...Flume-ng Spark 提供两个不同的接收器来使用 Apache Flume(http://flume.apache.org)。两个接收器简介如下。 ...较新的方式是拉式接收器(在Spark 1.1中引入)，它设置了一个专用的Flume数据池供 Spark Streaming 读取，并让接收器主动从数据池中拉取数据。...举个例子，使用 Flume 作为数据源时，两种接收器的主要区别在于数据丢失时的保障。在 “接收器从数据池中拉取数据” 的模型中，Spark 只会在数据已经在集群中备份时才会从数据池中移除元素。...这时你就需要通过创建多个输入 DStream(这样会创建多个接收器) 来增加接收器数目，然后使用 union 来把数据合并为一个数据源。 • 将收到的数据显式地重新分区。

2K1 0

Flume(一)概述

Apache Flume 的使用不仅限于日志数据聚合。...image.png Flume 源使用由外部源（如 Web 服务器）传递给它的事件。外部源以目标 Flume 源可识别的格式将事件发送到 Flume。...当 Flume 源接收到事件时，它会将其存储到一个或多个频道。通道是一个被动存储，它保存事件直到它被 Flume 接收器消耗。文件通道就是一个示例–由本地文件系统支持。...给定代理中的源和接收器与通道中暂存的事件异步运行。 Agent Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。...如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。 File Channel将所有事件写到磁盘。

4052 0

玩转Flume+Kafka原来也就那点事儿

一、FLUME介绍 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力...，Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best effort（数据发送到接收方后，不会进行确认）。...Events事件传输的基本数据负载。三、Flume的整体构成图 ? Paste_Image.png 注意源将事件写到一个多或者多个通道中。接收器只从一个通道接收事件。...代理可能会有多个源、通道与接收器。四、Flume环境配置在http://flume.apache.org/ 下载Flume安装包，我们选择最新的1.6.0版本。 ?...Kafka接收器 agent.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink #设置Kafka的broker地址和端口号 agent.sinks.k1

5052 0

认识Flume(一)

简介 Apache Flume是一个分布式的、可靠的和可用的系统，用于有效地收集、聚合和将大量日志数据从许多不同的源移动到集中的数据存储。运行要求 Java运行时环境：Java 1.8或更高版本。...内存：为源、通道或接收器使用的配置提供足够的内存。磁盘空间：为通道或接收器使用的配置提供足够的磁盘空间。目录权限：代理使用的目录的读写权限。...组件的所有这些属性都需要在宿主Flume代理的属性文件中设置。 Agent代理需要知道要加载哪些单独的组件，以及它们是如何连接的，以便组成流。...a1有一个源监听端口44444上的数据，一个通道缓冲内存中的事件数据，还有一个接收器将事件数据记录到控制台。配置文件为各种组件命名，然后描述它们的类型和配置参数。...应用场景 Apache Flume的使用不仅限于日志数据聚合。

8182 0

Flume——高可用的、高可靠的、分布式日志收集系统

flume 官网 http://flume.apache.org/ flume用户手册 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html...设置多Agent流(集群配置) 需要我们在不同主机安装 flume 并配置为了跨多个代理或跳流数据，前一个代理的接收器和当前跳的源需要是Avro类型，接收器指向源的主机名(或IP地址)和端口...设置多Agent流的拓展企业常见架构模式日志收集中一个非常常见的场景是大量日志生成客户端将数据发送给一些附加到存储子系统的使用者代理。...这可以在Flume中通过使用Avro接收器配置多个第一级代理来实现，所有代理都指向单个代理的Avro源(同样，在这种情况下您可以使用节约源/接收器/客户端)。...flume在项目中的应用 flume读取指定目录文件(nginx的指定日志文件这里是Nginx的配置 )下的数据并将其收集保存在本地具体实现步骤如下编写 flume的自定义配置文件

1.4K3 0

Spark Streaming 2.2.0 Input DStreams和Receivers

高级数据源(Advanced sources)：例如 Kafka，Flume，Kinesis 等数据源可通过额外的utility classes获得。这些需要额外依赖。我们将稍后讨论这两类数据源。...如果使用基于接收器（例如套接字，Kafka，Flume等）的输入 DStream，那么唯一的那个线程会用于运行接收器，不会有其他线程来处理接收到的数据。...因此，在本地运行时，始终使用 local [n] 作为 master 的 URL，其中 n > 要运行的接收器的数目。...2.2 高级数据源这类数据源需要使用非Spark库的外部接口，其中一些需要复杂依赖（例如，Kafka和Flume）。...自定义数据源这在Python中还不支持。输入DStreams也可以从自定义数据源中创建。如果你这样做，需要实现一个自定义接收器（Receiver），可以从自定义数据源接收数据，并推送到Spark。

8232 0

分布式日志收集框架Flume下载安装与使用

，Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best effort（数据发送到接收方后，不会进行确认）。...这可以通过使用avro接收器配置多个第一层代理在Flume中实现，所有这些代理都指向单个代理的avro源（同样，您可以在这种情况下使用thrift源/接收器/客户端）。...4 环境配置与部署 4.1 系统需求系统 macOS 10.14.14 Java运行时环境 Java 1.8或更高版本内存源通道或接收器使用的配置的足够内存磁盘空间通道或接收器使用的配置的足够磁盘空间...换句话说，它打开一个指定的端口并侦听数据。期望是提供的数据是换行符分隔的文本。每行文本都转换为Flume事件，并通过连接的通道发送。必需属性以粗体显示。.../example.conf \ -Dflume.root.logger=INFO,console 现在，代理将开始运行在给定属性文件中配置的源和接收器。

5101 0

项目三 flume 采集数据至hbase

接收器（Sink） agent.sinks: 定义 Flume 代理的接收器，这里设置为 `hbase-sink`。...agent.sinks.hbase-sink.type: 接收器的类型是 HBaseSink，意味着这个接收器将数据写入 HBase 数据库。...agent.sinks.hbase-sink.serializer: 指定如何序列化数据的类，这里使用了简单的 HBase 事件序列化器 `SimpleHbaseEventSerializer`。...agent.sinks.hbase-sink.channel: 指定这个接收器使用的通道，这里指向 `file-channel`，表示它从这个通道中读取数据。...: 指定使用正则表达式序列化器将事件序列化为 HBase 可接受的格式。

1342 1

Flume：流式数据收集利器

使用flume收集数据保存到多节点 by 尹会生 1 使用flume 收集数据到hdfs 由于工作的需要，领导要求收集公司所有在线服务器节点的文本数据，进行存储分析，从网上做了些比较，发现flume...是个简单实现，而且非常强大的工具，这里介绍给大家首先下载软件：http://flume.apache.org flume是著名的开源数据收集系统，采用java语言开发，主要工作逻辑可以分成...那么flume一直监视这个文件就可以持续收集数据到hdfs了。通过官方文档发现flume的tail方式很好用，这里就使用了exec类型的source收集数据。...2 收集数据到多个数据源完成了领导的任务，继续研究下flume的其他强大功能，测试了一下上面提到的数据同时推送到其他节点的功能，使用的方法就是指定多个channel和sink，这里以收集到其他节点存储为文件格式为例...sink连接起来 agent1.sources.s1.channels = c2 agent1.sinks.k2.channel = c2 第二个节点参考上面来配置一套flume，这里使用了FILE_ROLL

1.3K6 0

SparkStreaming学习笔记

如果你正在使用一个基于接收器（receiver）的输入离散流（input DStream）（例如， sockets ，Kafka ，Flume 等），则该单独的线程将用于运行接收器（receiver），...因此，在本地运行时，总是用 “local[n]” 作为 master URL ，其中的 n > 运行接收器的数量（查看 Spark 属性来了解怎样去设置 master 的信息）. ...将逻辑扩展到集群上去运行，分配给 Spark Streaming 应用程序的内核（core）的内核数必须大于接收器（receiver）的数量。否则系统将接收数据，但是无法处理它. ...四、性能优化 1、减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间：数据接收的并行水平通过网络(如kafka，flume，socket等)接收数据需要这些数据反序列化并被保存到Spark...创建多个输入DStream并配置它们可以从源中接收不同分区的数据流，从而实现多数据流接收。例如，接收两个topic数据的单个输入DStream可以被切分为两个kafka输入流，每个接收一个topic。

1.1K2 0

分布式日志收集框架 Flume

，Store on failure（这也是scribe采用的策略，当数据接收方crash时，将数据写到本地，待恢复后，继续发送），Best effort（数据发送到接收方后，不会进行确认）。...avro接收器配置多个第一层代理在Flume中实现，所有这些代理都指向单个代理的avro源（同样，您可以在这种情况下使用thrift源/接收器/客户端）。...4 环境配置与部署 4.1 系统需求系统 macOS 10.14.14 Java运行时环境 Java 1.8或更高版本内存源通道或接收器使用的配置的足够内存磁盘空间通道或接收器使用的配置的足够磁盘空间...换句话说，它打开一个指定的端口并侦听数据。期望是提供的数据是换行符分隔的文本。每行文本都转换为Flume事件，并通过连接的通道发送。必需属性以粗体显示。...=INFO,console 现在，代理将开始运行在给定属性文件中配置的源和接收器。

8797 0

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN

Advanced sources（高级的数据源）: 像 Kafka, Flume, Kinesis, 等等这样的数据源. 可以通过额外的 utility classes 来使用....Receiver Reliability（接收器的可靠性）可以有两种基于他们的 reliability可靠性的数据源. 数据源（如 Kafka 和 Flume）允许传输的数据被确认....foreachRDD 设计模式的使用 dstream.foreachRDD 是一个强大的原语, 允许将数据发送到外部系统.但是, 了解如何正确有效地使用这个原语很重要. 避免一些常见的错误如下....对于通过网络接收数据（例如: Kafka, Flume, sockets 等）的输入流, 默认持久性级别被设置为将数据复制到两个节点进行容错....Streaming 将保留最近 10 分钟的数据, 并主动丢弃旧数据.

2.2K9 0

Flume 1.8 集成 ES6 与 Granfa 的容器化实践

下图为 Flume 的原理工作流程图： [sp95ssfwis.png] 从图可以看出，Source 监控某个文件或数据流，数据源产生新的数据，拿到该数据后，将数据封装在一个 Event 中，并 put...Sink：从 Channel 收集数据，将数据写到目标源（可以是下一个 Source，也可以是 HDFS 或者 HBase）。...a1.sources.r1.type = netcat# 设置数据源绑定的 IPa1.sources.r1.bind = localhost# 设置数据源监听的端口a1.sources.r1.port...上a1.sources.r1.channels = c1a1.sinks.k1.channel = c1 温馨提示：如果输出到本地目录必须是已经存在的目录，如果该目录不存在，并不会创建新的目录。...type = logger# 使用一个通道来缓冲内存中的事件a1.channels.c1.type = memory# 将源sources和接收器sinks绑定到通道channel a1.sources.r1

1.4K4 0

Flume笔记

Sink 从 Channel 收集数据，将数据写到目标源(可以是下一个 Source，也可以是 HDFS 或者 HBase)。...Event 传输单元，Flume 数据传输的基本单元，以事件的形式将数据从源头送至目的地。...-1.7.0 上传到 /opt/software下将apache-flume-1.7.0 解压到 /opt/module 下，将解压后的文件夹重命名为flume 将flume/conf/flume-env.sh.template...文件夹中创建的文件存在HDFS中合并成一个文件，并且本地文件上传成功的文件用.COMPLETED结尾案例三：Flume 与 Flume 之间数据传递：单 Flume 多 Channel、 Sink 监控...--conf-file job/groupjob/flume3.conf 结果展示（文字介绍） HDFS中写入数据，本地指定的文件夹中也有数据参考资料尚硅谷大数据之 flume 链接：https

1401 0

Spark Streaming容错的改进和零数据丢失

本文将详细地描述这个特性的工作机制，以及开发者如何在Spark Streaming应用中使用这个机制。背景 Spark和它的RDD抽象设计允许无缝地处理集群中任何worker节点的故障。...对于Spark Streaming来说，从诸如Kafka和Flume的数据源接收到的所有数据，在它们处理完成之前，一直都缓存在executor的内存中。...下面让我们看看如何利用这样的概念保证接收到的数据的持久性。像Kafka和Flume这样的数据源使用接收器（Receiver）来接收数据。...此外，如果希望可以恢复缓存的数据，就需要使用支持acking的数据源（就像Kafka，Flume和Kinesis一样），并且实现了一个可靠的接收器，它在数据可靠地保存到日志以后，才向数据源确认正确。...这些接收器接收并保存流数据到Spark内存中以供处理。用户传送数据的生命周期如下图所示（请参考下列图示）。接收数据（蓝色箭头）——接收器将数据流分成一系列小块，存储到executor内存中。

7839 0

Spark Streaming 容错的改进与零数据丢失

本文将详细地描述这个特性的工作机制，以及开发者如何在Spark Streaming应用中使用这个机制。 1. 背景 Spark和它的RDD抽象设计允许无缝地处理集群中任何worker节点的故障。...但对于像Kafka和Flume等其它数据源，有些接收到的数据还只缓存在内存中，尚未被处理，它们就有可能会丢失。这是由于Spark应用的分布式操作引起的。...下面让我们看看如何利用这样的概念保证接收到的数据的持久性。像Kafka和Flume这样的数据源使用接收器（Receiver）来接收数据。...此外，如果希望可以恢复缓存的数据，就需要使用支持acking的数据源（就像Kafka，Flume和Kinesis一样），并且实现了一个可靠的接收器，它在数据可靠地保存到日志以后，才向数据源确认正确。...这些接收器接收并保存流数据到Spark内存中以供处理。用户传送数据的生命周期如下图所示（请参考下列图示）。接收数据（蓝色箭头）——接收器将数据流分成一系列小块，存储到executor内存中。

1.2K2 0

Spark Streaming 整合 Flume

一、简介 Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。...Sink 将数据源源不断推送到该端口。...三、拉取式方法拉取式方法 (Pull-based Approach using a Custom Sink) 是将数据推送到 SparkSink 接收器中，此时数据会保持缓冲状态，Spark Streaming...定时从接收器中拉取数据。...的属性修改为 org.apache.spark.streaming.flume.sink.SparkSink，即采用 Spark 接收器。

2992 0

flume 1.8.0 开发基础

介绍概述 Apache Flume是一个用于高效地从大量异构数据源收集、聚合、传输到一个集中式数据存储的分布式、高可靠、高可用的系统。 Apache Flume是Apache基金会的顶级项目。...这就是Flume如何在单跳消息传输中提供端到端的可靠性。Flume提供了一个事务性的方法来修复可靠传输中的Event。...Client通常运行在应用消费数据的进程空间中。Flume目前支持Avro, log4j, syslog, 以及 Http POST (with a JSON body)方式从外部数据源传输数据。...同时ExecSource支持将本地进程的输出作为Flume的输入。可能已有的方案是不够的。本案例中你可以使用自定义的方法来向flume发送数据。这里有两种方法来实现。...注意这些存储在flume agent channel中的事件，必须以Flume Event形式存在。

1.2K6 0

Flume（一）Flume原理解析

备注：Flume参考资料　　　　官方网站： http://flume.apache.org/ 　　　　用户文档： http://flume.apache.org/FlumeUserGuide.html...组合方式基于用户设置的配置文件，非常灵活。　　比如：Channel可以把事件暂存在内存里，也可以持久化到本地硬盘上。Sink可以把日志写入HDFS, HBase，甚至是另外一个Source等等。...比如 Flume支持在本地保存一份文件 channel 作为备份，而memory channel 将　　event存在内存 queue 里，速度快，但丢失的话无法恢复。...6.1、Source 　　Spool Source 如何使用？　　...6.3、Sink 　　Flume Sink在设置存储数据时，可以向文件系统中，数据库中， hadoop中储数据，在日志数据较少时，可以将数据存储在文件系中，并　　且设定一定的时间间隔保存数据。

2.8K5 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云