如何使用spark结构流在elasticsearch接收器中设置动态文档id

Spark结构流是一种用于实时数据处理的流式计算框架，而Elasticsearch是一种开源的分布式搜索和分析引擎。在使用Spark结构流将数据发送到Elasticsearch时，可以通过设置动态文档ID来实现对文档的唯一标识。

动态文档ID是指在将数据写入Elasticsearch时，根据数据的某些字段动态生成文档的唯一标识。这样可以确保每个文档在Elasticsearch中具有唯一的标识，方便后续的查询和更新操作。

要在Spark结构流中设置动态文档ID，可以按照以下步骤进行操作：

创建一个SparkSession对象，并配置相关参数，如应用名称、Master URL等。
从数据源读取数据，并将其转换为DataFrame或Dataset的形式。
使用writeStream方法将数据写入Elasticsearch。在writeStream方法中，可以通过foreachBatch函数指定自定义的写入逻辑。
在自定义的写入逻辑中，可以使用foreach函数将每个批次的数据写入Elasticsearch。在foreach函数中，可以通过ElasticsearchSink接收器设置动态文档ID。

下面是一个示例代码：

import org.apache.spark.sql.{DataFrame, SparkSession}
import org.elasticsearch.spark.sql._

val spark = SparkSession.builder()
  .appName("Spark Elasticsearch Example")
  .master("local[*]")
  .config("spark.es.nodes", "localhost")
  .config("spark.es.port", "9200")
  .getOrCreate()

// 从数据源读取数据，假设数据源为Kafka
val data: DataFrame = spark.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "topic")
  .load()

// 将数据写入Elasticsearch
data.writeStream
  .foreachBatch { (batchDF: DataFrame, batchId: Long) =>
    // 设置动态文档ID
    batchDF.write
      .format("org.elasticsearch.spark.sql")
      .option("es.resource", "index/type")
      .option("es.mapping.id", "id") // 设置动态文档ID字段
      .mode("append")
      .save()
  }
  .start()
  .awaitTermination()

在上述示例代码中，通过es.mapping.id参数设置了动态文档ID字段为id，可以根据实际情况修改为其他字段名。

需要注意的是，为了使用Spark结构流和Elasticsearch，需要在项目中添加相应的依赖。可以通过Maven或Gradle等构建工具添加以下依赖：

<dependency>
  <groupId>org.elasticsearch</groupId>
  <artifactId>elasticsearch-spark-20_2.11</artifactId>
  <version>7.15.0</version>
</dependency>

以上是使用Spark结构流在Elasticsearch接收器中设置动态文档ID的方法。通过这种方式，可以实现对实时数据的高效处理和存储，并且能够确保每个文档在Elasticsearch中具有唯一的标识。

页面内容是否对你有帮助？

有帮助

没帮助

如何使用spark结构流在elasticsearch接收器中设置动态文档id

、

在elasticsearch写接收器中，我应该如何添加文档id和来自数据集字段的动态值。在我的例子中，我需要根据格式化数据集中的特定字段设置文档id。遇到"es.mapping.id“，但是我如何从我的数据集中获取值呢？

浏览 28提问于2019-09-24得票数 0

回答已采纳

1回答

kafka-connect-elasticsearch:如何发送删除文档？

、、、

debezium-connector -> database topic -> faust.agent(stream processing to add a field) -> sink topic -> elasticsearch-sink-connector-> elasticsearch cluster 这个处理流在很大程度上是有效的，但我在弄清楚如何处理来自数据库主题的已删除行事件时遇到了麻烦。例如，如果一行被删除，我希望它也从elasticsearch中</

浏览 11提问于2019-12-12得票数 1

回答已采纳

1回答

Kafka Connect Elasticsearch接收器没有文档被索引

、、

我正在尝试设置一个测试，以便将数据从MySQL移动到Elasticsearch。我使用的是汇合版本5.1.0中的码头映像，对于Elasticsearch，我使用的是elasticsearch:6.5.4 我配置了一个JDBC连接器来将数据从MySQL获取到Kafka，这是可行的--我还配置了一个弹性搜索接收器连接器()--连接器已经成功创建，而Elasticsearch中的索引也在其中，但是我在Elastic

浏览 0提问于2019-01-28得票数 3

回答已采纳

2回答

星火结构流与ElasticSearch的集成

、、

我将这些数据存储在一个特定的HDFS文件夹中，在该文件夹中正在运行一个Spark流应用程序。这里是我的伪代码： StructField("id", StringType线程中的a478aabe9e异常java.lang.UnsupportedOperation

浏览 5提问于2017-12-21得票数 2

1回答

如何从星火结构流更新ElasticSearch中的计数器？

、

我正在从事一个Spark结构化流项目，目标是将插入到用户活动日志到ElasticSearch。问题：如果在最后8小时内同一用户有更多的活动(日志)，更新counter设置"es.mapping.id" -> "user_

浏览 0提问于2018-08-29得票数 0

回答已采纳

1回答

删除和编辑操作不使用elasticsearch接收器连接器

、、、

我试图使用Kafka在MongoDB和Elasticsearch之间建立一条简单的管道。插入的数据被成功地存储在Elasticsearch中，但是当我编辑或删除文档时，我只会得到另一个存储在Elasticsearch中的文档。io.debezium.connector.mongodb.MongoDbConnector",

浏览 4提问于2020-04-28得票数 0

回答已采纳

1回答

Flume / Elasticsearch创建新索引而忽略显式创建的索引

、、、、

我们在Elasticsearch中创建了一个索引，如下所示，索引名是apachelog，动态映射设置为“严格”，我们将httpresponse字段设置为integer：写信给ElasticSearch collector.sinks.elasticsearch.type =ElasticSearch</e

浏览 5提问于2015-09-09得票数 1

3回答

如何对ElasticSearch* (使用org.elasticsearch.spark.sql格式)执行SQL查询？*

、

使用Spark 1.6.0和ES 5.0.0-alpha5，我尝试在Spark中获取一些数据帧。我正在使用这个包使用 sqlContext.read.format("org.elasticsearch.spark.sql").option(

浏览 6提问于2016-10-10得票数 8

1回答

如何在启动Spark流处理时加载历史数据，并计算运行聚合

、、、、

我在我的ElasticSearch集群中有一些与销售相关的JSON数据，我想使用Spark (使用Spark1.4.1)动态地通过Kafka从我的eCommerce网站聚合即将到来的销售事件，以便对用户的总销售额从我所读到的文档中，我不太清楚的是，如何在Spark应用程序启动时从ElasticSearch加载历史数据，并计算每个用户的总收入(基于历史记录，以及从Kafka获得的销售额)。我有以下(工

浏览 2提问于2015-07-27得票数 3

回答已采纳

1回答

是否可以使用elasticsearch-hadoop/spark动态创建带有格式化日期的Elasticsearch索引？

、、

虽然我可以做到这一点，但我无法理解的是如何写入一个动态命名的索引，该索引格式为‘index _name-{ts_col：{YYYY dd}’，其中'ts_col‘是数据集中的一个日期时间字段。在创建索引之前，它似乎首先检查索引是否存在，但它传递的是未格式化的索引名，而不是动态创建的索引名称。我已经尝试使用模块使用相同的语法创建索引，但是它不能处理动态索引名。是否有任何解决方案可供我使用，或者我是否必须在spark中循环我的数

浏览 23提问于2017-02-24得票数 0

回答已采纳

1回答

火花流的动态分配

、、、、

我想使用动态资源分配这些工作，包括星火流。根据下面的JIRA问题，动态分配不支持星火流( 1.6.1版本)。但在2.0.0中是固定的它是否可在星火2.0.0中<

浏览 0提问于2016-12-22得票数 7

1回答

重新启动PySpark作业无法获得插入卡夫卡主题中的记录，而pyspark用户则处于下降状态

、、、

因此，消费者必须能够从第4，5，6等信息中读取. 我的电火花应用程序无法实现我预期的目标。下面是我如何创建星火会话的方法。卡夫卡保留了每个消费者在特定groupID中读取的偏移量的轨迹。当我使用以下命令在CLI中调用使用者作业时，正是发生了这种情况。当我包括option("group.id" , "test")时，它会抛出一个错误，说明不支持卡夫卡选项group.id，因为用户指定的消费者组不用于跟踪偏移

浏览 2提问于2020-05-08得票数 1

回答已采纳

1回答

ElasticSeach从Apache Hadoop读取数据

、

我们正在尝试将Elasticsearch应用到我们的大数据环境中。目前我们运行的是Apache Hadoop 2.7，包括Hive和Spark。在Hadoop中以Parquest格式存储数据。当我们在我们的环境中实施ELK时，我们只能将数据存储到Hadoop HDFS中吗？或者，我们必须从Hadoop中提取数据并导入到Elasticsearch中，以便创建索引，但我们在系统中有重复的数据集(Hadoop HDFS和ElasticSearch</

浏览 0提问于2020-06-14得票数 1

1回答

Elasticsearc + NEST:如何将多个字段映射到.NET Dictionary<string，object>中

、、

该文档具有以下基本json结构： "Id": "5a308536-0bd9-47e6-8bdb-438dafd0488c", "ExtraElements当我在我的MongoDB中插入这样的json时，它将被映射到具有以下结构的文档中： Id DateofBirth

浏览 0提问于2015-08-04得票数 0

回答已采纳

3回答

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

、、、、

Spark 2.2引入了Kafka的结构化流媒体源代码。据我所知，它依靠HDFS检查点目录来存储偏移量，并保证“只传递一次”消息。但旧的docks (如)表示，Spark Streaming检查点不能跨应用程序或Spark升级恢复，因此不太可靠。作为一种解决方案，有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储中。如果要将Kafka源的偏移量存储到事务型DB中，如何从结构化流批处理中获取偏移量？这可

浏览 1提问于2017-09-11得票数 28

回答已采纳

1回答

在elasticsearch查询中填充数组值

我的部分elasticsearch查询如下：我的程序中可以有多个任务。因此，我想获取任务ids数组的记录。我能这样做吗？“match_phrase”：{“task

浏览 1提问于2019-02-19得票数 0

1回答

如果存在这样的文档，如何跳过索引文档？

、

我使用Spark将大量数据写入Elasticsearch。但它们中的一些(有时大多数)是在此上下文中具有相同id的重复文档。由于将数据写入ES需要花费很多时间，我想知道如果文档的id已经存在于ES中，如何跳过索引？像这样： continue doc.index(ES)

浏览 2提问于2017-02-21得票数 0

5回答

Elasticsearch + Spark:用自定义文档_id编写json

、、、

我必须满足两项要求：我尝试像这样使用 (序列化的文档包含带有所需的Elasticsearch的字段_id )： val rdd: RDD[String] = job.map{ r => r.toJson当我从配置中删除es.mapping.i

浏览 8提问于2017-12-19得票数 1

1回答

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

、、、、

我的最终目标是使用PySpark在Elasticsearch (ES)中高效地索引大量数据，然后对索引运行大量查询，并记录结果的统计信息。这就是wan.only设置为true的原因。通过这种设置，Spark似乎可以使用完全匹配所有节点来查询每个节点，然后最终合并为我真正想要的单个结果。即使我将查询更改为专门按单个文档ID进行搜索，它也会通过主节点对每个单独的分片运行查询，方法是在每次调用时指定一个特定的分片ID。如何</em

浏览 20提问于2019-02-13得票数 0

1回答

气流错log_id格式

、、

我使用的是气流v2.2.3和apache-airflow-providers-elasticsearch==2.1.0，在Kubernetes中运行。我在气流中设置了下列配置：AIRFLOW__ELASTICSEARCH__HOST=<my-elasticsearch-host01_19T07_00_00_000000-1"我在Elasticsearch

浏览 17提问于2022-01-20得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用spark结构流在elasticsearch接收器中设置动态文档id

相关·内容

如何使用spark结构流在elasticsearch接收器中设置动态文档id

kafka-connect-elasticsearch:如何发送删除文档？

Kafka Connect Elasticsearch接收器没有文档被索引

星火结构流与ElasticSearch的集成

如何从星火结构流更新ElasticSearch中的计数器？

删除和编辑操作不使用elasticsearch接收器连接器

Flume / Elasticsearch创建新索引而忽略显式创建的索引

如何对ElasticSearch* (使用org.elasticsearch.spark.sql格式)执行SQL查询？*

如何在启动Spark流处理时加载历史数据，并计算运行聚合

是否可以使用elasticsearch-hadoop/spark动态创建带有格式化日期的Elasticsearch索引？

火花流的动态分配

重新启动PySpark作业无法获得插入卡夫卡主题中的记录，而pyspark用户则处于下降状态

ElasticSeach从Apache Hadoop读取数据

Elasticsearc + NEST:如何将多个字段映射到.NET Dictionary<string，object>中

如何获取Kafka offset，用于结构化查询，实现手动、可靠的offset管理？

在elasticsearch查询中填充数组值

如果存在这样的文档，如何跳过索引文档？

Elasticsearch + Spark:用自定义文档_id编写json

如何在不查询每个节点的情况下使用PySpark对Elasticsearch运行查询？

气流错log_id格式

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐