前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark SQL读写 ES7.x 及问题总结

Spark SQL读写 ES7.x 及问题总结

作者头像
大数据真好玩
发布2021-01-26 16:09:10
3.4K0
发布2021-01-26 16:09:10
举报
文章被收录于专栏:暴走大数据

本文主要介绍 spark SQL 读写 ES,参数的配置以及问题总结。

ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spark Support文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/spark.html#spark)

以下是pom依赖,具体版本可以根据自己的es和spark版本进行选择:

代码语言:javascript
复制
      <dependency>
        <groupId>org.elasticsearch</groupId>
        <artifactId>elasticsearch-spark-20_2.11</artifactId>
        <version>7.3.1</version>
      </dependency>
Spark SQL to ES

主要提供了两种读写方式:

  • 一种是通过DataFrameReader/Writer传入ES Source实现
  • 另一种是直接读写DataFrame实现

在实现前,还要列一些相关的配置:

列了一些常用的配置,更多配置查看ES Spark Configuration文档(https://www.elastic.co/guide/en/elasticsearch/hadoop/current/configuration.html)

DataFrameReader 读 ES
代码语言:javascript
复制
import org.elasticsearch.spark.sql._
val options = Map(
  "es.nodes.wan.only" -> "true",
  "es.nodes" -> "29.29.29.29:10008,29.29.29.29:10009",
  "es.port" -> "9200",
  "es.read.field.as.array.include" -> "arr1, arr2"
)
val df = spark
    .read
    .format("es")
    .options(options)
    .load("index1/info")
df.show()
DataFrameWriter 写 ES
代码语言:javascript
复制
import org.elasticsearch.spark.sql._
val options = Map(
  "es.index.auto.create" -> "true",
  "es.nodes.wan.only" -> "true",
  "es.nodes" -> "29.29.29.29:10008,29.29.29.29:10009",
  "es.port" -> "9200",
  "es.mapping.id" -> "id"
)

val sourceDF = spark.table("hive_table")
sourceDF
  .write
  .format("org.elasticsearch.spark.sql")
  .options(options)
  .mode(SaveMode.Append)
  .save("hive_table/docs")
读DataFrame

jar包中提供了 esDF() 方法可以直接读es数据为DataFrame,以下是源码截图。

参数说明:

  • resource:资源路径,例如index和tpye: hive_table/docs
  • cfg:一些es的配置,和上面代码中的options差不多
  • query:指定DSL查询语句来过滤要读的数据,例如"?q=user_group_id:3"表示读user_group_id为3的数据
代码语言:javascript
复制
val options = Map(
  "pushdown" -> "true",
  "es.nodes.wan.only" -> "true",
  "es.nodes" -> "29.29.29.29:10008,29.29.29.29:10009",
  "es.port" -> "9200"
)

val df = spark.esDF("hive_table/docs", "?q=user_group_id:3", options)
df.show()
写 DataFrame

jar包中提供了 saveToEs() 方法可以将DataFrame写入ES,以下是源码截图。

resource:资源路径,例如index和tpye: hive_table/docs cfg:一些es的配置,和上面代码中的options差不多

示例:

代码语言:javascript
复制
val brandDF = sparkSession.sql(""" SELECT
              |   categoryname AS id
              | , concat_ws(',', collect_set(targetword)) AS targetWords
              | , get_utc_time() as `@timestamp`
              | FROM  t1
              | GROUP BY
              | categoryname
              """.stripMargin)

 // 手动指定ES _id值
 val map = Map("es.mapping.id" -> "id")
 EsSparkSQL.saveToEs(brandDF, "mkt_noresult_brand/mkt_noresult_brand", map)
Spark RDD to ES

SparkRDD方式写 ES,以下是源码截图。

示例:

代码语言:javascript
复制
    val numbers = Map("one" -> 1, "two" -> 2, "three" -> 3)
    val airports = Map("OTP" -> "Otopeni", "SFO" -> "San Fran")
    val rdd = sparkSession.sparkContext.makeRDD(Seq(numbers, airports))
    EsSpark.saveToEs(rdd, "mkt_noresult_brand/mkt_noresult_brand", map)
问题总结

手动指定ES _ id值

EsSparkSQL.saveToEs 报错org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: [DataFrameFieldExtractor for field [[...]]] cannot extract value from entity

原因:"es.mapping.id"参数指定文档的id,这个参数必须配置成DataFrame中已有的字段,不能随意指定。配置成 val map = Map("es.mapping.id" -> "id"), 数据导入成功。

版权声明:

本文为《大数据真好玩》整理,原作者独家授权。未经原作者允许转载追究侵权责任。

编辑|冷眼丶

微信公众号|大数据真好玩

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据真好玩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Spark SQL to ES
  • DataFrameReader 读 ES
  • DataFrameWriter 写 ES
  • 读DataFrame
  • 写 DataFrame
  • Spark RDD to ES
  • 问题总结
相关产品与服务
Elasticsearch Service
腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档