首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用谷歌云存储作为三角洲湖的存储层?

如何使用谷歌云存储作为三角洲湖的存储层?
EN

Stack Overflow用户
提问于 2020-01-04 14:24:13
回答 2查看 2.5K关注 0票数 4

我可以使用谷歌云存储作为三角洲湖的存储层吗?

松懈上发现的。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-01-04 14:24:13

这是不可能在三角洲湖,包括0.5.0。

https://github.com/delta-io/delta/issues/294上跟踪这个问题是有问题的。你可以随意地把它放在首位,这样就可以得到优先排序。

就在谷歌发布开始使用Dataproc上的新表格式的第二天

我们宣布,最新版本的Cloud (版本1.5Preview)提供了表格式项目Delta和Apache (孵化器)。你可以在今天开始使用它们,无论是星火还是普雷托。Apache也可以在Dataproc 1.3上使用。

票数 3
EN

Stack Overflow用户

发布于 2021-06-26 01:21:17

这是可能的。下面是一个示例代码和您需要的库:

请确保首先设置凭据,您可以选择代码的一部分,也可以设置为环境:

代码语言:javascript
复制
export GOOGLE_APPLICATION_CREDENTIALS={gcs-key-path.json}
代码语言:javascript
复制
import org.apache.spark.sql.{SparkSession, DataFrame}
import com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery.BigQueryException
import com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery.BigQueryOptions
import com.google.cloud.spark.bigquery.repackaged.com.google.cloud.bigquery.DatasetInfo

spark.conf.set("parentProject", {Proj})
spark.conf.set("spark.hadoop.fs.gs.auth.service.account.enable", "true")   
spark.conf.set("spark.hadoop.fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem")
spark.conf.set("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")
spark.conf.set("spark.delta.logStore.gs.impl", "io.delta.storage.GCSLogStore")
spark.conf.set("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog")


val targetTablePath = "gs://{bucket}/{dataset}/{tablename}"
spark.range(5, 10).write.format("delta")
      .mode("overwrite")
      .save(targetTablePath)

您需要的库:

代码语言:javascript
复制
"io.delta" % "delta-core_2.12" % "1.0.0",
"io.delta" % "delta-contribs_2.12" % "1.0.0",
"com.google.cloud.spark" % "spark-bigquery-with-dependencies_2.12" % "0.21.1",
"com.google.cloud.bigdataoss" % "gcs-connector" % "1.9.4-hadoop3"

在GCS中检查我的增量文件:

代码语言:javascript
复制
$ gsutil ls gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/part-00000-ce79bfc7-e28f-4929-955c-56a7a08caf9f-c000.snappy.parquet
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/part-00001-dda0bd2d-a081-4444-8983-ac8f3a2ffe9d-c000.snappy.parquet
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/part-00002-93f7429b-777a-42f4-b2dd-adc9a482a6e8-c000.snappy.parquet
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/part-00003-e9874baf-6c0b-46de-891e-032ac8b67287-c000.snappy.parquet
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/part-00004-ede54816-2da1-412f-a9e3-5233e77258fb-c000.snappy.parquet
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/_delta_log/
gs://r-dps-datapipeline-dev/testoliver/oliver_sample_delta3/_symlink_format_manifest/
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59591594

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档