如何使用数据库中的Spark将JSON文件并行写入挂载目录

、、

我有一个包含50,000个JSON文件的RDD，需要写到Spark (Databricks)的挂载目录中。挂载的路径看起来类似于/mnt/myblob/mydata (使用Azure)。我尝试了以下方法，但发现我不能在Spark作业中使用dbutils。def write_json(output_path,

浏览 21提问于2019-04-09得票数 2

回答已采纳

1回答

Databricks写Json文件太慢了

、、、、

我有一个简单的scala片段来读取/编写总计10 in的json文件(从存储帐户挂载dir )->它花费了1.7小时，几乎所有的时间都在写json文件行中。内存，4个写入速度太慢？不是并行写入，因为读取是通过partitions/workers?How加速写入还是整个进程上？)文件的代码： import org.apac

浏览 2提问于2020-11-04得票数 0

回答已采纳

1回答

从外部连接到数据库托管蜂巢

、、、

我有：A kubernetes集群在数据库使用的相同的Azure blob存储区中以拼花和/或Delta格式读写数据(通过spar

浏览 1提问于2021-08-19得票数 2

1回答

将广播变量(databricks)中的数据写入azure blob

、、、、

我从其中下载了一个url (它是JSON格式的)，使用Databricks： url="https://tortuga-prod-eu.s3-eu-west-1.amazonaws.com/%2FNinetyDays，作为一个blob .json文件。我尝试过将数据保存在数据中并将df写到挂载位置，但是数据在GBs中是巨大的，并且我得到了spark.rpc.m

浏览 3提问于2022-04-22得票数 0

1回答

是否有可能用火花放电中的UDF进行基于文件的处理？

、、、

我定义了一个UDF，它使用dataframe执行以下操作，其中列包含azure存储中的zip文件的位置(我测试了不带火花的UDF，并得到了解决)：从blob下载定义的文件，并将其放在Excutor有了这个UDF，我体验到了同样的速度，就好像我只是在python中循环文件一样。那么，是否有可能在火花中完成这样的任务呢？我想要使用火花并行下载和

浏览 1提问于2020-07-31得票数 0

3回答

使用Spark删除Azure blob中的文件有什么更快的方法？

、、、、

我在Azure上使用Databricks/Spark。我想删除存储在blob中的超过100,000个文本文件。该blob已挂载。我使用Python (PySpark)以并行方式删除这些文件的代码如下所示。job kicks off请注意，我使用dbutils列出了挂载目录<

浏览 0提问于2019-06-02得票数 1

1回答

星火中的本地磁盘配置

嗨，官方的火花文件说：虽然Spark可以在内存中执行大量的计算，但它仍然使用本地磁盘来存储不适合RAM的数据，并保留中间级之间的输出。我们建议每个节点有4-8个磁盘，配置时没有RAID (就像单独的挂载点一样)。在Linux中，使用noatime选项挂载磁盘，以减少不必要的写入。在Spark中</e

浏览 1提问于2017-08-11得票数 1

1回答

将DataFrame从数据库写入数据湖

、、

碰巧我正在使用Azure Databricks操作一些数据。这样的数据在Azure data Lake Storage Gen1中。我将数据挂载到DBFS中，但现在，在转换数据后，我想将其写回我的数据湖中。为了挂载数据，我使用了以下命令： configs = {"dfs.adls.oauth2.access.token.provider.type": "ClientCredential&

浏览 10提问于2018-08-03得票数 1

1回答

Krb5.执行器吊舱上的Kubernetes和hadoop.configMap :Kubernetes上的火花

、

我在库伯奈特斯上使用星火来管理火花作业。火花版本为3.0.1。所需的是，集群可能需要连接到启用了外部Kerberos的Hadoop集群，或者任何其他启用Kerberos的数据源，如Kafka。根据文档( )，我通过设置scapk.kubernetes.kerberos.krb5.configMapName和Hadoop配置来提供krb5配置，方法是使用适当的配置映射设置spark.kubernetes.hadoop.configMapName在连接到启用Kerberos

浏览 18提问于2022-01-09得票数 0

1回答

将NOSQL数据加载到火花节点

、、

我试图理解当我从NoSQL源将数据加载到Spark时会发生什么。即。它是尝试将记录加载到驱动程序中，然后将其分发给工作节点，还是同时将记录加载到所有员工节点？基本上，是否有任何方法并行加载数据，如果是，如何确保同一记录不被多个节点处理？如果不是并行进程，是否会将相同的json写入".json“文件帮助？(前提是每一行都是一条记录)

浏览 0提问于2016-10-27得票数 1

回答已采纳

1回答

为什么在foreachPartition中建立DB连接并将其并行化会导致"ORA-00060:死锁“？

、、

我有一个简单的Spark作业，映射，计算和写入Oracle DB的结果。我在将结果写入数据库时遇到了问题。在按键减少结果之后，我将调用foreachPartition操作来建立连接并将结果写入DB。如果我将并行化设置为1，它会工作得很好。但是，当我将reducer的并行化更改为2或更大时，它只写入部分结果。当我检查日志

浏览 2提问于2015-06-05得票数 1

1回答

如何从Azure Data读取Azure数据库中的JSON文件

、、、

我使用Azure使用以下JSON存储简单的JSON文件： "email": "Usersemail@domain.com",}spark.read.option(&quo

浏览 0提问于2018-08-26得票数 1

回答已采纳

1回答

如何使Docker容器中的只读挂载可写？

、

在非常大的存储库上开发代码时，我希望在容器中并行运行多个构建/测试。我需要将我的存储库或其他大型目录放到容器中。如果我挂载它的读/写，并行进程将相互争斗，我将需要能够清理它们之后，在这些文件上也有特权升级的问题。如果我只挂载它，那么我就不能运行在目录中写入文件的</

浏览 0提问于2018-04-13得票数 4

回答已采纳

1回答

将20 to文件导入Hadoop的最佳方法

、、、、

我有一个巨大的20 to文件要复制到Hadoop/HDFS中。当然，我需要管理任何错误情况(如果服务器或传输/加载应用程序崩溃)。在这种情况下，我需要重新启动处理(不管是否在另一个节点中)，并继续传输，而不从一开始就启动CSV文件。用水槽？斯库普？本地Java应用程序？火花？非常感谢。

浏览 5提问于2016-05-31得票数 0

回答已采纳

2回答

文件夹顶部的分区表，其中包含spark中的json文件的子文件夹

、、、、

我在Databricks的spark上工作。我的存储位置有一个指向我的目录的挂载点。让我们将目录命名为"/mnt/abc1/abc2“- path。在这个"abc2“目录中，假设我有10个名为"xyz1”的文件夹。"xyz10“。所有这些"xyz%“文件夹都包含<em

浏览 17提问于2021-06-08得票数 0

回答已采纳

2回答

如何在dbfs之外使用Python文件创建Databricks作业？

、、

我正在使用Azure中的Databricks资源。我现在主要使用UI，但我知道一些功能只能使用databricks-cli，我已经设置了它，但还没有使用它。我已经使用UI在Databricks Repos中克隆了我的Git存储库。在我的存储库中，有一个Python文件，我希望将其作为作业运行。是否可以使用Databricks Jobs创建直接调用此Python<e

浏览 47提问于2021-11-24得票数 1

1回答

无法将卷装载到spark.kubernetes.executor

、、、、

我尝试使用kubernetes以spark集群模式从服务器读取文件，因此我将我的文件放在所有worker上，并使用以下命令挂载驱动程序卷这

浏览 1提问于2019-11-27得票数 3

1回答

使org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)：不能在市面上租赁

、、、

尝试从HDFS目录处理每个JSON文件并写入HDFS目录。这里我使用Scala并行集合par。我正在尝试下面的代码来读取JSON文件。= path of hdfs directory val dataFrame = spark.read.json(readJSON.toSeq.toD

浏览 9提问于2020-12-22得票数 1

2回答

将DataFrame写入Parquet或Delta似乎并不是并行化的--需要太长时间

、、、、

问题陈述为了利用Delta表的改进，我尝试将其作为Delta导出到Azure directory Gen2中的一个目录中。我在Databricks笔记本中使用了下面的代码： df_nyc_taxi.write.partitionBy("year", "month").format(&quo

浏览 0提问于2020-01-28得票数 4

1回答

读取单独的目录&通过Scala火花并行创建单独的RDD

、、、、

我需要从不同的源目录中读取JSON文件，并为每个目录创建不同的表。我希望这是并行的，但是Spark不支持嵌套的RDD，所以目前它是按顺序进行的。是否有一个很好的解决方案，让这些目录并行读取/处理？下面是我正在尝试的示例片段，但是由于嵌套的RDDs，它无法工作： def readJso

浏览 2提问于2017-01-12得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Databricks写Json文件太慢了

从外部连接到数据库托管蜂巢

将广播变量(databricks)中的数据写入azure blob

是否有可能用火花放电中的UDF进行基于文件的处理？

使用Spark删除Azure blob中的文件有什么更快的方法？

星火中的本地磁盘配置

将DataFrame从数据库写入数据湖

Krb5.执行器吊舱上的Kubernetes和hadoop.configMap :Kubernetes上的火花

将NOSQL数据加载到火花节点

为什么在foreachPartition中建立DB连接并将其并行化会导致"ORA-00060:死锁“？

如何从Azure Data读取Azure数据库中的JSON文件

如何使Docker容器中的只读挂载可写？

将20 to文件导入Hadoop的最佳方法

文件夹顶部的分区表，其中包含spark中的json文件的子文件夹

如何在dbfs之外使用Python文件创建Databricks作业？

无法将卷装载到spark.kubernetes.executor

使org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException)：不能在市面上租赁

将DataFrame写入Parquet或Delta似乎并不是并行化的--需要太长时间

读取单独的目录&通过Scala火花并行创建单独的RDD

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐