腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
数据库
中
的
Spark
将
JSON
文件
并行
写入
挂载
目录
、
、
我有一个包含50,000个
JSON
文件
的
RDD,需要写到
Spark
(Databricks)
的
挂载
目录
中
。
挂载
的
路径看起来类似于/mnt/myblob/mydata (
使用
Azure)。我尝试了以下方法,但发现我不能在
Spark
作业中
使用
dbutils。def write_
json
(output_path,
浏览 21
提问于2019-04-09
得票数 2
回答已采纳
1
回答
Databricks写
Json
文件
太慢了
、
、
、
、
我有一个简单
的
scala片段来读取/编写总计10 in
的
json
文件
(从存储帐户
挂载
dir )->它花费了1.7小时,几乎所有的时间都在写
json
文件
行
中
。内存,4个
写入
速度太慢?不是
并行
写入
,因为读取是通过partitions/workers?How加速
写入
还是整个进程上?)
文件
的
代码: import org.apac
浏览 2
提问于2020-11-04
得票数 0
回答已采纳
1
回答
从外部连接到
数据库
托管蜂巢
、
、
、
我有:A kubernetes集群在
数据库
使用
的
相同
的
Azure blob存储区
中
以拼花和/或Delta格式读写数据(通过
spar
浏览 1
提问于2021-08-19
得票数 2
1
回答
将
广播变量(databricks)
中
的
数据
写入
azure blob
、
、
、
、
我从其中下载了一个url (它是
JSON
格式
的
),
使用
Databricks: url="https://tortuga-prod-eu.s3-eu-west-1.amazonaws.com/%2FNinetyDays,作为一个blob .
json
文件
。我尝试过
将
数据保存在数据
中
并将df写到
挂载
位置,但是数据在GBs
中
是巨大
的
,并且我得到了
spark
.rpc.m
浏览 3
提问于2022-04-22
得票数 0
1
回答
是否有可能用火花放电
中
的
UDF进行基于
文件
的
处理?
、
、
、
我定义了一个UDF,它
使用
dataframe执行以下操作,其中列包含azure存储
中
的
zip
文件
的
位置(我测试了不带火花
的
UDF,并得到了解决): 从blob下载定义
的
文件
,并将其放在Excutor有了这个UDF,我体验到了同样
的
速度,就好像我只是在python
中
循环
文件
一样。那么,是否有可能在火花中完成这样
的
任务呢?我想要
使用
火花
并行
下载和
浏览 1
提问于2020-07-31
得票数 0
3
回答
使用
Spark
删除Azure blob
中
的
文件
有什么更快
的
方法?
、
、
、
、
我在Azure上
使用
Databricks/
Spark
。我想删除存储在blob
中
的
超过100,000个文本
文件
。该blob已
挂载
。我
使用
Python (PySpark)以
并行
方式删除这些
文件
的
代码如下所示。job kicks off请注意,我
使用
dbutils列出了
挂载
目录
<
浏览 0
提问于2019-06-02
得票数 1
1
回答
星火中
的
本地磁盘配置
嗨,官方
的
火花
文件
说: 虽然
Spark
可以在内存
中
执行大量
的
计算,但它仍然
使用
本地磁盘来存储不适合RAM
的
数据,并保留中间级之间
的
输出。我们建议每个节点有4-8个磁盘,配置时没有RAID (就像单独
的
挂载
点一样)。在Linux
中
,
使用
noatime选项
挂载
磁盘,以减少不必要
的
写入
。在
Spark
中</e
浏览 1
提问于2017-08-11
得票数 1
1
回答
将
DataFrame从
数据库
写入
数据湖
、
、
碰巧我正在
使用
Azure Databricks操作一些数据。这样
的
数据在Azure data Lake Storage Gen1
中
。我
将
数据
挂载
到DBFS
中
,但现在,在转换数据后,我想将其写回我
的
数据湖
中
。为了
挂载
数据,我
使用
了以下命令: configs = {"dfs.adls.oauth2.access.token.provider.type": "ClientCredential&
浏览 10
提问于2018-08-03
得票数 1
1
回答
Krb5.执行器吊舱上
的
Kubernetes和hadoop.configMap :Kubernetes上
的
火花
、
我在库伯奈特斯上
使用
星火来管理火花作业。火花版本为3.0.1。所需
的
是,集群可能需要连接到启用了外部Kerberos
的
Hadoop集群,或者任何其他启用Kerberos
的
数据源,如Kafka。根据文档( ),我通过设置scapk.kubernetes.kerberos.krb5.configMapName和Hadoop配置来提供krb5配置,方法是
使用
适当
的
配置映射设置
spark
.kubernetes.hadoop.configMapName在连接到启用Kerberos
浏览 18
提问于2022-01-09
得票数 0
1
回答
将
NOSQL数据加载到火花节点
、
、
我试图理解当我从NoSQL源
将
数据加载到
Spark
时会发生什么。即。它是尝试
将
记录加载到驱动程序
中
,然后将其分发给工作节点,还是同时
将
记录加载到所有员工节点?基本上,是否有任何方法
并行
加载数据,如果是,
如何
确保同一记录不被多个节点处理?如果不是
并行
进程,是否会将相同
的
json
写入
".
json
“
文件
帮助?(前提是每一行都是一条记录)
浏览 0
提问于2016-10-27
得票数 1
回答已采纳
1
回答
为什么在foreachPartition
中
建立DB连接并将其
并行
化会导致"ORA-00060:死锁“?
、
、
我有一个简单
的
Spark
作业,映射,计算和
写入
Oracle DB
的
结果。我在
将
结果
写入
数据库
时遇到了问题。 在按键减少结果之后,我
将
调用foreachPartition操作来建立连接并将结果
写入
DB。如果我
将
并行
化设置为1,它会工作得很好。但是,当我
将
reducer
的
并行
化更改为2或更大时,它只
写入
部分结果。当我检查日志
浏览 2
提问于2015-06-05
得票数 1
1
回答
如何
从Azure Data读取Azure
数据库
中
的
JSON
文件
、
、
、
我
使用
Azure
使用
以下
JSON
存储简单
的
JSON
文件
: "email": "Usersemail@domain.com",}
spark
.read.option(&quo
浏览 0
提问于2018-08-26
得票数 1
回答已采纳
1
回答
如何
使Docker容器
中
的
只读
挂载
可写?
、
在非常大
的
存储库上开发代码时,我希望在容器
中
并行
运行多个构建/测试。我需要将我
的
存储库或其他大型
目录
放到容器
中
。如果我
挂载
它
的
读/写,
并行
进程将相互争斗,我
将
需要能够清理它们之后,在这些
文件
上也有特权升级
的
问题。如果我只
挂载
它,那么我就不能运行在
目录
中
写入
文件
的</
浏览 0
提问于2018-04-13
得票数 4
回答已采纳
1
回答
将
20 to
文件
导入Hadoop
的
最佳方法
、
、
、
、
我有一个巨大
的
20 to
文件
要复制到Hadoop/HDFS
中
。当然,我需要管理任何错误情况(如果服务器或传输/加载应用程序崩溃)。在这种情况下,我需要重新启动处理(不管是否在另一个节点中),并继续传输,而不从一开始就启动CSV
文件
。用水槽?斯库普?本地Java应用程序?火花? 非常感谢。
浏览 5
提问于2016-05-31
得票数 0
回答已采纳
2
回答
文件
夹顶部
的
分区表,其中包含
spark
中
的
json
文件
的
子
文件
夹
、
、
、
、
我在Databricks
的
spark
上工作。我
的
存储位置有一个指向我
的
目录
的
挂载
点。让我们
将
目录
命名为"/mnt/abc1/abc2“- path。在这个"abc2“
目录
中
,假设我有10个名为"xyz1”
的
文件
夹。"xyz10“。所有这些"xyz%“
文件
夹都包含<em
浏览 17
提问于2021-06-08
得票数 0
回答已采纳
2
回答
如何
在dbfs之外
使用
Python
文件
创建Databricks作业?
、
、
我正在
使用
Azure
中
的
Databricks资源。我现在主要
使用
UI,但我知道一些功能只能
使用
databricks-cli,我已经设置了它,但还没有
使用
它。我已经
使用
UI在Databricks Repos
中
克隆了我
的
Git存储库。在我
的
存储库
中
,有一个Python
文件
,我希望将其作为作业运行。是否可以
使用
Databricks Jobs创建直接调用此Python<e
浏览 47
提问于2021-11-24
得票数 1
1
回答
无法
将
卷装载到
spark
.kubernetes.executor
、
、
、
、
我尝试
使用
kubernetes以
spark
集群模式从服务器读取
文件
,因此我将我
的
文件
放在所有worker上,并
使用
以下命令
挂载
驱动程序卷这
浏览 1
提问于2019-11-27
得票数 3
1
回答
使org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException):不能在市面上租赁
、
、
、
尝试从HDFS
目录
处理每个
JSON
文件
并
写入
HDFS
目录
。这里我
使用
Scala
并行
集合par。我正在尝试下面的代码来读取
JSON
文件
。= path of hdfs directory val dataFrame =
spark
.read.
json
(readJSON.toSeq.toD
浏览 9
提问于2020-12-22
得票数 1
2
回答
将
DataFrame
写入
Parquet或Delta似乎并不是
并行
化
的
--需要太长时间
、
、
、
、
问题陈述为了利用Delta表
的
改进,我尝试将其作为Delta导出到Azure directory Gen2
中
的
一个
目录
中
。我在Databricks笔记本中
使用
了下面的代码: df_nyc_taxi.write.partitionBy("year", "month").format(&quo
浏览 0
提问于2020-01-28
得票数 4
1
回答
读取单独
的
目录
&通过Scala火花
并行
创建单独
的
RDD
、
、
、
、
我需要从不同
的
源
目录
中
读取
JSON
文件
,并为每个
目录
创建不同
的
表。我希望这是
并行
的
,但是
Spark
不支持嵌套
的
RDD,所以目前它是按顺序进行
的
。是否有一个很好
的
解决方案,让这些
目录
并行
读取/处理?下面是我正在尝试
的
示例片段,但是由于嵌套
的
RDDs,它无法工作: def readJso
浏览 2
提问于2017-01-12
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Bash 脚本中如何使用 here 文档将数据写入文件
如何用python代码将json文件中的数据格式化
如何将文本文件或Excel中的数据导入数据库?
Node.js中使用express实现简易学生管理系统-增删改查
Spark之SparkSQL
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券