腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
Pyspark (
Spark
2.1.1)
中
,
将
数据
帧
写入
磁盘花费了不现实的长时间
、
、
我
在
一台有多个CPU的服务器上运行Pyspark。除了
写入
磁盘之外,所有其他操作(读取、联接、过滤、自定义UDF)都可以快速执行。我
尝试
保存的
数据
帧
的大小约为400 gb,具有200个分区。sc.getConf().getAll()我
正在
尝试
使用以下命令进行保存: df.repartition(1).write.
csv
("out.
csv
另外,
在</em
浏览 1
提问于2017-11-28
得票数 1
2
回答
Databricks:转换
数据
框并导出为xls / xlsx
、
对于Databricks:转换
数据
帧
并导出到xls / xlsx并保存到blob存储
中
是可能的吗?使用Python
浏览 41
提问于2019-09-30
得票数 0
1
回答
pyspark
在
输出
中
写入
许多较小的
文件
、
、
我
正在
使用pyspark处理一些
数据
,并将输出
写入
S3。我已经
在
athena
中
创建了一个表,它将用于查询此
数据
。
数据
采用json字符串的形式(每行一个),
spark
代码读取
文件
,根据特定字段对其进行分区,并
写入
S3。 对于一个1.1 GB的
文件
,我看到
spark
正在
写入
36个
文件
,每个
文件
大小大约为5 MB。<
浏览 5
提问于2019-12-16
得票数 2
1
回答
如何在pyspark中将重复列名的
数据
帧
写入
csv
文件
、
、
、
如何在join操作后
将
具有相同列名的
数据
帧
写入
csv
文件
。目前,我
正在
使用以下代码。dfFinal.coalesce(1).write.format('com.databricks.
spark
.
csv
').save('/home/user/output/',header = 'true')将在“/home/user&
浏览 0
提问于2018-10-03
得票数 6
1
回答
获取
spark
数据
帧
写入
的
文件
名
、
、
、
、
我使用下面的代码
将
spark
数据
帧
写入
s3存储桶
中
。
spark
_df. \write. \mode("overwrite"). \在这里
浏览 0
提问于2018-06-18
得票数 1
1
回答
如何在databricks中使用pyspark
将
所有行
数据
从
spark
dataframe获取到
文件
、
、
、
我
正在
尝试
从
spark
dataframe
中
获取所有行
数据
到databricks
中
的一个
文件
中
。我能够用很少的计数
将
df
数据
写到
文件
中
。假设我
在
df
中
得到的计数是100,那么
在
文件
中
它的计数是50,所以它跳过了data.How。我可以
在
不跳过
数据
的情况下,<
浏览 1
提问于2020-09-30
得票数 0
1
回答
使用
spark
进行
spark
数据
帧
写入
-
csv
失败
、
、
我
正在
尝试
使用pysparkn和
spark
-
csv
将
spark
数据
帧
写入
s3,使用以下代码 .withColumnRenamed"x",'a')\
浏览 3
提问于2015-12-24
得票数 0
1
回答
如何
将
Spark
Dataframe保存到Hana Vora表?
、
、
、
我们有一个
文件
,我们想要分成3个,
在
导入到Hana Vora之前,我们需要对它进行一些
数据
清理-否则一切都必须以字符串的形式输入,这是不理想的。我们可以很好地
在
spark
中导入和准备DataFrames,但是当我
尝试
写入
HDFS
文件
系统或者更好地将其保存为"com.sap.
spark
.vora“
数据
源
中
的一个表时,我得到了错误。有人能建议一种可靠的方法
将
spark
浏览 0
提问于2016-10-17
得票数 0
1
回答
无法
将
Dataframe结果作为配置单元表/LFS
文件
写入
、
、
将过滤后的
数据
写入
文件
时遇到问题。
在
本地
文件
系统
中
创建了大约27个
文件
,但没有输出。下面是使用的代码:val in_df=
spark
.read.
csv
("file:///home/Desktop/Project/inputdata.
csv
&quo
浏览 0
提问于2020-07-07
得票数 0
1
回答
正在
尝试
将
数据
帧
数据
写入
CSV
文件
。
在
Spark
中
、
、
、
每当我
尝试
运行我的代码时,我都会得到这个错误。 (错误执行器:阶段0.0
中
任务0.0
中
的异常) 我的代码: import org.apache.log4j.{Level, Logger} import org.apache.
spark
.sql.SparkSession"local[*]", "savingCSV") // 1. reading file as
浏览 15
提问于2021-08-12
得票数 0
1
回答
无法
将
CSV
pyspark
数据
帧
导出到C:\temp
、
、
、
、
我使用以下命令
将
数据
框导出到C:/temp: c5.toPandas().to_
csv
("C:/temp/colspark.
csv
") 但我得到以下错误: <ipython-input-4-2c57938dba1e> in <module> S:\tdv\ab\e
浏览 28
提问于2019-10-03
得票数 1
回答已采纳
1
回答
如何使用Apache
spark
java api读取
csv
文件
并将其保存到多个表
中
。
、
我需要读取具有多个列的
csv
文件
,并使用Apache
spark
java api将其保存到多个表
中
。如果有人能帮上忙请帮帮忙。
浏览 4
提问于2021-09-24
得票数 0
1
回答
在
palantir foundry
中
,如何在不使用transform或transform_df的情况下导入和读取
数据
集?
、
、
我想知道有什么方法可以
在
不使用transform_df或在代码存储库中进行转换的情况下导入
文件
。 基本上,我希望从
数据
集中提取
数据
,并以列表的形式返回所有值。如果我使用transform或transform_df装饰器,那么
在
调用返回函数时
将
无法访问输入
文件
。
浏览 11
提问于2021-08-05
得票数 1
3
回答
如何
将
数据
写入
Spark
中
的单个(正常)
csv
文件
?
、
、
、
我
正在
尝试
将
数据
帧
保存为本地驱动器
中
的
CSV
文件
。但是,当我这样做时,我会生成一个
文件
夹,并在该分区
文件
中
写入
。是否有任何克服这一问题的建议?My Requirement:获取代码
中
给出的具有实际名称的普通
csv
文件
。代码片段: dataframe.coalesce(1).write.mode("overwrite&q
浏览 0
提问于2017-11-01
得票数 2
1
回答
在
Scala中将SQL表直接
写入
文件
、
、
团队成员,我
正在
处理Azure databricks,我可以使用以下选项
将
数据
帧
写入
CSV
文件
: df2018JanAgg.option("header", "true") .save("dbfs:/FileStore/output/df2018jan
浏览 28
提问于2019-10-04
得票数 1
2
回答
使用dataframe scala创建
文件
名为时间戳的
csv
文件
、
、
、
我有一个
数据
帧
,
数据
如下。|1.0 ||football |2.0 |我想将上面的
数据
帧
写入
一个
csv
文件
,其中的
文件
名将使用当前时间戳创建。generatedDataFrame.write.mode ("append") .format("com.databrick
浏览 29
提问于2021-03-02
得票数 2
回答已采纳
1
回答
PySpark
将
两个
数据
文件
写入
同一个分区,但由
文件
夹分隔
、
、
、
我使用
Spark
将
两个不同的
数据
文件
写入
到同一个分区,但我希望它们
在
分区的末尾被
文件
夹分隔。也就是说,第一个
数据
帧
将
写入
yyyy/mm/dd/,第二个
数据
帧
将
写入
yyyy/mm/dd/rejected/ 目前,我可以使用以下代码
将
第一个<em
浏览 0
提问于2020-07-12
得票数 1
回答已采纳
3
回答
从
Spark
写入
配置单元表,
将
CSV
指定为格式
、
、
、
我
在
写来自
Spark
的Hive表时遇到了问题。下面的代码可以很好地工作;我可以写出表格(默认使用拼接格式),然后
在
Hive
中
读回它:OKTime taken: 0.021 seconds, Fetched: 1 row(s)df.w
浏览 0
提问于2017-08-15
得票数 2
1
回答
如何根据字段
将
数据
从
CSV
加载到单独的Hadoop HDFS目录
、
我有一个
CSV
数据
,需要根据某个字段(年份)将其加载到HDFS目录
中
。我计划使用Java。我已经考虑过使用BufferedReader,但是我
在
实现它时遇到了问题。
浏览 34
提问于2021-11-03
得票数 0
回答已采纳
1
回答
如何在
Spark
中加速大
数据
帧
连接
、
、
我
在
Spark
2.4
中
有两个
数据
帧
,它们的大小几乎相同。每个都有大约4000万条记录。一种是通过简单地从S3加载
数据
帧
生成的,另一种是加载一堆
数据
帧
并使用sparkSQL生成大型
数据
帧
。然后我
将
这两个
数据
帧
多次连接到多个
数据
帧
中
,并
尝试
将它们作为
CSV
<e
浏览 12
提问于2020-05-14
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Bash 脚本中如何使用 here 文档将数据写入文件
灵活强大:iObjects Java for Spark模块扩展开发
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
使用Spark将本地文件读取并封装为DataFrame的完整指南
基于Azure 数据湖分析与U-SQL实现大数据查询处理
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券