腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
包含
具有
不同
模式
的
记录
的
csv
设计
spark
作业
、
我有一个巨大
的
csv
文件,其中
包含
属于10个
不同
模式
的
记录
。我正在开发一个
spark
应用程序,我读取整个文件,清理数据(我正在
使用
RDD转换,我不能
使用
DF,因为没有1个
模式
。示例
CSV
:Record10,test8,customer,value,info,id Record9,record,door,lamp,sofa,tv,sink,
浏览 15
提问于2019-11-16
得票数 1
1
回答
Spark
csv
读取器
的
RDD字符串
、
我想用
spark
CSV
阅读器来阅读RDD[String]。我这样做
的
原因是,在
使用
CSV
阅读器之前,我需要过滤一些
记录
。val fileRDD: RDD[String] =
spark
.sparkContext.textFile("file") 我需要
使用
spark
CSV
阅读器来读取fileRDD。我不希望提交该文件,因为它会增加HDFS
的
IO。我已经研究了我们在
sp
浏览 12
提问于2019-05-30
得票数 0
2
回答
将文件读取并附加到
spark
数据文件中
我已经创建了一个空
的
dataframe,并开始添加它,通过读取每个文件。但其中一个文件
的
列数比前一个文件多。如何仅为所有其他文件选择第一个文件中
的
列?= SparkSession.builder.\ config("
spark
.jars.packages","saurfang:
spark
-sas7bdat:2.0.0-df_
spark
=
spark
.createDataFrame(sc.emptyRDD(), s
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
1
回答
如何合并S3存储桶中
的
CSV
文件并
使用
AWS Glue将其保存回S3
、
、
、
、
目标是
使用
胶水将数据(
csv
文件)从一个S3存储桶转换到另一个S3存储桶。我创建了一个
CSV
分类器。我创建了一个爬虫来扫描S3存储桶中
的
数据。我被卡住
的
地方: 如果不将输出保存到任何关系数据库服务或其他数据库服务中,则无法找到如何将输出再次存储在S3中。因为胶水输出要求数据库输出,而我没有也不想
使用
它。有没有什么方法可以在不
使用
任何其他数据库系统
的
情况下实现这个目标,只需
使用
普通
的
S3、Glue?
浏览 1
提问于2020-09-10
得票数 0
2
回答
Spark
.read.
csv
()是转换上
的
操作吗
、
、
在“火花权威指南”一书中,比尔说,阅读是一种转变,它是一种狭义
的
转变,据我所知,Job是一个叫做
的
动作。此外,如果我尝试在读取
CSV
时输入一些选项,我会在
spark
UI中看到另一个
作业
,例如,当我们运
浏览 1
提问于2021-05-01
得票数 2
1
回答
PySpark在创建
包含
现有列名
的
新列时读取多个文件
、
、
我想要阅读n个
csv
文件
使用
吡咯烷酮。
csv
具有
相同
的
模式
,但
具有
不同
的
列名。在读取这些文件时,我希望创建一个额外
的
列‘管道’,其中
包含
第一个列名
的
子字符串。 .option("header&
浏览 0
提问于2018-11-16
得票数 0
2
回答
Pyspark:在Yarn集群上运行
作业
时如何对多个文件
使用
--files标签
、
我是
Spark
的
新手,并且
使用
python
使用
pyspark编写
作业
。我想在yarn集群上运行我
的
脚本,并通过发送
使用
--files标记将日志
记录
级别设置为WARN
的
log4j.properties来删除详细日志
记录
。我有一个脚本
使用
的
本地
csv
文件,我还需要包括这个文件。如何
使用
--files标签来
包含
这两个文件?我
使
浏览 0
提问于2017-08-05
得票数 0
2
回答
Dataproc
的
基本概念:它是如何操作
的
?
、
我正在尝试理解dataproc
的
操作方面。如果我创建一个dataproc集群,并让该集群节点同时运行该脚本,那么如何在集群节点之间实现并行化呢?每个节点会尝试读取所有文件并进行聚合,还是每个节点都会自动读取各自
的
子集?我只是试图掌握它将如何运作。谢谢。
浏览 2
提问于2018-11-24
得票数 1
1
回答
为什么我在
Spark
UI中看到一次读取有两个
作业
?
、
、
我正在尝试运行下面的脚本来加载
包含
24k
记录
的
文件。为什么我在
Spark
UI中看到两个单次加载
的
作业
。代码 from pyspark.sql import SparkSession .builder\ trades_df =
spark
.read.format("
csv
"
浏览 27
提问于2021-08-05
得票数 1
回答已采纳
2
回答
如何解析Foundry中
的
大型压缩
csv
文件?
、
、
我有一个大
的
gziped
csv
文件(.
csv
.gz)被上传到一个数据集,其大小约为14 in,未压缩时为40 in。是否有一种
使用
Python转换将其解压缩、读取和写入数据集
的
方法,而不导致执行器到OOM?
浏览 5
提问于2021-08-31
得票数 4
回答已采纳
1
回答
Scala是否在所有情况下都为并行运行任务实现映射减少?
、
、
为了更好地理解星火
作业
的
性能调优,我假设groupByKey、map、flatMap、cartesian等方法都在利用map
设计
模式
。我所问
的
原因是为了更好地理解
Spark
是如何工作
的
,因此编写
具有
更高性能
的
Scala代码。
浏览 1
提问于2014-05-26
得票数 2
回答已采纳
3
回答
是否有人
使用
AWS Glue to snowflake构建了数据管道?寻找解决方案
、
、
、
、
我是AWS和snowflake
的
新手。我希望从S3加载
csv
文件到各自
的
雪花表(大约100个表)
使用
亚马逊网络服务胶水。我可以
使用
下面的文章将数据加载到一个雪花表中 AWS Glue内部-我们可以编写逻辑来基于
csv
文件在snowflake中更新或插入数据吗?
浏览 0
提问于2020-04-10
得票数 0
1
回答
火花结构化流-如何忽略检查点?
、
我正在
使用
微批处理(readStream)从Kafka流中读取消息,并通过writeStream处理它们并将结果写入另一个Kafka主题。
作业
(流查询)
设计
为“永远”,处理10秒大小
的
微批(处理时间)。设置了checkpointDirectory选项,因为
Spark
需要检查点。但是,当我尝试提交
具有
相同源流(相同主题等)
的
另一个查询时,但是可能有
不同
的
处理算法),
Spark
完成了前面正在运行
的
查询,
浏览 4
提问于2021-03-05
得票数 0
回答已采纳
1
回答
嵌套
的
BigQuery历史
作业
上
的
JSON
模式
不完整?
嵌套Json文件
的
BigQuery
作业
上
的
架构不会保留在导入
作业
上提交
的
原始架构。如果查看dataset下
的
表架构,它们将正确匹配。但是,如果您尝试在BigQuery网络界面的
作业
历史
记录
下重复加载
作业
,它只会显示架构
的
第一级,从而防止重新运行相同
的
作业
。因为
作业
模式
与表
模式
不同
。Job上
的
示
浏览 3
提问于2013-06-22
得票数 1
1
回答
检索列中
具有
不同
值
的
Spark
数据集
、
、
我已经从
csv
文件创建了
Spark
数据集。
模式
是: |-- FirstName: string (nullable = true)<br> |-- Emailnullable = true)<br> |-- Phone: string (nullable = true) 我正在对电子邮件字段执行重复数据消除: Dataset<Row> customer=
spark
.readpat
浏览 24
提问于2019-05-14
得票数 0
回答已采纳
1
回答
pyspark一次读取多个
csv
文件
、
、
我正在
使用
SPARK
读取hdfs中
的
文件。有一个场景,我们以
csv
格式从遗留系统中获取文件块。ID1_FILENAMEA_1.
csv
ID1_FILENAMEA_3.
csv
ID2_FILENAMEA_1.
csv
ID2_FILENAMEA_3.
csv
此文件
使用
浏览 228
提问于2021-09-27
得票数 1
回答已采纳
1
回答
对于大型
作业
,
Spark
只运行一个执行器
、
我
的
spark
启动参数如下: MASTER="yarn-client" /opt/mapr/
spark
/
spark
-1.6.1/bin/pyspark --num-executors 8 --executor-memory10g --executor-cores 5 --driver-memory 20g --driver-cores 10 --conf
spark
.driver.maxResultSize="0&q
浏览 10
提问于2016-09-01
得票数 1
3
回答
使用
架构、头检查和存储损坏
的
记录
读取
csv
、
、
、
我正在尝试
使用
pyspark读取器,其标准如下: DDL = "a INTEGER, b INTEGER" df =
spark
.read.
csv
('ab.
csv
', header=True, schema=DDL, enforc
浏览 0
提问于2019-03-07
得票数 10
1
回答
如何在读取之前根据定义
的
模式
读取pyspark中
的
拼图文件?
、
我正在从pyspark中
的
s3存储桶中读取镶木地板文件。有一些地块文件
具有
不同
的
模式
,这会导致
作业
错误。我想通过预定义
的
模式
和火花
作业
应该只读取与预定义
的
scehma匹配
的
文件。data =
spark
.read.parquet(*path_list) 上面的parquet
spark
read命令是批量读取文件。如何能够只读取传递预定义
模式
<e
浏览 21
提问于2021-01-12
得票数 2
1
回答
验证
CSV
文件PySpark
、
、
、
我正在尝试验证
csv
文件(每条
记录
的
列数)。根据下面的链接,在Databricks 3.0中有处理它
的
选项。df =
spark
.read .parquet("/input/parquetFile") 但是,我
使用
的
是2.3版本
的
spark</em
浏览 1
提问于2018-11-21
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Hadoop生态圈初识
Spark简史:从AMP lab到大数据王者
Spark+ignite实现海量数据低成本高性能OLAP
灵活强大:iObjects Java for Spark模块扩展开发
使用 Apache Spark 构建商品推荐引擎
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券