腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
spark
是否创建了两个工作在相同逻辑上
的
数据
集或阶段?
、
、
、
我试图从CSV文件中读取并将这些条目插入
数据
库。我发现,内部
spark
创建了两个RDD,即rdd__0和rdd__1,它们工作在相同
的
数据
上并完成所有处理。有谁能帮助找出为什么不同
的
数据
集会两次调用调用方法。 SparkConf conf = new SparkConf().setAppName(“REadFromCS
浏览 3
提问于2015-05-29
得票数 0
2
回答
如
何在
Apache
Spark
中拆分输入文件
假设我有一个大小为100MB
的
输入文件。它包含CSV格式
的
大量点(经纬度对)。我应该做什么,以便在Apache
Spark
中将输入文件拆分为10个10MB文件,或者如何自定义拆分。注意:我希望处理每个映射器中
的
点
的
子集。
浏览 2
提问于2014-12-23
得票数 4
回答已采纳
0
回答
如
何在
Spark
的
JavaRDD
分区
之间
共享
数据
?
、
、
我有一些对象要在apache
spark
中
的
分区
之间
共享
。下面是我面临
的
代码片段和问题。private static void processDataWithResult() throws IOException { }我
浏览 2
提问于2016-07-13
得票数 0
1
回答
在java中触发自定义
分区
、
、
我想用
spark
编写一个自定义
分区
程序,并且我正在编写java。 但是,我注意到,
javaRDD
类(或Dataset类)没有像scala中那样
的
partitionBy(
分区
)方法。如果没有此方法,我应该如何划分RDD或
数据
集?
浏览 0
提问于2017-11-26
得票数 2
回答已采纳
1
回答
星星之火-卡桑德拉: repartitionByCassandraReplica或将
数据
集转换为
JavaRDD
和back不维护
分区
的
数量?
、
、
我正在使用
Spark
-CassandraConnector3.0.0,我试图在
分区
键上加入一个带有cassandra表
的
数据
集,同时也使用.repartitionByCassandraReplica。但是,repartitionByCassandraReplica仅在RDDs上实现,因此我将
数据
集转换为
JavaRDD
,执行repartitionByCassandraReplica,然后将其转换回dataset但是,在这个过程中,
分区
的
数量似乎在“改变”
浏览 9
提问于2022-09-06
得票数 0
回答已采纳
1
回答
在
分区
中写入之前,从bean中删除列
、
、
、
、
我想按日和市写
分区
数据
。按City和bday进行
分区
可以切换/关闭。org.apache.
spark
.sql.AnalysisException:文本
数据
源只支持一列当我用CSV格式
浏览 5
提问于2022-11-02
得票数 0
回答已采纳
2
回答
在
Spark
中,makeRDD函数和并行化函数有什么区别?
、
、
我有一个单一
的
等式,在制造火花应用程序。在
Spark
中,makeRDD函数和parallelize函数有什么区别?
浏览 4
提问于2015-07-15
得票数 15
回答已采纳
1
回答
Spark
SQL中
的
配置是如何
共享
/隔离
的
?
、
、
、
、
因此,我有我
的
spark
context sc,从中我得到了我
的
spark
sql上下文,sqlContext.sql("set
spark
.sql.shuffle.partitions=2") 有时我想使用2作为混洗
分区
,但在其他一些时刻(可能是并发
的
),我希望使用200。这个sqlContext是在我
的
所有线程
之间
共享
<e
浏览 0
提问于2016-07-06
得票数 0
1
回答
在这种情况下,火花是如何内部工作
的
?
、
、
JavaRDD
<String> textFile = sc.textFile("C://test.txt");
Spark
将在单线程中从文件中读取切割机块。不确定是否有默认
的
块大小或取决于文件大小。星星之火将根据以下两个参数( a)它在步骤1和b中读取
的
数据
大小(根据cpu中
浏览 3
提问于2017-06-13
得票数 0
1
回答
Spark
streaming如何与Kafka
共享
Kafka
分区
?
、
、
我想知道如
何在
从executor进程内部运行
的
SimpleConsumer
之间
共享
Kafka
分区
。我知道高水平
的
Kafka消费者是如
何在
消费者群体中
的
不同消费者
之间
分享部分
的
。但是,当
Spark
使用简单
的
消费者时,这是如何发生
的
呢?将有多个执行器用于跨机器
的
流式作业。
浏览 0
提问于2018-05-18
得票数 0
1
回答
火花DataFrame RangePartitioner
、
、
假设我们有一个包含2列
的
dataframe,而一个列(例如'A')
的
值从1到1000
之间
是连续
的
。还有另一个具有相同模式
的
dataframe,但是相应
的
列只有4个值30,250,500,900。(这些值可以是任意值,从1到1000
之间
随机选择)df_a.partitionByRange($"A") df_b.partitionByRange($&quo
浏览 0
提问于2018-10-26
得票数 3
回答已采纳
2
回答
如何使用合并更改
分区
数?
、
、
我在java和Cassandra
数据
库中使用
spark
,在我
的
程序中,我使用了mapPartitions来请求cassadra。但是我注意到我
的
mapPartitions只在一个火花节点上执行。为了查看RDD中
的
分区
数,我使用了:并显示一个
分区
。我已经发现,我可以编辑
分区
的
数量,usig如下:
JavaRDD
MyRDD2
浏览 3
提问于2015-01-22
得票数 1
回答已采纳
1
回答
什么时候文件是“可分割
的
”?
、
、
、
、
当我使用
spark
时,我有时会在 HIVE 表中遇到一个巨大
的
文件,有时我会尝试在一个HIVE表中处理许多较小
的
文件。 我如何知道我
的
文件是否可以分割?如果文件是可拆分
的
,我如何知道要使用
的
分
浏览 0
提问于2015-12-10
得票数 7
1
回答
将python函数传递给pyspark中
的
Scala RDD
、
、
、
我想要做
的
是在Python中加载这个库,并将一个python函数传递给它。Python中
的
用法如下:
spark
.这是不是可以通过在Python和JVM
之间
来回切换
的
Spark
功能来实现?
浏览 14
提问于2019-11-14
得票数 0
1
回答
如何使用Dataset API编写字数统计?
、
、
我需要写一个单独使用
spark
数据
集
的
字数统计逻辑。 我使用
spark
的
JavaRDD
类实现了相同
的
过程,但我希望使用
Spark
SQL
的
Dataset<Row>类来完成相同
的
过程。如
何在
Spark
SQL中进行字数统计?
浏览 10
提问于2017-07-20
得票数 2
回答已采纳
1
回答
无法在同一个笔记本中跨
数据
共享
、
、
、
如果我在databricks中
的
同一个笔记本中同时使用Scala和python,那么single会话将如何创建两个会话或单个会话? 如果Scala和python
的
会话不同,它们
之间
是如何
共享
的
?尽管我们无法在它们
之间
共享
变量。
浏览 3
提问于2022-07-30
得票数 2
回答已采纳
3
回答
在
Spark
2.0中从用逗号分隔
的
字符串行中获取不同
的
项
、
、
、
我正在使用
Spark
2.0来分析一个
数据
集。有一列包含如下字符串
数据
:A,BB我希望得到一个包含列中所有不同项
的
JavaRDD
,如下所示:B如
何在
火花中有效地做到这一点?我在Java中使用
Spark
,但是Scala示例或指针是有用
的
。 编辑:我尝试过使用flatMap,但是我
的
实现非常慢。
JavaRDD
<String> d = dataset.flatMap(s -
浏览 6
提问于2016-10-13
得票数 2
回答已采纳
2
回答
如何用
Spark
高效读取多个小拼图文件?有CombineParquetInputFormat吗?
、
、
、
、
Spark
生成了多个小镶木地板文件。如何有效地处理生产者和消费者
Spark
作业中
的
少量镶木地板文件。
浏览 0
提问于2017-01-25
得票数 0
1
回答
使用
Spark
BigQuery连接器使用Dataproc写入BigQuery
的
速度很慢
、
、
我们有一个
Spark
Streaming应用程序,它从Pubsub读取
数据
并应用一些转换,然后将JavaDStream转换为Dataset,然后将结果写入BigQuery规格化表。 .foreachRDD(new VoidFunction2<
JavaRDD
<PubSubMessageSchema>, Ti
浏览 7
提问于2021-02-24
得票数 1
4
回答
Kafkaconsumer对于多线程访问是不安全
的
我使用下面的代码来读取Kafka主题,并处理
数据
。<Row>,
JavaRDD
<Row>>() { records = rdd.union(rec
浏览 1
提问于2017-06-14
得票数 11
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
如何在不丢失数据的情况下,更改 Mac Boot Camp 的分区大小
打通多套信息系统之间的数据共享的好处
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券