腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
3
回答
如
何在
spark
rdd
中
执行
vlook
、
、
我有两个
rdd
我想
执行
一个操作,将第一个
rdd
的第一个元素与第二个
rdd
的第二个元素重新关联起来<code>A1</code> 请向我推荐一种
执行
此操作的方法
浏览 33
提问于2019-12-05
得票数 0
回答已采纳
1
回答
在使用PySpark时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学
Spark
programming,并试图用PySpark重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark中使用常规Python对象感到困惑。我了解
Spark
中
的分布式数据结构,
如
RDD
、DataFrame、Datasets、vector等。
Spark
有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在PySpark
中
创建传统的Python数据对
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
spark
dataframe到
rdd
的转换需要很长时间
、
、
我正在将一个社交网络的json文件读入
spark
。我从这些数据
中
得到一个数据帧,我将其分解以获得对。这个过程运行得很完美。稍后,我想将其转换为
RDD
(用于GraphX),但
RDD
的创建需要很长时间。val social_network =
spark
.read.json(my/path) // 200MB val exploded_network = social_network., "id_account", "relationship&qu
浏览 1
提问于2017-03-20
得票数 3
2
回答
我们是否应该像在训练之前并行化Seq一样来并行化DataFrame
、
、
、
、
考虑这里给出的代码, val training = sparkContext.parallelize
浏览 0
提问于2016-06-01
得票数 14
回答已采纳
1
回答
无法理解scala操作是如
何在
Apache
spark
中
运行的
、
、
、
、
我所了解到的是,火花作业在有任务要在RDDS上操作的阶段上工作,在这些阶段
中
,它们是通过从
spark
控制台开始的惰性转换创建的。Scala的编码有
RDD
上的操作,据我所知,
RDD
是逻辑的,还有其他类型的数据结构,我可以对它们进行操作,
如
列表、流、向量等。所以我的问题是 更正式地说,RDDS是什么,它们与火花
浏览 0
提问于2019-07-07
得票数 0
1
回答
如
何在
pyspark dataframe中将groupby转换为reducebykey?
、
、
、
、
请在下面找到我的场景,Step2:输入列总数为15列,其中5列为关键字段,其余为数值。如何用
spark
方式和map和reducebykey选项来做类似的逻辑。
浏览 0
提问于2017-09-21
得票数 1
1
回答
在foreachRDD
中
执行
rdd
.count()会将结果返回给驱动程序还是
执行
器?
、
对于下面的代码,.count()是将值返回给驱动程序还是仅返回给
执行
器? long count =
rdd
.count();我知道count()通常会将值返回给驱动程序,但我不确定当它在foreacRDD
中
时会发生什么?对于将来的
浏览 5
提问于2017-07-11
得票数 2
回答已采纳
1
回答
在这种情况下,火花是如何内部工作的?
、
、
我有一个带有四核的单机processor.Here是我的理解火花如
何在
这里实现并行 根据步骤2
中
的分区大小,它将生成线程。如果有3个分区,它将生成三个线程。
浏览 3
提问于2017-06-13
得票数 0
2
回答
NullPointerException在Scala
Spark
中
,似乎是由集合类型引起的?
、
sessionIdList的类型为:res19: org.apache.
spark
.
rdd
.
RDD
[String] = MappedRDD[17] at distinct:20:46 ERROR Executor: Exception in task ID 80 at org.apache.
spark
.
rdd
.
RDD
.filter= null) kDis
浏览 0
提问于2014-05-22
得票数 14
回答已采纳
1
回答
Rdd
持久性如何支持容错
、
我想了解
spark
的
rdd
持久性是如何帮助容错的。 假设我的集群中有3个节点,即N1、N2、N3。我以
Rdd
1->
Rdd
2->
Rdd
3的形式
执行
spark
任务(转换映射)。我已经持久化了
rdd
2(在
rdd
3计数上它是第一次成功)。在持久化方面,假设它有6个分区,我的每个节点都有2个分区,在持久化方面,它们在RAM(内存
中
)
中
。现在,在第二次调用
Rdd
3.count()时
浏览 0
提问于2018-01-31
得票数 1
1
回答
添加到字符串
Spark
列表
、
、
、
、
我有以下Java
Spark
代码: //do some operations
rdd
.foreach(msg -> {//Kafka messages writeJsons(jsonList);/&
浏览 1
提问于2018-07-05
得票数 2
1
回答
"
spark
.memory.fraction“似乎没有任何效果
、
、
在
Spark
中
,当从函数
中
从HDFS读取大约1GB的字符串时,我会得到java.lang.OutOfMemoryError: Java heap space错误。不过,我使用的
执行
器内存是6GB。为了增加用户内存,我甚至将
spark
.memory.fraction减少到了0.3,但仍然会出现相同的错误。似乎降低这一价值没有任何影响。我正在使用星火1.6.1和编译与星火1.6核心库。
浏览 2
提问于2016-10-22
得票数 11
回答已采纳
1
回答
如何优化大窗口上的窗口聚合?
、
、
WIth没有进一步的配置,我必须为我的
执行
程序分配大量内存以避免这个OOM:at org.apache.
spark
.
rdd
.
RDD
浏览 6
提问于2020-01-15
得票数 4
1
回答
在
RDD
中
展平Scala Map
、
我有一个
RDD
,看起来像这样:如
何在
RDD
中
展平地图以获得以下结果: org.apache.
spark
.
rdd
.
RDD
[(Long, String, Double)]
浏览 3
提问于2015-04-24
得票数 3
1
回答
火花-火花
RDD
是一个逻辑集合的指令?
、
、
快速浏览一下面向初学者的非常有趣的Apache体系结构指南,
如
本所示,我遇到了一些关于
RDD
处理的查询,如下所示, 让存储在hdfs
中
的20 GB的文件由
spark
应用程序处理。该文件将在hadoop集群中分发以进行存储。那么,如果Datanode拥有3个大小为192 MB的块,那么这3个块将在dataNode A的同一个
执行
器
浏览 1
提问于2016-08-18
得票数 1
回答已采纳
1
回答
火花
执行
器由于GC开销限制而丢失,即使使用20个
执行
器每个使用25 GC。
、
我有20个
执行
者使用25 GB,我完全不明白它怎么能抛出GC开销,我也不是那个大数据集。一旦这个GC错误发生在
执行
器
中
,它就会丢失,其他
执行
程序也会慢慢丢失,因为IOException、Rpc客户端断开、洗牌找不到等等。 at org.apache.
spark
.
rdd
.MapPar
浏览 0
提问于2015-08-18
得票数 1
回答已采纳
2
回答
如何为Scala
中
的函数分配不同的返回类型?
、
、
、
我已经重写了Scala
中
的"+ -/ *“以供我的特定用途。每个实现( +,-,*,/)都有三个基于输入的实现。现在,我有了一个解析器,它从输入(
如
:
RDD
+1 )读取表达式,解析它并创建后缀,以使计算更容易,比如:
RDD
1+,然后我想使用实现的+进行计算。在的帮助下,我试图对其进行修改,使其能够根据我的输入表达式
执行
计算。[(Int, Array[Float])])org.apache.
spark
.
rdd
.
RDD
[(
浏览 3
提问于2015-07-02
得票数 0
回答已采纳
1
回答
不使用迭代scala获取列表
中
的所有元素
、
、
、
我在
spark
中
工作,我必须从List的元素创建
RDD
(Double,Doubleval list1: List[Double] = List(16.0,5.0)val
rdd
= sc.parallelize (Seq(list1))val <e
浏览 16
提问于2018-01-29
得票数 0
2
回答
Apache星火库
中
的转换过程
、
转换基于现有的
RDD
创建新的
RDD
。基本上,RDDs是不可变的,而
Spark
中
的所有转换都是惰性的。RDDs
中
的数据在
执行
操作之前不会被处理,但是如果不处理数据,如何创建新的RDDs?例如,在filter操作
中
,如
何在
不实际将
RDD
加载到内存并进行处理的情况下创建新的
RDD
?
浏览 2
提问于2016-09-03
得票数 4
回答已采纳
1
回答
坚持
Spark
2.0指的是什么?
、
我有一个
RDD
,
rdd
= sc.Textfile(file.txt),我调用
rdd
.persist(),然后重新分配它:
rdd
=
rdd
.filter(lambda x: 'hi' in x)。现在是将sc.Textfile(file.txt)持久化在内存
中
,还是将
rdd
.filter(lambda x: 'hi' in x)持久化?
浏览 0
提问于2018-02-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
如何在Python中实现异步执行?
Spark 核心编程RDD简介与核心属性
大数据之谜Spark基础篇,Spark RDD内幕详解
什么是 Spark RDD?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券