腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
:
仅
基于
rdd
的
操作
、
、
、
、
我正在尝试只使用
基于
rdd
的
操作
。中,如下所示:然后,我对每个raw中first elements
的
不同元素感兴趣。在这种情况下,我希望使用3不同
的
元素。这就是我所做
的
list_ =
rdd
.collect() # to get the list for i inif result[1
浏览 6
提问于2019-11-10
得票数 1
回答已采纳
3
回答
我可以将pandas数据帧转换为spark
rdd
吗?
Pbm:
浏览 0
提问于2015-04-15
得票数 4
1
回答
` `
pyspark
‘与` `
pyspark
’包
、
、
、
pyspark
mllib和
pyspark
ml包有什么区别?: 我发现
的
一个不同之处是,
pyspark
ml实现了
pyspark
.ml.tuning.CrossValidator,而
pyspark
我
的
理解是,如果在Apache框架上实现算法是mllib,那么库应该使用,但似乎存在分裂? 在没有转换类型
的
情况下,每个框架之间
浏览 4
提问于2017-04-05
得票数 18
回答已采纳
2
回答
将Spark Dataframe列中
的
数据用作条件或其他列表达式中
的
输入
、
、
、
、
我有一个想要在
PySpark
2.0中执行
的
操作
,该
操作
作为df.
rdd
.map很容易执行,但由于出于性能原因,我更喜欢留在Dataframe执行引擎中,所以我想找到一种
仅
使用Dataframe
操作
来完成此
操作
的
方法
RDD
风格
的
操作
如下所示: formatter = "%.{}f".format
浏览 9
提问于2016-08-31
得票数 0
1
回答
星火流+ MLlib相结合
、
、
、
、
下面是
pyspark
中使用
的
代码:在集群中编译错误时返回
的
错误有没有办法使用静态数据生成
的
modèle来预测流示例? 谢谢各位,我真的很感激!
浏览 3
提问于2016-04-25
得票数 7
回答已采纳
1
回答
spark:持久化分区不起作用
、
我正在尝试查看在partitionBy保存后续
操作
之后,
rdd
上
的
persist()是否会保存后续
操作
,而spark ui似乎表明我没有保存任何
操作
。如果persist正常工作,我认为阶段7或阶段8应该被跳过 (无论哪种情况,我
的
测试代码都可能是错误
的
,请让我知道。) ? 下面是我使用
的
代码 from
pyspark
import SparkContext, SparkConf from
pyspark
.<
浏览 35
提问于2019-06-22
得票数 1
1
回答
如何批量收集
RDD
中
的
元素
、
、
我有一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。 如何批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
RDD
.take.html#
pysp
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
1
回答
分发一个新
的
RDD
,就像星火中现有的
RDD
一样?
我有两个具有不同密钥
的
RDD
:
RDD
2: (K2, V2) 我有一个函数,它对来自V2
的
数据进行
操作
,然后映射K2和K1。结果是一个新
的
RDD
,
RDD
3: (K1, V2_transformed)。我
的
最终结果是
基于
对
RDD
1's V1和
RDD
3 V2_transformed by key
的
一些
操
浏览 8
提问于2014-10-27
得票数 1
回答已采纳
1
回答
RDD
和PipelinedRDD型
、
我对
PySpark
(更多
的
是对Scala
的
了解)有点陌生,最近我遇到了下面的观察。当我使用并行化()方法创建
RDD
时,返回类型是
RDD
类型。但是,当我使用range()方法创建
RDD
时,它
的
类型是PipelinedRDD。1,2,3,4,5,6,7])[1, 2, 3, 4, 5, 6, 7]<class '
浏览 6
提问于2020-06-08
得票数 1
回答已采纳
2
回答
火花相交
、
我希望在
pyspark
中得到两个
RDD
的
交集。它们看起来如下:
rdd
2 = sc.parallelize([["abc","123"],["df",345],["ghi","678"]) 是否可以使用
pyspark
的
浏览 4
提问于2016-12-19
得票数 1
回答已采纳
1
回答
将字符串列表转换为Python
、
我有以下Python /
Pyspark
代码:df = spark.sql(sql_command) 文件"/opt/mapr/spark/spark-2.1.0/python/<
浏览 0
提问于2017-08-09
得票数 1
2
回答
pyspark
rdd
/dataframe未在cassandra中自动创建表
、
、
、
、
在检查了所有找到
的
源之后,datastax-spark-cassandra连接器支持在cassandra中使用scala和java中
的
rdd
自动创建表。特别是对于
pyspark
,有另一个包可以完成这项工作-- 。但是即使有了这个包也不能自动创建表格。对于dataframe,我根本找不到任何选项。我刚接触
pyspark
和cassandra,任何帮助都是非常感谢
的
。尝试
仅
使用anguenot包作为依赖项。Spark版本: 2.4.7 Cassandra :最新docker镜
浏览 8
提问于2021-03-03
得票数 2
1
回答
火花放电中循环到并行过程
的
替换
、
、
、
我在脚本中使用for循环为size_DF(数据帧)
的
每个元素调用一个函数,但这需要很长时间。我尝试通过逐个映射删除for循环,但是我没有得到任何输出。size_DF是我从表中获取
的
大约300个元素
的
列表。用于:size_
RDD
= sc.parallelizelength, end_date)if len(size_DF) == 0: print "
浏览 0
提问于2018-02-28
得票数 2
回答已采纳
1
回答
PySpark
和Scala
、
、
它是混乱
的
多个火花版本,所以让我问它无论如何。注意,这个问题纯粹是从性能角度出发
的
,而不是从开发人员
的
生产力/技能角度考虑
的
。我是个新手,很多人都想知道2017年
的
最新状况。我知道python
的
JIT问题,这不是问题所在。这完全是从
PySpark
的
角度出发
的
。 我仍然无法理解为什么
PySpark
与直接使用scala
的
spark相比速度慢(或者说它是一条错误
的
语句)。<e
浏览 2
提问于2017-10-08
得票数 0
1
回答
在
PySpark
中应用自定义函数时使用外部模块
、
、
下面的代码片段试图将一个简单
的
函数应用于一个
PySpark
RDD
对象:conf =
pyspark
.SparkConf()
rdd
=
rdd
.map(lambda line: line.split(","))
rdd
= <em
浏览 3
提问于2016-03-20
得票数 1
回答已采纳
1
回答
需要
RDD
的
实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
、
、
、
df,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temperature))任何帮助都将是
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
1
回答
在使用
PySpark
时,如何在Spark中实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如何在
PySpark
中使用常规Python对象感到困惑。我了解Spark中
的
分布式数据结构,如
RDD
、DataFrame、Datasets、vector等。Spark有自己
的
转换
操作
和动作
操作
,如.map()、.reduceByKey()来
操作
这些对象。但是,如果我在
PySpark
中创建传统
的
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
将键值
rdd
转换为
仅
包含值列表
的
rdd
。
、
、
、
如何将键值
rdd
转换为只有
PySpark
中
的
值列表
的
rdd
?假设
rdd
有(key1,“这是一个测试”)和(key2,“今天是周日”),我想将这个
rdd
转换成一个包含(“这是一个测试”,“今天是周日”)
的
rdd
。键值对是user_id和tweet,我希望首先标记这些tweet,并报告每个令牌
的
计数。然后对特定用户组执行相同
的
操作
。都是
PySpark
的</em
浏览 0
提问于2018-05-20
得票数 0
回答已采纳
2
回答
星火StorageLevel在本地模式不工作?
、
\
pyspark
后,输入到windows命令提示符中
的
from
pyspark
import SparkConf, SparkContext
rdd
.persist(
pyspark
.StorageLevel.DISK_ONLY)
rdd
.take(60).show() *
浏览 2
提问于2019-01-31
得票数 0
2
回答
对
RDD
的
每个元素使用sparkcontext函数
、
、
我需要使用
Pyspark
从Elasticsearch读取数据。我正在尝试在
pyspark
中设计一个流,如下所示-ii) foreach -in-
rdd
1"org.elasticsearch.hadoop.mr.LinkedMapWritable",
rdd
2 = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsI
浏览 0
提问于2016-07-11
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
PySpark,一个大数据处理利器的Python库!
PySaprk之DataFrame
遇见YI算法之初识Pyspark(二)
机器学习实践:如何将Spark与Python结合?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券