腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
需要
RDD
的
实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
、
、
、
嗨,我
在
Notebook中有这段代码,并尝试编写python spark代码: spark.sql("SELECTdf,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temper
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
1
回答
如何在没有模式
的
情况下查询dataframe和
rdd
如何将csv文件without any schema加载到spark
rdd
和dataframe
中
并分配模式AA,19970101,47.82,47.82,47.82,47.82,0
浏览 0
提问于2019-07-17
得票数 0
1
回答
如何在Spark
中
从另一个
RDD
的
前n项生成
RDD
?
在
pyspark
中
给出一个
RDD
,我想
创建
一个新
的
RDD
,它只包含它
的
前n项(副本),如下所示: n=100
rdd
2 =
rdd
1.limit(n) 除了
RDD
没有像DataFrame那样
的
方法limit注意,我不想收集结果,结果必须仍然是
RDD
,因此我不能使用
RDD
.take()。 我使用
的
是
pyspark
浏览 19
提问于2019-10-13
得票数 0
回答已采纳
1
回答
如何从任何数据库表
创建
PySpark
RDD
?
由于我是星火社区
的
新手,任何人都能解释如何从数据库表
创建
PySpark
RDD
吗?我可以使用
PySpark
方法
的
textFile()方法从CSV文件
创建
SparkContext
RDD
。但我不知道从数据库表
中
创建
PySpark
RDD
。
浏览 0
提问于2018-02-10
得票数 1
回答已采纳
2
回答
在
pyspark
中
创建
rdd
的
rdd
、
、
、
可以
在
pyspark
中
创建
rdd
的
rdd
吗?我试过了
rdd
2=sc.parallelize([4,5,6])并得到错误
浏览 22
提问于2019-11-17
得票数 0
回答已采纳
4
回答
从列表
的
RDD
创建
星火DataFrame
、
、
我有一个
rdd
(我们可以称之为myrdd),其中
rdd
中
的
每个记录都具有如下形式:我想把它转换成一个DataFrame --最简单
的
方法是什么?
浏览 0
提问于2015-04-07
得票数 15
回答已采纳
1
回答
电火花纱获得烟斗拒绝许可
、
、
我试图用CDH
在
纱线上运行电火花,在这个生火
的
主程序
中
,有一条类似于
rdd
.pipe("XXX.sh")
的
语句,每次我运行它时,都会弹出一个被拒绝
的
错误,我该怎么办来解决这个错误呢?谢谢。_0079/container_1495632173402_0079_01_000001/
pyspark
.zip/
pyspark
/
rdd
.py",第2346行,
在
浏览 3
提问于2017-05-25
得票数 0
1
回答
如何使用
pyspark
.mllib
rdd
api度量来测量
pyspark
.ml (新数据帧api)?
、
、
MlLib
的
旧API有评估指标类:,而新
的
dataframe API没有这样
的
类: 它有计算器类,但它是有限
的
。
浏览 0
提问于2016-09-06
得票数 0
1
回答
传递由:
PySpark
引起
的
函数错误
的
java.io.EOFException映射转换
当我试图将一个函数传递给Spark
的
map方法时,我遇到了一些问题。我
的
问题似乎是
在
功能,但不确定它。我
的
功能是这样
的
: rowDict = row.asDict() rowDicthash_column返回一个Row()对象,或者通过将函数简化为只返回("Hello"),但仍然收到相同
的
错误。
在
执行代码时,我收到了以下
浏览 34
提问于2022-10-28
得票数 0
2
回答
在
Spark
中
重命名缓存
的
RDD
/Dataframe描述
、
、
在
Scala
中
,有一种名为setName
的
方法,它允许用户
在
Spark
的
Storage选项卡下指定用户友好地显示缓存
的
RDDs/Dataframes。(我在这个操作中使用Databricks ) 注意:我已经尝试使用使用Python
的
setName方法,但这似乎没有更新Spark
中
存储选项卡
中
RDD
名称
的
描述(每个"
RDD
名称“以查询形式显示)-有人知道我们如
浏览 10
提问于2022-01-01
得票数 0
3
回答
检查类型:如何检查是
RDD
还是DataFrame?
、
、
、
、
我使用
的
是Python,这是一个Spark
RDD
/ DataFrame。我正在编写一个函数,其中
RDD
和DataFrame都可以传入,所以如果传入了DataFrame,我将需要执行input.
rdd
来获取底层
的
RDD
。
浏览 1
提问于2016-04-20
得票数 11
回答已采纳
2
回答
将数据保存到HDFS
的
格式是什么?
、
、
、
创建
DataFrame后,我可以将其保存为avro、csv或拼板格式。
在
dataframe或
rdd
中
是否有其他格式可用于
在
Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
制作和操作numpy数组,并通过
pyspark
使用数据
、
我
在
使用
pyspark
.mllib.stat.KernelDensity
中
手工
创建
的
测试数据时遇到了一个问题。
在
使用(某些)
pyspark
时,numpy.float和Python
的
通用float之间存在某种问题/差异;特别是使用numpy.float
的
中断构造
的
RDDs。有没有办法让我
创建
的
NumPy数组
的
元素是python
的
浮点数而不
浏览 0
提问于2018-05-15
得票数 0
2
回答
访问火花放电
中
的
JavaRDD
、
、
、
在
中
,我通过调用从Java加载
的
类
的
静态函数来
创建
一个JavaRDD对象。是否可以使用
Pyspark
访问这个JavaRDD? 将映射
的
RDD
写入Spark表。获取表
的
<em
浏览 8
提问于2015-08-20
得票数 3
2
回答
ValueError: object (3)
的
长度与字段长度不匹配
、
、
我手动
创建
PySpark
DataFrame,如下所示:[('timestamp', 1506340019), ('pk', 111), ('product_pk_1510134261242_0002/container_1510134261242_0002_01_000003/
pyspark
.zip/
pyspark
/worker.py", line 172,/
浏览 1
提问于2017-11-08
得票数 3
回答已采纳
1
回答
火花放电
中
循环到并行过程
的
替换
、
、
、
我
在
脚本中使用for循环为size_DF(数据帧)
的
每个元素调用一个函数,但这需要很长时间。我尝试通过逐个映射删除for循环,但是我没有得到任何输出。size_DF是我从表
中
获取
的
大约300个元素
的
列表。用于:size_
RDD
= sc.parallelizenewObject.full_item(sc, dataBase, len(l[0]
浏览 0
提问于2018-02-28
得票数 2
回答已采纳
1
回答
从
RDD
-
PySpark
创建
数据帧
、
、
、
在
执行
PySpark
代码时,通过提供所需
的
模式从现有的DataFrame
创建
DF时,我无法展示
在
什么情况下会引发以下异常,此代码
在
Databricks社区平台中执行。请帮助解决将数据框显示为输出
的
问题。代码: from
pyspark
import SparkConf, SparkContextsc = SparkContext.ge
浏览 108
提问于2021-10-25
得票数 0
回答已采纳
2
回答
将数据从吡咯烷酮写入ElasticSearch
、
、
、
、
这是我
的
剧本:from
pyspark
.sql import SQLContext17/05/05 17:51:52 INFO Executor: Running task 0.0 in stage 1.0 (TID 1) 17/05/05 17:51:52 INFO/
pyspark
/sql/da
浏览 1
提问于2017-05-05
得票数 4
回答已采纳
1
回答
火花放电
rdd
分裂问题
、
、
我试图从
rdd
中
筛选值为"01-10-2019“
的
### Split <e
浏览 5
提问于2020-02-08
得票数 1
回答已采纳
1
回答
RDD
和PipelinedRDD型
、
我对
PySpark
(更多
的
是对Scala
的
了解)有点陌生,最近我遇到了下面的观察。当我使用并行化()方法
创建
RDD
时,返回类型是
RDD
类型。但是,当我使用range()方法
创建
RDD
时,它
的
类型是PipelinedRDD。1,2,3,4,5,6,7])[1, 2, 3, 4, 5, 6, 7] >>> print(type(listRDD
浏览 6
提问于2020-06-08
得票数 1
回答已采纳
点击加载更多
相关
资讯
Spark 核心编程RDD的使用(1)
遇见YI算法之初识Pyspark(二)
PySpark,一个大数据处理利器的Python库!
RDD断点回归设计的详细步骤和代码指南
机器学习实践:如何将Spark与Python结合?
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券