腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
所需
的
特定
列
从
另一个
rdd
创建
rdd
、
、
、
我在spark中有一个包含以下表格数据
的
文件 Property ID|Location|Price|Bedrooms|Bathrooms|Size|Price SQ Ft|Status 我已经以
rdd
的
形式阅读了这个文件,
使用
: a = sc.textFile("/FileStore/tables/realestate.txt") 现在我需要从上面的
RDD
中
创建
一个具有PropertyID、位置、价格(=大小*价格平方英尺)
的</
浏览 30
提问于2021-01-02
得票数 0
回答已采纳
2
回答
比较Scala中连续行中
的
列
值
、
、
、
、
我是斯派克斯卡拉
的
新手。在这种情况下,我必须比较数据集中某一
列
的
值,例如:Source Destination DistanceDallas HoustonDistDiff 根据这种情况,我必须比较后继行
的
距离我遇到
的
例子是,函数在任何
特定
数据集
的
基础上
浏览 0
提问于2016-08-26
得票数 3
1
回答
Spark:更新文件
我有一个包含字符串对列表
的
文件。第一对表示id,第二对表示值。因此,我加载文件,
创建
JavaPairRDD,但它们是不可变
的
,因此我不能添加、删除或更改。 执行此操作
的
最佳实践是什么?每次想要更改时,是否需要删除旧文件并保存新文件?
浏览 2
提问于2016-02-26
得票数 0
1
回答
如何通过提取
特定
值
从
另一个
RDD
创建
RDD
?
、
、
我有一个
RDD
,它包含一个字符串和JSON对象(作为字符串)。我
从
JSON对象中提取了
所需
的
值。如何
使用
这些值
创建
新
的
RDD
,以便在每一
列
中存储每个值?
RDD
从
其中生成地
浏览 0
提问于2016-01-25
得票数 2
1
回答
循环内
的
Spark Union提供空值
、
我尝试
从
循环内
另一个
RDD
的
迭代联合
创建
一个
RDD
,但如果我在循环内对结果
RDD
执行操作,结果将独占地工作。var
rdd
:
RDD
[Int] = sc.emptyRDD val
rdd
1 = sc.parallelize(Array(1))} //
浏览 5
提问于2015-10-06
得票数 1
1
回答
多个
RDD
和分区?
下面的行是
创建
单个
RDD
还是多个
RDD
我
的
理解是,它将
创建
一个具有多个
RDD
(默认情况下每个partition为128MB )
的
单个partition,其中每个partition可以在相同/不同
的
节点上进一步处理。我们可以要求Spark
创建
多功能
的
RDD
而不是单一
的
浏览 1
提问于2017-05-27
得票数 0
回答已采纳
2
回答
有人能区分
RDD
谱系和DAG (直接无圈图)吗?
、
有人能澄清
RDD
谱系和DAG (直接无圈图)之间
的
区别和相似之处吗?
浏览 7
提问于2019-10-07
得票数 1
回答已采纳
2
回答
如何传递模式以
从
现有的Dataframe
创建
新
的
Dataframe?
、
、
、
但是,现在,我在表中有数据,我通过以下方式显示:但是,如果我试图通过
使用
下面的命令将一个新模式传递给它df2 = spark.sql("SELECT * FROM people_json", schema=final_struc) 我遗漏了什么?
浏览 2
提问于2018-02-12
得票数 12
回答已采纳
2
回答
读取csv文件,其中
列
被洗牌。
、
、
、
我试图在数据库中读取csv文件,在这种情况下,它用混合
列
代替A、B、C,它会像C、A、B一样随机排列,我尝试
使用
map(),它会抛出错误‘不能选择'_thread.RLock’对象‘from pyspark.sql import SparkSession from pyspark.sql.functions importPatientId&qu
浏览 25
提问于2022-06-27
得票数 0
1
回答
如何仅
使用
rdd
而不
使用
dataframe
从
spark中
的
csv获取第N
列
、
、
我想仅
使用
rdd
函数
从
csv文件中选择一
列
,而不
使用
spark中
的
dataframe。我已经为它写了代码。 其他一些
列
的
值为空值。
rdd
= spark.sparkContext.textFile(filename)
rdd
1 =
rdd
_parc.m
浏览 28
提问于2019-02-08
得票数 0
回答已采纳
1
回答
如何
从
列
标题中
的
大型
rdd
创建
rdd
、
、
、
我有大
的
rdd
,我想
创建
4个不同
的
rdd
的
基础上提供
的
标题列表,并通过
创建
4个parquest文件将其保存在impala表中。-----------------------xyz 2 5 7 4 9 4 12 我有impala侧表
的
列
的
列表还需要为用户定义
的
主键
的
每个表
浏览 10
提问于2018-07-21
得票数 0
3
回答
Pyspark:将PythonRDD转换为Dataframe
、
根据我
的
理解,读取文件应该
创建
一个DF,但在我
的
例子中,它已经
创建
了一个PythonRDD。我发现很难将PythonRDD转换为DataFrame。请找到我下面的代码来读取一个标签分开
的
文本文件:
rdd
2 =
rdd
1.我想要转换成DF来映射模式,这样我就可以在
列
级别进行进一步
浏览 3
提问于2016-07-12
得票数 0
回答已采纳
1
回答
pyspark中
的
RDD
到DataFrame (来自
rdd
的
第一个元素
的
列
)
、
、
、
、
我已经
从
csv文件
创建
了
rdd
,第一行是该csv文件
的
标题行。现在,我希望
从
该
rdd
创建
数据帧,并保留
rdd
的
第一个元素中
的
列
。问题是我可以
从
rdd
.first()中
创建
数据帧和
列
,但是
创建
的
数据帧
的
第一行本身就是头。如何去除它?(
rdd
.first())
浏览 1
提问于2016-10-26
得票数 4
回答已采纳
1
回答
将
RDD
添加到DataFrame
列
PySpark中
、
、
、
、
我想用两个
RDD
的
列
创建
一个Dataframe,第一个是我
从
CSV获得
的
RDD
,第二个是
另一个
RDD
,它对每一行进行集群预测。StructField("Asymmetry", FloatType(), True), \映射我
的
rdd
并
创建
Dat
浏览 1
提问于2017-05-21
得票数 0
回答已采纳
2
回答
JavaRDD<String>到JavaRDD<Row>
、
、
我
使用
以下命令将txt文件读取为JavaRDD:现在,我想将其转换为JavaRDD,因为在txt文件中,我有两
列
整数,并希望在拆分列后向行添加一些模式。我也试过这个:但是说我不能将map函数分配给"Object“
RDD
。如何
从
JavaR
浏览 0
提问于2019-03-21
得票数 2
回答已采纳
1
回答
从
Spark
RDD
中选择字段
、
我有一个相当大
的
RDD
,有400个字段来自Kafka spark流,我需要
创建
另一个
RDD
或Map,当我转换流时,
从
初始
RDD
流中选择一些字段,并最终编写Elasticsearch。我知道我
的
字段
的
字段名称,但不知道字段索引。 如何按字段名称将
特定
字段投影到新Map?
浏览 3
提问于2016-03-25
得票数 1
1
回答
Spark:根据
另一个
RDD
中数组
的
元素获取
RDD
的
元素
、
、
在Spark Scala框架中,我有一个
RDD
,
rdd
1,其中每个元素表示矩阵A
的
一个元素x表示行,y表示
列
,v表示矩阵A中
的
值。我还有
另一个
RDD
,
rdd
2,形式为
RDD
[index, Array[(x, y)]],其中每个元素中
的
数组表示矩阵A
的
元素集,这些元素存储
浏览 1
提问于2016-09-16
得票数 0
回答已采纳
1
回答
JSON文件解析-在
创建
星火数据帧时忽略格式错误
的
记录
、
、
我正在
创建
一个spark,其中模式是
从
json records.But推断出来
的
,其中一些json数据集
的
行比其他行有更多
的
列
,因此数据格式解析失败。我是否可以将空值替换为缺少
的
额外
列
的
记录。raw_event_data_
rdd
= sc.textFile(INPUT_DATA_DIR) pre_processed_raw_event_data_
rdd
= raw_event_data_
rd
浏览 2
提问于2017-10-31
得票数 0
1
回答
将行列表保存到pyspark中
的
配置单元表
、
、
、
我将一个hive表复制到我
的
hdfs目录中&在python中,我对这个表执行了sqlContext.sql查询。现在这个变量是我称之为rows
的
数据帧。然后我
使用
shuffle(rows_list)将列表打乱到合适
的
位置。我取x
所需
的
随机行数 for r in range(x): allrows2add.append(rows_list[r])现在,我想将allrows2add保存为一个配置单元表或附加一个现有的配置单元表(以更容易做
的
为准)。r
浏览 1
提问于2016-04-28
得票数 5
回答已采纳
1
回答
合并“n”个数据文件以生成单个Spark数据帧
、
、
我有‘n’个分隔
的
数据集,CSV可能是。但其中一个可能有几个额外
的
列
。我正在尝试将它们作为数据帧读取,并将它们放入一个数据帧中。如何将它们合并为unionAll并使其成为单个数据帧?而且,当列计数相等时,它是一个简单
的
unionAll。
浏览 0
提问于2018-11-02
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL DataFrame与RDD交互
遇见YI算法之初识Pyspark(二)
Spark实战(5)_Spark Core核心编程
Spark快速入门-2-Spark的编程模型
PySaprk之DataFrame
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券