腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
将
键值
对
的
spark
数据
帧
整形
为
新
列
、
、
我是
spark
和scala
的
新手。假设我有一个列表
的
数据
帧
,这些列表是
键值
对
。有没有办法
将
列
id
的
id变量映射
为
新
列
?
浏览 10
提问于2016-09-01
得票数 3
3
回答
Spark
dataframe reducebykey like操作
、
、
、
我有一个包含以下
数据
的
Spark
数据
帧
(我使用
spark
-csv加载
数据
):1,103,0有没有类似于
spark
RDD reduceByKey
的
东西,它可以返回
Spark
DataFrame
为
:(基本上,
对
相同
的
键值
进行求和)1,303,0 (我可以
将</e
浏览 1
提问于2015-12-13
得票数 11
回答已采纳
1
回答
通过数学运算组合来自
spark
数据
帧
的
行/
列
、
、
、
我有两个
spark
数据
帧
(A和B),大小分别为a x m和b x m,包含浮点值。此外,每个
数据
帧
都有一个
列
'ID',这是一个字符串标识符。A和B具有完全相同
的
ID集(即包含关于同一组客户
的
信息)。我想通过一些函数把一
列
A和一
列
B结合起来。更具体地说,我想构建一个标量积A
的
列
和B
的
列
,并根据ID
对
列<
浏览 1
提问于2015-05-05
得票数 2
3
回答
如何
将
数据
集写入Kafka主题?
、
、
、
我使用
的
是
Spark
2.1.0和Kafka 0.9.0。有没有人知道这样
的
事情是否可行?谢谢正如user8371915提到
的
,我试图遵循中所做
的
事情。我用
的
浏览 3
提问于2018-04-06
得票数 6
1
回答
如何使用dplyr
对
n个最高值进行逐行求和而不进行
整形
?
、
我想根据
数据
帧
每一行
的
n个最高值创建一个
新
列
。以下列例子
为
例:df <- tribble(~name, ~q_1, ~q_2, ~q_3, ~sum_top_2, "b", 2, 8, 9, 17) 在这里,sum_top_2
列
将
两个以"q_“
为
前缀
的
浏览 7
提问于2021-06-10
得票数 6
回答已采纳
1
回答
使用更改模式
将
数据
插入到增量表中
、
、
如何通过改变
数据
库中
的
模式
将
数据
插入到增量表中。 在Databricks Scala中,我分解了一个Map
列
并将其加载到增量表中。我有一个预定义
的
增量表模式。 假设模式有4
列
A、B、C、D。因此,有一天,我使用下面的代码
将
包含4
列
的
数据
帧
加载到增量表中。例如,在第2天,添加了两个
新
列
E和F,但没有C
列
。现在我在
数据</e
浏览 18
提问于2021-10-29
得票数 0
1
回答
通过python中
的
函数参数分配变量名
、
我正在用我编写
的
函数创建多个
数据
文件,并且我希望能够在函数中指定dataframe
的
名称作为参数。q1 = """from bar我已经编写了上面的函数,当我调用它时,它会返回一个带有适当
数据
的
数据
但是,它似乎不像指定为"market_share_df“
的
变量名。不知道该
浏览 0
提问于2022-08-11
得票数 0
2
回答
有没有办法修改存储
为
ORC
的
配置单元表中
的
列
?
、
已经有一个关于一般配置单元( )
的
问题。此问题
的
答案指出,可以使用alter table change命令更改模式 但是,如果文件存储
为
ORC,这也是可能
的
吗?
浏览 2
提问于2016-11-30
得票数 1
1
回答
计数数组在PySpark中每个类别包含字符串
的
次数
我从
spark
数组“df_
spark
”开始: from pyspark.sql import SparkSessionimport numpy as npdf_
浏览 19
提问于2018-12-16
得票数 3
回答已采纳
2
回答
Spark
dataframe
将
行中特定
列
的
值替换为空值
、
、
、
、
在尝试用空值替换
Spark
dataframe
的
特定
列
的
值时,我遇到了一个问题。我有一个超过50
列
的
数据
帧
,其中两
列
是键
列
。我想创建一个具有相同模式
的
新
数据
帧
,并且
新
数据
帧
应该具有来自键
列
的
值和非键
列
中
的
空值。为了避免这种
浏览 18
提问于2018-08-29
得票数 1
回答已采纳
1
回答
由于区分大小写,在
spark
中使用架构加载JSON文件时加载
的
是空
数据
、
我试图用Schema加载JSON文件,但是模式
的
列
都是小写
的
,而JSON文件中
的
键不是小写
的
,所以加载
的
数据
是空
的
。我可以使用推断出
的
模式加载文件,但这不是一个选项。我也尝试过设置
spark
.sql.caseSensitive=true,但它不起作用,而是
将
这些作为
新
列
添加。是否有任何属性可以设置使其工作,或者我必须在加载到
spark
之前
浏览 21
提问于2020-04-21
得票数 1
1
回答
在pyspark中
的
my data框中生成6位随机数作为
新
列
、
我
的
数据
框中有大量
数据
,现在我想尝试插入具有6位随机数
的
新
列
。我已经尝试过lit(randrange(99999))不能像预期
的
那样工作,它产生
的
值小于6位数,并且
对
整个
数据
帧
产生了静态值。
浏览 11
提问于2021-08-12
得票数 0
回答已采纳
1
回答
从ORC文件创建外部配置单元表
的
方法
、
、
、
用于创建表
的
查询: create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件
的
模式详细信息(摘自DataFrame
Spark
-SQL)
浏览 28
提问于2020-04-30
得票数 0
2
回答
PySpark
数据
帧
的
最佳实践-删除多个
列
?
、
、
、
假设有人想要从
数据
帧
中删除一
列
。可以在不创建
新
数据
帧
的
情况下做到这一点吗?看起来创建一个
新
的
数据
帧
更安全,更正确,
对
吗?通过重用如上所述
的
数据
帧
可能会遇到什么问题?如果重用
数据
帧
是一种糟糕
的
做法,假设有人想要
浏览 21
提问于2019-11-22
得票数 0
1
回答
将
Spark
DataFrame中
的
JSON解析
为
新
列
、
、
、
背景------------------------------------------------------------------------ |name |, s"""{"lunch": "sushi", "dinner": "lasagna", "snack": "apple"}""")).toDF("name",
浏览 34
提问于2019-10-25
得票数 0
回答已采纳
1
回答
在pyspark
的
regexp_replace函数中使用字典
、
、
、
我想使用字典
对
pyspark dataframe
列
执行regexp_replace操作。字典:{'RD':'ROAD','DR':'DRIVE','AVE':'AVENUE',....}字典将有大约270个
键值
对
。输入
数据
帧
:1 | 22, COLLINS RD 3
浏览 0
提问于2018-05-08
得票数 1
2
回答
函数
将
R类型转换为星点类型。
、
、
、
、
我有一个R
数据
框架,我想把它转换成远程集群上
的
星火
数据
帧
。我已经决定将我
的
数据
框架写到一个中间
的
csv文件中,然后使用sparklyr::
spark
_read_csv()读取该文件。我这样做是因为
数据
帧
太大,不能直接使用sparklyr::sdf_copy_to()发送(我认为这是由于Livy中
的
限制)。我想通过编写一个函数来编程地
将
数据
帧
中使用
浏览 0
提问于2019-03-28
得票数 0
回答已采纳
1
回答
为什么"groupBy agg count alias“不创建
新
列
?
、
、
alias("count")) .limit(3)它在以下行失败:.orderBy(df("count").desc),说明没有这样
的
列
浏览 2
提问于2018-11-08
得票数 0
2
回答
PySpark
将
IntegerTypes转换为ByteType进行优化
、
、
、
我通过拼图文件
将
大量
数据
读入到
数据
帧
中。我注意到大量
的
列
都有1,0,-1作为值,因此可以从Int类型转换为Byte类型,以节省内存。我写了一个函数来做这件事,并返回一个
新
的
dataframe,其中
的
值被转换为字节,但是当在UI中查看dataframe
的
内存时,我发现它只是保存为原始dataframe
的
转换,而不是
新
的
dataframe本身,因此占用了相同
的
浏览 3
提问于2018-02-01
得票数 5
1
回答
将
ascii字符添加到
spark
中
的
数据
帧
、
、
、
当前有一个
数据
帧
,我想在最后一行中放置一个ASCII字符。我有一个大约有17
列
的
pandas
数据
帧
,并创建了一个带有
新
行
的
新
数据
帧
。]) newrow.loc[0] = [chr(26),'','','','','','','','',
浏览 9
提问于2020-07-08
得票数 0
点击加载更多
相关
资讯
Apache Spark 2.4 内置的 Avro 数据源实战
基于 TiSpark 的海量数据批量处理技术
关于Hadoop,你该知道的
ChatGPT 可以伪造令人信服的医疗数据,新的研究表明,它可以将欺诈性数据假冒为真实数据
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券