腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(97)
视频
沙龙
2
回答
Spark
基于
特定
列
将
多行
合
并为
单行
,
无需
groupBy
操作
、
、
、
、
我有一个像下面这样有7k
列
的
spark
数据框架。通过执行
groupBy
操作
,我可以将其合
并为
单行
,但此聚合的性能非常差,因为我的表中有7k
列
。import pyspark.sql.functions as F at org.apache.
spark
.sql.ca
浏览 31
提问于2020-07-11
得票数 0
1
回答
pyspark
groupby
使用字符串
groupby
键在输出中生成
多行
、
pyspark
groupby
操作
不会为大型数据集生成唯一的组键 .
groupBy
('key') \例如,上面的查询返回
groupBy
列
(键)的
多行
。
groupby
列
(‘key’)的数据类型为字符串。我通过执行以下
操作
将
输出存储在CSV中 new_df.write.format("csv&qu
浏览 12
提问于2019-11-12
得票数 0
回答已采纳
4
回答
PySpark数据帧
将
列
熔化为行
、
、
、
、
正如本主题所描述的,我有一个PySpark数据帧,需要将三
列
合
并为
行。每一
列
本质上代表一个类别中的一个事实。最终目标是
将
数据聚合到每个类别的单个总计中。此数据帧中有数千万行,因此我需要一种在
spark
集群上执行转换的方法,而
无需
将任何数据带回驱动程序(在本例中为Jupyter)。90| +-----------+----------------+-----------------+----------------+ 以下是所需的结果数据帧,每个存储
多行
,其中原始数据帧的
浏览 7
提问于2019-03-27
得票数 5
回答已采纳
2
回答
将
JSON插入Hadoop
、
、
、
、
我是否需要使用hive
并为
我的JSON创建Avro方案?或者,我是否需要将JSON作为字符串插入到
特定
列
中?
浏览 0
提问于2018-06-19
得票数 0
2
回答
什么是Oracle中的偏斜
列
、
、
、
我发现了我的查询的一些瓶颈,它只从单个表中选择数据,然后需要时间和现在我在网上发现了一些概念,比如倾斜的
列
,那么它是什么呢以及倾斜的
列
如何影响查询的性能?
浏览 1
提问于2016-02-20
得票数 3
3
回答
如何从文本文件中读取整数值并统计每个值在pyspark中出现的次数
、
、
我想从下面显示的文本文件中读取,遍历每个单独的数字,并确定哪个数字出现的次数最多。我怎么才能在pyspark中做这件事呢?这是txt文件 1.4142135623 7309504880 1688724209 6980785696 7187537694 8073176679 7379907324 7846210703 8850387534 3276415727 3501384623 0912297024 9248360558 5073721264 4121497099 9358314132 2266592750 5592755799 9505011527 8206057147 010955997
浏览 18
提问于2019-11-15
得票数 0
1
回答
Azure数据库中每个核任务数的优化
、
、
、
、
项目概览
浏览 2
提问于2019-02-19
得票数 0
3
回答
在Hadoop上使用MapReduce还是
Spark
进行批处理?
、
、
、
但是,
Spark
也可以用作Hadoop上的批处理框架,与MapReduce相比,它提供了可伸缩性、容错性和高性能。那么,我想知道在Hadoop上使用
Spark
作为批处理框架的当前挑战是什么? 有什么想法吗?
浏览 2
提问于2014-10-31
得票数 5
5
回答
计算数据帧组内的差异
、
(但很明显,同一日期
将
显示在许
多行
中,因为它将出现在多个代码行中,而相同的日期
将
显示在多个行中,因为它将出现在多个日期中。) 在每个组中,按其date
浏览 6
提问于2013-12-18
得票数 65
回答已采纳
2
回答
Spark
中的最佳实践来过滤数据,对结果数据执行不同的
操作
,然后
将
新的数据返回
、
、
由于我刚开始使用
Spark
,所以我想问一个关于我在
Spark
中使用的模式的问题,但是不知道这是否是一种糟糕的实践(根据过滤器
将
数据分割成两部分,对它们执行不同的
操作
,然后将它们重新加入)。true).join(otherDf, Seq(id), "left_anti").distinct() 由于我的原始数据格式有很
多行
在其他情况下,我甚至需要执行3,4个过滤器,然后将不同的
操作
应用于单个数据帧,然后
浏览 6
提问于2022-09-29
得票数 2
7
回答
将
PySpark数据框
列
聚合值存储到变量中
、
因此,当我尝试获取事件的不同计数时 _ date,结果是一个整数变量,但是当我尝试获取同一
列
的max时,结果是一个dataframe。我想了解哪些
操作
会导致数据帧和变量。我还想知道如何
将
事件日期的最大值存储为变量 生成整数类型的代码: loop_cnt=test1.select('event_date').distinct().count() type(loop_cnt
浏览 147
提问于2016-05-03
得票数 5
回答已采纳
1
回答
熊猫:备用数据,群组和日期时间扩展到新的数据?
、
、
现在,我执行了几个
groupby
操作
(=countifs),这些
操作
的条件是“pub_day”。同样,在所有正确的情况下,这些都是很好的和汇总的数字。现在出现了一个问题:接下来我想要做的是以连续格式将计算正确的
groupby
操作
写成新的dataframe df2中的新
列
,这意味着在“pup_day”中添加丢失天数的行,并删除第二次包含
特定
日期的此类行FYI:当我在第一个df中为
groupby
操作
添加一个新
列
时,当
浏览 1
提问于2016-03-14
得票数 2
回答已采纳
4
回答
星火结构流自动
将
时间戳转换为本地时间
、
、
、
、
我的时间戳在UTC和ISO8601中,但是使用结构化流,它会自动转换为本地时间。有办法阻止这种转换吗?我想把它放在世界协调时。输入:流动: .builder() .appName("my-app") .readStream() .format("
浏览 0
提问于2018-02-13
得票数 24
回答已采纳
2
回答
在星火中选择不同的卡桑德拉
、
、
CASSANDRA:SELECT DISTINCT key1, key2, key3 FROM schema.table;中的查询速度相当快,但是在RDD或
spark
.sql中放置相同类型的数据筛选器会非常缓慢地检索结果例如:var t1 = sc.cassandraTable("schema","table").select("key1", "key2", "key3").distinct() var t2 =
sp
浏览 0
提问于2018-04-27
得票数 1
回答已采纳
10
回答
什么是
spark
中的RDD
、
、
、
从这个链接:它提到: 我对RDD的理解以及与
spark
和hadoop的关系真的很困惑。
浏览 91
提问于2015-12-23
得票数 46
回答已采纳
4
回答
Scala火花:键/值结构的扁平数组
、
我有一个输入数据,其中包含一个数组类型的
列
。数组中的每个条目都是由一个键(大约四个值中的一个)和一个值组成的结构。我希望将其转换为一个数据帧,每个可能的键都有一个
列
,并在该行的数组中没有该值的情况下取消该值。键在任何数组中都不会被复制,但它们可能会出现故障或丢失。flattened = df .
groupBy
-但一
列
--上的组合会是什么。如果找到密钥是一个问
浏览 10
提问于2020-05-08
得票数 4
回答已采纳
13
回答
用PySpark加载CSV文件
、
、
、
、
file.csv') .collect() 虽然我的CSV文件是多
列
的。
浏览 31
提问于2015-02-28
得票数 125
回答已采纳
4
回答
如何在增量表中删除重复项?
、
、
有一个从增量表中删除数据的函数:deltaTable.delete(col("date"
浏览 2
提问于2020-05-08
得票数 3
4
回答
在Oracle中处理修订
、
、
我从"DataNode“读取所有内容,当发生更改时,我
将
当前条目写出到"DataNode_Revisions”,然后修改现有的"DataNode“记录。合乎道理? 这是最好的方法吗?我假设
将
所有这些都放在一个表中会导致大量的性能损失,不是吗?我的意思是,我会将记录的数量增加四倍以上,而现在已经有相当多了。但是,很少会发生写
操作
。"DataNode_Revisions“只在偶然的情况下被读取。我只是担心维护这么多表。"DataNode“是大约25个表中的一个,与这个表非常相似。
浏览 0
提问于2010-11-24
得票数 9
回答已采纳
2
回答
大数据信号分析:更好的存储和查询信号数据的方法
、
、
、
、
0.0,4.0,250.0,35.0 ... 10.0000126 S003 2015/04/22T16:00:00.034Z 0.0,0.0,200.0,00.0 ... 600.0
将
聚合函数应用于信号值FROM SIGNALS选择峰值超过1000.0的信号。
将
聚合应用于聚合FROM SIGNALS GROUP B
浏览 6
提问于2016-04-24
得票数 11
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
数据质量和验证检查
一个Python大数据处理利器:PySpark入门指南
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
ZJU的第七十九天
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券