腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
循
环中
的
联合
spark
数据
集
、
、
我正在尝试将一个
数据
集
追加到循
环中
的
一个空
数据
集
。但结果
数据
集
始终为空。 我试图通过执行代码中
的
第1行注释来消除循
环中
的
变量failedRows,但是仍然得到了空
的
failedRows
数据
集
。failedRows.union(filteredDs);//Line 2
浏览 8
提问于2019-12-13
得票数 0
回答已采纳
1
回答
相似
数据
集
上
的
联合
操作
我想对具有相同结构(相同名称和列类型)
的
小型
数据
集
执行
联合
操作,以获得一个大型
数据
集
。如何在JAVA /
SPARK
中做到这一点?PS :我尝试过使用union(),但是这个方法只接受一个
数据
集
,而不接受我想要
的
数据
集
联合
列表。谢谢
浏览 9
提问于2021-04-17
得票数 1
回答已采纳
2
回答
Spark
联合
列顺序
、
、
、
我最近在
Spark
遇到了一些奇怪
的
事情。据我所知,根据
spark
dfs
的
基于列
的
存储方法,列
的
顺序实际上没有任何意义,它们就像字典中
的
键。 在df.union(df2)期间,列
的
顺序重要吗?,但
数据
似乎是按照原始
数据
帧
的
顺序连接
的
。这仅仅是因为它是pyspark.sql
的
一部分,或者是因为
Spark
中有一些我在理解上搞砸了
的
底
浏览 3
提问于2019-07-09
得票数 26
回答已采纳
1
回答
将流
数据
集
追加到
Spark
中
的
批处理
数据
集
、
、
、
我们在
Spark
中有一个用例,我们希望将历史
数据
从
数据
库加载到
Spark
,并不断向
Spark
添加新
的
流
数据
,然后我们可以对整个最新
数据
集
进行分析。据我所知,
Spark
SQL和
Spark
Streaming都不能将历史
数据
与流
数据
结合起来。然后我发现
Spark
2.0中
的
结构化流媒体似乎就是为这个问题而构建
的
。
浏览 0
提问于2016-10-03
得票数 3
1
回答
Spark
联合
使用1个长时间运行
的
任务需要很长时间
、
、
嗨,在我
的
spark
工作中,在某个阶段,我正在合并(
联合
)3个
数据
集
,每个
数据
集
有300个分区。这是包含900个任务
的
作业
的
联合
阶段。如您所见,有一个任务
的
运行时间超过一个小时。我知道不看
数据
很难弄清楚,但这种情况有什么共同
的
原因和解决它
的
指导方针吗?
浏览 4
提问于2021-02-01
得票数 0
1
回答
StructuredStream中流和批处理
数据
帧/
数据
集
的
联合
、
我正在努力使流式和批处理
数据
文件
的
联合
操作。但是,我发现了以下错误: 这个特性在
浏览 0
提问于2019-08-23
得票数 1
回答已采纳
1
回答
我应该缓存还是不缓存统一
的
数据
帧?
、
、
、
我不熟悉
Spark
中
的
缓存。 我需要在一个循
环中
做多个DF
联合
。每个
联合
增加几百万行。我应该在每个
联合
后df.cache我
的
结果吗?Database4", "Database5", "Database6", "Database7", "Database8", "Database9", "Database10") var df = getDF(
浏览 15
提问于2019-09-11
得票数 0
回答已采纳
1
回答
PySpark序列化结果在星火循
环中
太大
的
OOM
、
、
、
我很难理解为什么不能运行一个转换,在等待了这么多分钟(有时是几个小时)之后,转换返回“序列化结果太大”
的
错误。在转换中,我有一个日期列表,我在for循
环中
迭代这些日期,以便在特定
的
时间间隔内进行增量计算。Date_list = [All weeks from: '2021-01-01',
浏览 12
提问于2022-01-22
得票数 2
1
回答
使用不同
的
sampleIds和位置组合两个VCF文件
、
、
I具有不同sampleIds和位置
的
多个VCF
数据
集
:contigName |start | end | names | referenceAllele | alternateAlleles由于
数据
安全
的
原因,我需要在DataBricks (pyspark/scala)环境中工作。我引用了文档
的
内容和想法:
spark
.read.format("vcf")
浏览 1
提问于2021-09-30
得票数 1
1
回答
如何使用
spark
2.1将
联合
数据
帧并行到一个
数据
帧
、
、
我希望将
联合
数据
放入另一个
数据
帧
的
foreach循
环中
,但似乎丢失了一些
数据
。本地set master(“/** *”)会丢失
数据
,set master("local1")不会丢失
数据
。**/import scala.util.Random import org.a
浏览 6
提问于2019-08-01
得票数 0
回答已采纳
1
回答
在循
环中
将
spark
数据
集
(以增量方式)与更大
的
数据
集合并
、
、
、
我有一个大约1000万个键
的
列表,作为字符串列表(“xxx”,“yyx”……)。我想查询一个
数据
库,在一个循
环中
获取这10M个键
的
记录,因为它一次可以处理最多1M个键。
数据
库返回记录
的
数据
集
。所以我想单独调用1M个键,最后
联合
所有键
的
输出。(
spark
.sparkContext.emptyRDD[(Array[Byte])])
浏览 2
提问于2021-07-23
得票数 1
2
回答
提高
Spark
SQL处理数十亿行
数据
的
性能
、
、
、
在我
的
公司项目中,我需要使用
Spark
SQL将一个超过十亿行
的
数据
集
与另一个大约一百万行
的
数据
集
进行交叉连接。由于使用了交叉连接,我决定将第一个
数据
集
分成几个部分(每个部分大约有2.5亿行),并将每个部分与百万行
的
部分进行交叉连接。然后我使用了“
联合
所有”。 现在,我需要提高连接进程
的
性能。我听说可以通过对
数据
进行分区并将工作分配给
Sp
浏览 56
提问于2020-01-08
得票数 0
1
回答
联合
+窗口与联接+窗口+ dropDuplicates
的
火花/火花效率
、
、
、
、
我
的
任务是对两个表/星火
数据
执行窗口聚合(即根据表2中
的
输入日期t-,回顾表1中
的
t-x)。参数使用变通方法,因为我
的
spark
版本目前还没有更新为≥版本3.1.0。解决方法
的
基础是在每个
数据
文件中创建在执行unionByName之前不存在
的
列(基于此)。我目前了解到,
spark
中
的
联接操作通常效率很低,因为它们往往需要在合并之前对
数据
集
进行排序和洗牌,
浏览 5
提问于2022-10-15
得票数 1
回答已采纳
1
回答
从循
环中
的
Spark
数据
集中读取行
数据
、
、
、
我想用Java在循
环中
读取
spark
数据
集
行,并且我必须在其中读取其他
数据
集
。假设ds是
数据
集
,如果如下所示
的
写入循环,我可以读取其他
数据
集
ds.toJavaRDD().collect().forEach() 但我删除了collect()和JavaRDD()并直接应用 ds.foreach() 那么我就不能读取其他
数据
集
。
浏览 48
提问于2021-08-26
得票数 1
2
回答
如何并行化
数据
帧分区上
的
操作
、
、
我希望将
数据
帧重新分区为多个分区,并将每个分区元素作为list传递给返回
spark
dataset
的
数据
库api调用。 val result =
spark
.readcustom.databse") .load最后
浏览 2
提问于2021-07-06
得票数 1
1
回答
如何在星火中并行运行重复任务而不是按顺序循环?
、
、
我刚刚开始使用星火,我知道应该避免使用非功能性
的
顺序循环方式,这样才能使我获得最大
的
性能。var myNewDF = sqlContext.createDataFrame(sc.emptyRDD[Row], minority_set.schema) for (myNewDF.unionAll(sqlContext.createDataFrame(sc.parallelize(makeD
浏览 1
提问于2017-06-07
得票数 0
回答已采纳
1
回答
“DataFrame”对象没有属性“orderby”
、
、
、
、
我在我
的
应用程序上使用了azure
数据
。并且我使用ML来执行推算。在我得到结果之后,我想要加入和
联合
,使它成为一个完整
的
数据
集
,这样我就可以将它写入blob存储。df3 =
spark
.sql(""" FULL OUTER JOIN df2 df5 =
spark
浏览 4
提问于2020-09-22
得票数 1
1
回答
有没有一种方法可以在分区
的
spark
数据
集
上并行运行操作?
、
、
、
我有一个
数据
集
的
列表,我希望按所有
数据
集
共有的特定键进行分区,然后运行一些连接/分组,这对所有分区
的
数据
集
都是相同
的
。我正在尝试以这样一种方式设计算法:我使用
Spark
的
partitionBy根据特定
的
键创建分区。 现在,一种方法是在循
环中
对每个分区运行操作,但效率不高。我想看看我是否有手动分区
的
数据
,我可以在这些<e
浏览 0
提问于2019-07-02
得票数 1
1
回答
如何在scala中访问和合并未来类型
的
多个DataFrame
、
、
、
、
我有
spark
scala应用程序。我正在尝试使用它内部
的
Futures来并行化几个独立
的
操作
集
。我在期货中调用它们,它们返回给我未来类型
的
DataFrame,我如何在最后合并它们,并在任何未来类型无法计算
的
情况下抛出错误。下面是我
的
代码。当我尝试在onComplete块中应用
数据
帧
的
联合
时,它显示以下错误 value union is not a member of scala.concurrent.Future[
浏览 2
提问于2020-01-22
得票数 0
1
回答
循环mysql select查询时
的
Union结果
、
、
、
我想从一个循环select语句
的
过程中返回一个
数据
集
。在我
的
特殊情况下,我尝试获取两个日期之间每个日期
的
每行
的
值。@today = DATE_ADD(NOW(),INTERVAL +1 DAY);当包装在proc中并被调用时,我会在每个循
环中
返回一个单独
的
数据
集
我想要一个单一
的
数据
集
,所有的
浏览 0
提问于2012-08-01
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark机器学习入门实例:大数据集二分类
Spark如何读取一些大数据集到本地机器上
心血来潮系列之一——利用spark将数据集转化为Tensorflow的tfrecords格式
大数据技术,Spark详细介绍,Spark和Hadoop的区别
Spark中的数据缓存和数据持久化机制。
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券