腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
映射
和
过滤
RDD
时
传递
多个
参数
?
、
、
我现在有这行代码来
过滤
并将一个函数应用到
RDD
。data_to_update.
rdd
.map(find_differences).filter(lambda row: bool(row)) 我想修改find_differences函数,使其除了row之外还接受另一个
参数
unique_id。
浏览 14
提问于2021-05-08
得票数 0
回答已采纳
1
回答
如
何在
星火中定义全局读\写变量
Spark有broadcast变量(它们是只读的)
和
accumulator变量(这些变量可以由节点更新,但不能读取)。是否有办法--或者解决办法--定义一个既可以更新又可以读取的变量?当文件作为
rdd
加载
和
处理
时
,将执行计算。这些计算的结果--在几个并行运行的节点中进行--需要放在一个
映射
中,该
映射
具有正在处理的实体的一些关键属性。当
rdd
中的后续实体被处理
时
,缓存将被查询。Scala确实有ScalaCache,它是缓存实现(
如
Goo
浏览 0
提问于2016-04-04
得票数 12
回答已采纳
3
回答
使用
RDD
从CSV文件中
过滤
数据
、
我对Spark还不熟悉,并试图找出如
何在
具有
多个
条件的
RDD
中使用筛选器,并获得records.Scenario的计数如下: 我不需要使用DataSet/DataFrame解决方案,而只需要使用
RDD
与地图
和
过滤
器。 任何帮助都很感激。
浏览 1
提问于2018-10-12
得票数 0
回答已采纳
1
回答
火花流--基于滤波器Param的输入流分割的最佳方法
、
、
、
、
对于机器学习
和
异常检测的数据预处理,我想根据一些滤波器
参数
来分割流。到目前为止,我已经了解到,DStreams本身不能被分成几个流。我主要面临的问题是,许多算法(
如
KMeans)只接受连续数据,而不是像url或其他字符串那样的离散数据。 我很乐意得到任何关于如何处理我的问题的建议。
浏览 3
提问于2017-07-04
得票数 3
回答已采纳
1
回答
星火ALS predictAll返回空
、
、
、
、
我有以下Python测试代码( ALS.train的
参数
在其他地方定义): r2 = (3, 1) modelmodel.predictAll(test) print predictions.count()这是可行的,因为它对预测变量
和
输出的计数为1:1 ParallelCollectionRDD[2691] at parallelize at Py
浏览 4
提问于2016-05-22
得票数 6
回答已采纳
1
回答
如何将不同的数据集
传递
给同一作业的两个不同的
映射
器
、
、
、
我有一张地图,SingleGroupIdentifierMapper.java说现在我的问题是,我现在有来自
多个
来源的输入,有不同的格式。,我从驱动程序类
传递
给
映
浏览 2
提问于2015-09-23
得票数 0
3
回答
Apache :一个地图任务中的
多个
输出
、
有办法在一次
传递
数据的过程中得到三幅地图吗?我试图在一个大文件中列出的单词
和
特性之间计算PMI。getFeaturesFromLine(line)}) 然后我重复一遍,分别得到单词计数
和
特征计数在寻找如何做到这一点的过程中,我看到了关于将结果保存到磁盘
时
的
多个
输出的问题(没有帮助),我还看到了一些关于累加器(看起来不像我所需要的)的问题,但仅此而已。还要注意的是,我不能在一个
浏览 8
提问于2016-02-02
得票数 3
1
回答
任务不可序列化异常
、
at org.apache.spark.SparkContext.clean(SparkContext.scala:1623) at test.scala.org.<redacted>.NQTest$.testDatasets(NQTest.scala:31) 与我在这里看到的关于这个异常的其他堆栈溢出问题不同,这似乎是关于
RDD
本身,而不是我
传递
给
过滤<
浏览 1
提问于2015-06-17
得票数 0
1
回答
火花DataFrame RangePartitioner
、
、
如果我使用RangePartitioner对两者进行分区,df_b.partitionByRange($"A") 来自这两个数据文件的数据将如
何在
节点之间分布我很难理解的是,星火如何将df_a的一个分区
映射
到df_b的分区,以及如何将这两个分区发送到同一台机器进行处理。
浏览 0
提问于2018-10-26
得票数 3
回答已采纳
3
回答
关于Apache火花内部部件的问题- RDDs
我有几个关于星火内部的问题,特别是
RDD
。基于文档中的内容,RDDs的谱线图是DAG结构。 在节点下降并需要重新计算分区数据的情况下,会发生什么情况?执行的步骤的确切顺序是什么?
浏览 6
提问于2016-02-03
得票数 0
1
回答
如何提高火花性能?
、
、
、
、
该方案是做什么的:我的主要方法是: JavaSparkContext sc = new JavaSparkContext(sparkConf); // read text file to
RDD
浏览 6
提问于2020-05-22
得票数 3
回答已采纳
1
回答
Redux-saga pass查询
和
POST主体选项
、
、
、
、
在将数据显示在React应用程序之前,我正在尝试对数据进行
过滤
。当我通过查询试用邮递员
时
,一切都是正确的。我会附上一张邮差的照片 我尝试过一些解决方案,但它们并不适用于您,
如
所附代码所示。getServicesSupportList = () => api.post(url.GET_SERVICES_SUPPORT_LIST); 就像你在
浏览 11
提问于2022-11-07
得票数 1
回答已采纳
1
回答
如
何在
Vue 3中设置具有
多个
动态
参数
的动态路由(Vue Router)
、
、
、
、
使用Vue 3
和
Vue Router,如何创建具有
多个
动态
参数
的动态路由? 这些
参数
需要能够以任何顺序
传递
。让我们假设我们有一个名为"Products“的视图,我们的客户端有
多个
过滤
器选项,当他们
过滤
某些东西
时
,这些
过滤
器被
传递
到URL中。它们可以
传递
0个
参数
或10+
参数
。这取决于他们在
过滤
什么。假设用户可以像下面这样
浏览 188
提问于2021-02-16
得票数 0
回答已采纳
1
回答
基于星火中的一个函数连接两个没有公用密钥的
RDD
从两个
RDD
开始,内容如下: 有没有一个更快,更有空间效率的方式加入这些
RDD
基于最短的有-新距离?
浏览 3
提问于2016-03-27
得票数 3
回答已采纳
1
回答
通用JavaSAML2.0令牌使用者API
、
、
我已经实现了一个Java
过滤
器,它使用提供的Java使用来自PingFederate ( PF )服务器的令牌。这使我的应用程序能够在PF SSO设置中为服务提供者应用程序提供服务。agent-config.txt");MultiMap将是令牌属性的
映射
,如果没有向请求
参数
传递
令牌,则为null。现在我所要做的就是将属性
映射
到我的应用程序用户模型。代理-config
浏览 5
提问于2010-04-30
得票数 0
1
回答
如
何在
SSRS2005URL中
传递
多值
参数
及如何将报表直接保存到excel
、
、
我的第一个问题是如
何在
ssrs报表URL中
传递
多值
参数
。例如,
传递
给report url的简单
参数
对我来说工作得很好。,但如何为同一
参数
传递
多个
值,
如
等谢谢
浏览 3
提问于2011-12-03
得票数 0
回答已采纳
1
回答
Scala广播加入“一对多”关系
、
、
我对Scala
和
RDDs相当陌生。我有一个非常简单的场景,但它似乎很难用RDDs实现。 为什么我的joinedRDD类型在创建之后没有被识别,这样我就可以继续使用它上的复
浏览 1
提问于2018-03-15
得票数 0
回答已采纳
2
回答
斯派克
、
、
、
假设我们有两个集群
和
1000个点,并且我们希望在集群中运行它,其中包含两个从节点
和
一个主节点。我认为第一个函数(最近的)可以被认为是
映射
器,而第二个函数是组合函数,但是最后一个函数应该做什么呢?
浏览 3
提问于2014-07-07
得票数 2
回答已采纳
2
回答
在Spark/Scala中array.map
和
rdd
.map有什么不同?
、
我发现
RDD
的map函数生成map任务,而数组的map函数不生成任何新任务,reduce函数也是如此。
浏览 0
提问于2016-09-14
得票数 2
2
回答
火花闭合
参数
绑定
、
我在Scala
和
Apache一起工作。下面是一段简单的代码,它显示了我所看到的问题的类型。我不太理解Spark闭包的
参数
绑定规则。 我真正要寻找的是一种基本的方法或模式,用于如何使用另一个
RDD
的内容(以前是
浏览 6
提问于2015-10-17
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据架构&数据应用/分析&机器学习(二)
大数据技术,Spark之RDD,RDD的两种算子介绍
Spark之数据倾斜
什么是 Spark RDD?
从Storm到Flink:大数据处理的开源系统及编程模型
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券