腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
spark
scala
类型
与
groupbykey
中
的
zipwithIndex
不
匹配
、
、
我正在尝试测试
groupByKey
,以找到某一科目的第n个最高分 我
的
数据如下所示
scala
> a | }).take(15).
浏览 14
提问于2019-02-03
得票数 0
回答已采纳
2
回答
在星火中“by”和“`union`”后面跟着“`
groupByKey
`”
的
区别?
、
、
、
、
我找不到一个很好
的
理由:应有别于:但是,后者给了我一个错误,而前者没有。如果绝对需要的话,我可以提供一个例子,但是我想从函数抽象
的
角度来了解。我问过的人都不能给我一个很好
的
解释。
浏览 2
提问于2015-12-13
得票数 0
回答已采纳
1
回答
影响preservesPartitioning RDD真/假给出了相同
的
mapPartitions结果
、
、
不错
的
散文,但它真正意味着什么呢?这里是一个人为
的
琐碎例子,不管我是否将true或false传递给mapPartitions,对于新
的
RDD,每个分区
的
数据分区仍然是相同
的
,即使我改变了K,V
的
K值,那么,意义是什么呢?一定是我错过了一些基本
的
东西。import org.apache.
spark
.HashPartitionerdef myfunc(iter: Iterator[
浏览 0
提问于2020-01-02
得票数 2
回答已采纳
2
回答
针对
Scala
中
的
某个特定ID向数据文件添加值
、
、
我有以下数据:1 Ali swl3 Ahad khi以及(1,2,1)这样
的
值列表:我想在ID == 3
中
添加这些值。
浏览 3
提问于2020-05-03
得票数 0
回答已采纳
1
回答
坚持编写一个多态转置函数,该函数接受并返回数组或Seqs/Vectors
的
RDDs
、
、
、
我正在重构一个
与
Spark
接口
的
Scala
库,以便在有意义
的
地方使用Vectors。我想提供直接
与
Spark
接口
的
函数,可以使用数组或向量。其中一个函数是转置函数。然而,我似乎不能获得正确
的
类型
签名来使
类型
推断工作。 我尝试过用下面的方法定义函数签名,但这似乎行不通,而是在我以String Vector RDDs为例运行测试时,给出了以下关于
类型
推断
的
消息。def
浏览 19
提问于2019-05-23
得票数 0
1
回答
Scala
和
Spark
中
的
"zip“方法是什么?
、
在
Scala
、
Spark
和许多其他“大数据”-type框架、语言、库
中
,我看到了名为"zip*“
的
方法。例如,在
Scala
中
,List
类型
有一个固有的
zipWithIndex
方法,您可以这样使用:for((name,i) <- listOfNames.
zipWithIndex
) { println(s"Names
浏览 0
提问于2018-05-17
得票数 1
回答已采纳
3
回答
scala
:用重载拉皮条库
、
}a foreach { (el, i) => println(el, i) }; 当我使用fsc 2.8.1编译它时,我得到以下错误:“错误
的
参数数目我是不是做错了什么,或者根本没有办法通过“给我
的
库拉皮条”来添加一个重载
的
方法?附注:我不想知道如何实现foreach
的
带有当前索引
的
迭代风格(我知道
zipWithIndex
方法),而是想知道重载和隐式转换是如何一起发挥作用
的
。
浏览 1
提问于2010-12-19
得票数 2
回答已采纳
1
回答
循环中
的
Scala
计数器在运行时引发问题
我有以下在REPL
中
很好地工作
的
函数,本质上它所做
的
是检查模式
的
数据
类型
,并在我稍后将文件平铺和
zipWithIndex
时将其
匹配
到列: at org.apache.
spark
.de
浏览 1
提问于2015-06-23
得票数 0
回答已采纳
2
回答
在星火中向DataFrame添加一个新列
、
、
、
、
我希望向DataFrame
中
的
Spark
(
Scala
)
中
添加一个带有行id
的
新列。这就是我所采取
的
方法。我正在创建一个带有索引id
的
新行和一个包含了另一个StructType
的
新StructField。val rdd = df.rdd.
zipWithIndex
().map(indexedRow => Row.fromSeq(indexedRow._2.toString ++ indexedRow._1$$ano
浏览 4
提问于2016-05-02
得票数 0
回答已采纳
2
回答
如何优化
Spark
的
groupBy()操作
、
、
我
的
问题是关于RDD上
的
groupBy()操作
的
选择/优化。我有数以百万计
的
Message实例,需要基于某些ID进行分组。我使用groupBy()来实现这个目标,但我知道这是一个昂贵
的
事实,需要大量
的
处理时间。因此,我尝试了reduceByKey(func)和combineByKey()作为一种替代方案,这是在我所使用
的
一些资源中提出
的
,但是它不适合于我
的
场景,在这种情况下,我
的
需求只是分组。但是我
浏览 4
提问于2016-11-23
得票数 1
回答已采纳
1
回答
为什么我
的
星火应用程序不能运行"NoSuchMethodException: org.apache.
spark
.util.SystemClock"?
、
、
我正在尝试使用Java而不是
scala
从apache流连接到Kafka。我收到以下错误: JavaStreamingContext jssc = new Jav
浏览 3
提问于2017-06-28
得票数 0
回答已采纳
3
回答
星火
Scala
:无法从字符串转换为int,因为它可能会截断
、
、
我玩星火
的
时候得到了这个例外。线程"main“org.apache.
spark
.sql.AnalysisException
中
的
异常:不能将强制转换
的
price从string提升到int,因为它可能截断目标对象
的
类型
路径:- field(class:"
scala
.Int",name:”
scala
.Int“)- root类:"org.
spark
.code.executable.Ma
浏览 5
提问于2017-07-31
得票数 17
回答已采纳
1
回答
Spark
.toBlockMatrix得到
的
矩阵为0.0
、
、
、
我设法将数据从数据文件
中
读取并以IndexedRowMatrix和CoordinateMatrix格式存储。当我在.toBlockMatrix上使用CoordinateMatrix时,结果是一个只包含0.0
的
块矩阵,其维数
与
CoordinateMatrix相同。sc.textFile("/user/cloudera/data/data.txt").map(line => Vectors.dense(line.split(" ").map(_.toDoubl
浏览 2
提问于2016-01-06
得票数 2
回答已采纳
2
回答
如何在KeyValueGroupedDataset上使用agg()并保持
类型
安全
、
我知道这个问题以前在这里发布过,但答案对我
的
情况并不满意。 How to use the agg method of
Spark
KeyValueGroupedDataset?实际上,这里发布
的
问题
与
给定
的
内容不一致,因为它围绕
的
是数据集及其组()函数,而不是KeyValueGroupedDataset。 我正在尝试使用case类并保持
类型
安全。因此,在上面的例子
中
,答案不是
类型
安全
的
,而是在Dataframe上使用
浏览 51
提问于2021-03-26
得票数 1
回答已采纳
3
回答
火花-如何减少洗牌大小
的
JavaPairRDD<Integer,Integer[]>?
、
、
、
groupByKey
的
动作给了我一个: 从
Spark
2.0.0开始,当使用简单
类型
、简
浏览 4
提问于2017-03-11
得票数 6
回答已采纳
3
回答
通过
类型
的
大小写
匹配
根据SparkSQL
中
的
类型
转换值
、
在
Scala
中
可以
匹配
参数
类型
吗?假设我有一个函数,它接收两个参数:value和type。我想使用模式
匹配
来进行
类型
转换。=> return BigDecimal(value),我得到: 错误:模式
类型
与
预期
类型
不
兼容;找到: org.apache.
spark
.sql.types.DecimalType.type必需:org.apache.
spark
.sql.types.Da
浏览 1
提问于2016-01-06
得票数 9
回答已采纳
1
回答
java.lang.NoSuchMethodError:
scala
.Predef$.refArrayOps在
Scala
的
火花工作
、
、
、
、
完全错误: 线程"main“java.lang.NoSuchMethodError: java.lang.NoSuchMethodError
中
的
异常在org.
spark
_module.SparkModule第62行包含:for ((elem, i) <- args.
zipWithIndex
)。为了确定,我注释掉了其余
的
代码,并且错误一直显示在该行上。一开始我以为是
zipWithIndex
的
错,然后我把它改成了for (elem <- args),
浏览 0
提问于2020-05-08
得票数 4
1
回答
为什么火花会因FetchFailed错误而失败?
、
、
、
我
的
星火作业是在一个小
的
事务数据集和一个大型事件数据集之间进行关联。我想根据时间和ID (事件时间和事务时间、ID和ID)将每个事务
与
最近
的
事件
匹配
。val groupRDD = event .
groupByKey
reduce((v1,v2) => minDelay(b.dateTime,v1,v2)) SomeCl
浏览 2
提问于2016-03-10
得票数 2
1
回答
SparkSession未使用almond Jupyter初始化
、
、
、
在
spark
.ipynb图像
中
,带有NotebookSparkSession
的
行上显示错误 import $ivy.`org.apache.
spark
::
spark
-sql:2.4.0` org.apache.
spark
.sql.ammonitesparkinternals.AmmoniteSparkSessionBuilder.getOrCreate(Ammo
浏览 19
提问于2019-08-25
得票数 1
3
回答
星星之火:在集群模式下部署到OpenShift时
的
OpenShift
、
、
我正试着向我
的
星火大师提交一份星火申请。主人和几个奴隶正在一个OpenShift环境
中
运行。星火主站
的
网络UI显示了连接
的
工人。
spark
-submit2.cmd --conf "
spark
.driver.extraClassPath=/jars" --conf &qu
浏览 1
提问于2017-09-15
得票数 4
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券