腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
可以
在
Scala
列表
或
映射
中
保留
多个
DataFrames
以
进行
迭代
处理
吗
、
、
我有3个
DataFrames
,每个都有50列和数百万条记录。我需要在上面的
DataFrames
上应用一些常见的转换。目前,我将这些
DataFrames
保存在
Scala
列表
中
,并
迭代
地对它们执行操作。 我的问题是,
在
Scala
Collection中
保留
大的
DataFrames
是
可以
的,还是会有任何与性能相关的问题。如果是,
以
迭代
的方式
处理
浏览 21
提问于2020-07-01
得票数 1
回答已采纳
1
回答
星火
scala
编码标准
、
、
我正在与社区接触,
以
了解
scala
中
以
某些方式编写代码的影响。我收到了一些评论,我觉得需要讨论。我来自传统的Java和OOP背景,我在这里写我的观点和问题。如果你能配合你的智慧,我将不胜感激。我
在
一个Spark1.3.0环境
中
。
在
Spark
中
存在着分布式数据结构,如RDDs和
DataFrames
。但是,如果我有一个存储作业参数的实用程序
映射</em
浏览 2
提问于2016-12-07
得票数 0
回答已采纳
3
回答
为什么可变的和不可变的ListMaps
在
Scala
中有不同的顺序?
、
如果您获得scalatest-1.6.1.jar和junit-4.9.jar,则
可以
使用以下测试 { val map
浏览 0
提问于2011-09-24
得票数 9
回答已采纳
6
回答
Scala
Map实现保持条目的插入顺序?
、
、
、
在
Java语言中,我使用LinkedHashMap来实现这一目的。Java的LinkedHashMap文档非常清楚,它具有“可预测的
迭代
顺序”,我也需要在
Scala
中使用同样的顺序。
Scala
有ListMap和LinkedHashMap,但是关于它们具体做什么的文档很少。 问:
Scala
的LinkedHashMap
或
ListMap是用于此目的的实现
吗
?
浏览 4
提问于2010-10-01
得票数 45
回答已采纳
5
回答
用Java编写多线程
映射
迭代
器
、
我有一个通用的
映射
迭代
器:如下所示: privatepublic T next() { }现在,考虑到action.process()可能很费时,我希望通过使用
多个
线程并行
处理
输入项来获得性能我希望分配一个N个工作线程池,并将项分配给这些线程<em
浏览 1
提问于2015-01-06
得票数 13
回答已采纳
1
回答
Scala
中元组的Python
列表
、
、
我使用Jython执行python代码部分(包含现有代码库
中
的实用函数的python模块),它返回一个元组
列表
,但我
在
scala
中
得到的是一个简单的扁平
列表
。任何关于这个原因的建议都会有帮助。由于我是
Scala
和Jython的初学者,这可能不是解决问题的最佳方法。
浏览 2
提问于2015-06-30
得票数 2
回答已采纳
1
回答
Flink:实现DataStream和“规则集”之间的“连接”
、
每个流事件必须对照“规则集”
中
的所有记录
进行
检查,而且每次匹配都会将一个
或
多个
事件生成到接收器数据流
中
。规则集中的记录数
在
6位范围内。目前,我们只是将规则加载到本地规则
列表
中
,并在传入的flatMap上使用DataStream。
在
flatMap
中
,我们只是
迭代
一个
列表
,将每个事件与每个规则
进行
比较。为了加快
迭代
速度,我们还
可以
将
浏览 1
提问于2018-06-04
得票数 0
回答已采纳
3
回答
在
Groovy
中
查找
列表
中
重复项的有效方法
、
我
以
以下方式构建了groovy
映射
:list2 = [ "val7" "val8" ]map["key1"] = list1map["key3&
浏览 4
提问于2022-06-19
得票数 2
回答已采纳
2
回答
将自定义函数应用于星火数据访问组
、
、
、
、
换句话说,我不需要逐行
处理
数据,而是按(LicensePlate/UberRide)分组的所有行。整个工作流程如下所示:
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
2
回答
Spark
中
两个任务之间的时间间隔
、
、
我正在使用spark
中
的
迭代
将数据插入到hive表
中
。 例如:假设有10000个条目,首先这些条目被分成5个
列表
,每个
列表
有2000个条目。在那之后,我会对这5个
列表
进行
迭代
。
在
每次
迭代
中
,2000个项目
映射
到更多的行,因此
在
迭代
结束时,将15M条记录插入到hive表
中
。每次
迭代
在
40分钟内完
浏览 0
提问于2018-09-14
得票数 2
1
回答
如何以分布式方式
处理
耗时的任务?
、
、
我们需要
处理
多个
节点需要花费大量时间(解析大量xml文件并将数据插入到db)的任务。节点不会很多,我们甚至要从一个节点开始。我目前的想法是: 每个节点获取整个文件
列表
并对其
进行
洗牌。然后,每个节点使用.putIfAbsent(..)
迭代
浏览 3
提问于2012-08-15
得票数 3
2
回答
将星火数据分割成分区,并并行地将这些分区写入磁盘。
、
、
、
问题概要:假设我
在
AWS
中
的EMR集群上使用spark
处理
了300+ GB的数据。该数据有三个属性,用于
在
Hive
中
对文件系统
进行
分区:日期、时间和(比方说) anotherAttr。我将它们收集到驱动程序上的一个
列表
中
,并对
列表
进行
迭代
,为每个组合构建一个新的DataFrame,使用行数来对DataFrame
进行
重新分区
以
估计文件大小,并使用DataFrameW
浏览 0
提问于2020-05-09
得票数 0
回答已采纳
2
回答
Java 8 streams -
列表
的收集和流
映射
、
、
我有一个
列表
的地图,并希望收集所有的值,然后流上收集的
列表
,所以给:-下面的工作/展示了我想要做的
迭代
,但我想在流
中
完成这一切,而不是使用
迭代
创建中间
列表
: List< PublicationSession> publicationsToFilter = new ArrayListp.getPu
浏览 3
提问于2017-04-25
得票数 2
回答已采纳
2
回答
当斯帕克呼叫ShuffleBlockFetcherIterator时发生了什么?
、
有人知道这里到底发生了什么
吗
?
浏览 0
提问于2015-12-17
得票数 15
4
回答
地图也能成为集合
吗
?
、
、
或者更具体地说,我希望能够
迭代
Map
中
的条目,包括特定键有
多个
条目的情况。我试图解决的具体问题是提供一个
可以
在
jstl中使用的对象,既
可以
使用c:forEach
迭代
,也
可以
在
像${a.b.c}这样的表达式中使用。
在
本例
中
,我希望${a.b.c}计算为c的第一个值(如果没有,则为null ),但也能够使用<c:forEach items="${a.b.c}">
迭
浏览 0
提问于2012-01-26
得票数 3
3
回答
我
可以
在
星火中并行写
多个
DataFrames
吗
?
、
、
、
、
我有一个问题,我想顺序地用avro格式写很多数据,我
在
for循环中使用下面的代码。另外,当我检查星火用户界面
中
的活动执行器的数量时,我看到只有一个执行器正在被使用。 是否
可以
在
星火中并行地编写
DataFrames
?如果是的话,我这样做好吗?
浏览 12
提问于2022-08-18
得票数 2
3
回答
多只熊猫数据的交集
、
、
、
、
我
在
一个
列表
中有一些数据(100),如下所示:每个dataframe都有两个列DateTime,Temperature。我希望
在
普通的DateTime列上交叉所有的数据,并将它们的所有Temperature列组合/合并成一个大数据:来自df1的温度、来自df2的温度、来自df3的温度、来自df100的温度。(熊猫merge不工作,因为我需要计算
多个
(99)个成对的交叉口)。
浏览 2
提问于2016-11-10
得票数 6
回答已采纳
2
回答
从字符数组合并键值
列表
的有效方法
、
、
、
、
在
我们的一个应用程序的核心,我们必须合并键值
列表
。因为这个合并函数总是被调用,所以它必须尽可能快。用内存换取额外的速度是
可以
接受的。注意,键和值由'=‘分隔,键值对
可以
由字符#13和#10的任意组合分隔。 输出中键值对的顺序并不重要。如果其中一个输入包含一个重复的键,则
保留
该副本是
可以
的。但是,只
保留
一个键也是
可以
接受的,因为首先不应该有重复的键。如果原始和更
浏览 1
提问于2011-10-16
得票数 4
回答已采纳
1
回答
在
scala
中
如何基于动态输入值调用方法?
、
、
、
、
设想情况如下:另一个类包含独立方法的实现,
以
相应地
处理
这些输入值。有没有办法
在
Scala
中
处理
这个问题? 我们
可以
使用ENUM和case逻辑,但寻找更好的方法来做到这一点?例如
Scala
反射API
或
使用case类。
浏览 0
提问于2018-02-25
得票数 0
回答已采纳
1
回答
管理存储
在
文件
中
的python结构,就像它们存储在内存中一样?
、
、
我想
以
这样一种方式管理许多文件,即文件
保留
在磁盘上,而我的应用程序使用部分数据。1. create my own lib that uses mem-mappingDask似乎是个不错的选择,但我找不到让
浏览 4
提问于2020-12-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Spark强势崛起
教程:Apache Spark SQL入门及实践指南!
pyspark 安装
Python容器类型,有哪些使用小技巧?
你可能不知道的10个Python Pandas的技巧和特性(下)
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券