可以在Scala列表或映射中保留多个DataFrames以进行迭代处理吗

、、

我有3个DataFrames，每个都有50列和数百万条记录。我需要在上面的DataFrames上应用一些常见的转换。目前，我将这些DataFrames保存在Scala列表中，并迭代地对它们执行操作。我的问题是，在Scala Collection中保留大的DataFrames是可以的，还是会有任何与性能相关的问题。如果是，以迭代的方式处理

浏览 21提问于2020-07-01得票数 1

回答已采纳

1回答

星火scala编码标准

、、

我正在与社区接触，以了解scala中以某些方式编写代码的影响。我收到了一些评论，我觉得需要讨论。我来自传统的Java和OOP背景，我在这里写我的观点和问题。如果你能配合你的智慧，我将不胜感激。我在一个Spark1.3.0环境中。在Spark中存在着分布式数据结构，如RDDs和DataFrames。但是，如果我有一个存储作业参数的实用程序映射</em

浏览 2提问于2016-12-07得票数 0

回答已采纳

3回答

为什么可变的和不可变的ListMaps在Scala中有不同的顺序？

、

如果您获得scalatest-1.6.1.jar和junit-4.9.jar，则可以使用以下测试 { val map

浏览 0提问于2011-09-24得票数 9

回答已采纳

6回答

Scala Map实现保持条目的插入顺序？

、、、

在Java语言中，我使用LinkedHashMap来实现这一目的。Java的LinkedHashMap文档非常清楚，它具有“可预测的迭代顺序”，我也需要在Scala中使用同样的顺序。Scala有ListMap和LinkedHashMap，但是关于它们具体做什么的文档很少。问:Scala的LinkedHashMap或ListMap是用于此目的的实现吗？

浏览 4提问于2010-10-01得票数 45

回答已采纳

5回答

用Java编写多线程映射迭代器

、

我有一个通用的映射迭代器:如下所示： privatepublic T next() { }现在，考虑到action.process()可能很费时，我希望通过使用多个线程并行处理输入项来获得性能我希望分配一个N个工作线程池，并将项分配给这些线程<em

浏览 1提问于2015-01-06得票数 13

回答已采纳

1回答

Scala中元组的Python列表

、、

我使用Jython执行python代码部分(包含现有代码库中的实用函数的python模块)，它返回一个元组列表，但我在scala中得到的是一个简单的扁平列表。任何关于这个原因的建议都会有帮助。由于我是Scala和Jython的初学者，这可能不是解决问题的最佳方法。

浏览 2提问于2015-06-30得票数 2

回答已采纳

1回答

Flink:实现DataStream和“规则集”之间的“连接”

、

每个流事件必须对照“规则集”中的所有记录进行检查，而且每次匹配都会将一个或多个事件生成到接收器数据流中。规则集中的记录数在6位范围内。目前，我们只是将规则加载到本地规则列表中，并在传入的flatMap上使用DataStream。在flatMap中，我们只是迭代一个列表，将每个事件与每个规则进行比较。为了加快迭代速度，我们还可以将

浏览 1提问于2018-06-04得票数 0

回答已采纳

3回答

在Groovy中查找列表中重复项的有效方法

、

我以以下方式构建了groovy映射：list2 = [ "val7" "val8" ]map["key1"] = list1map["key3&

浏览 4提问于2022-06-19得票数 2

回答已采纳

2回答

将自定义函数应用于星火数据访问组

、、、、

换句话说，我不需要逐行处理数据，而是按(LicensePlate/UberRide)分组的所有行。整个工作流程如下所示： 

浏览 2提问于2016-09-20得票数 10

回答已采纳

2回答

Spark中两个任务之间的时间间隔

、、

我正在使用spark中的迭代将数据插入到hive表中。例如:假设有10000个条目，首先这些条目被分成5个列表，每个列表有2000个条目。在那之后，我会对这5个列表进行迭代。在每次迭代中，2000个项目映射到更多的行，因此在迭代结束时，将15M条记录插入到hive表中。每次迭代在40分钟内完

浏览 0提问于2018-09-14得票数 2

1回答

如何以分布式方式处理耗时的任务？

、、

我们需要处理多个节点需要花费大量时间(解析大量xml文件并将数据插入到db)的任务。节点不会很多，我们甚至要从一个节点开始。我目前的想法是：每个节点获取整个文件列表并对其进行洗牌。然后，每个节点使用.putIfAbsent(..)迭代

浏览 3提问于2012-08-15得票数 3

2回答

将星火数据分割成分区，并并行地将这些分区写入磁盘。

、、、

问题概要:假设我在AWS中的EMR集群上使用spark处理了300+ GB的数据。该数据有三个属性，用于在Hive中对文件系统进行分区:日期、时间和(比方说) anotherAttr。我将它们收集到驱动程序上的一个列表中，并对列表进行迭代，为每个组合构建一个新的DataFrame，使用行数来对DataFrame进行重新分区以估计文件大小，并使用DataFrameW

浏览 0提问于2020-05-09得票数 0

回答已采纳

2回答

Java 8 streams -列表的收集和流映射

、、

我有一个列表的地图，并希望收集所有的值，然后流上收集的列表，所以给：-下面的工作/展示了我想要做的迭代，但我想在流中完成这一切，而不是使用迭代创建中间列表： List< PublicationSession> publicationsToFilter = new ArrayListp.getPu

浏览 3提问于2017-04-25得票数 2

回答已采纳

2回答

当斯帕克呼叫ShuffleBlockFetcherIterator时发生了什么？

、

有人知道这里到底发生了什么吗？

浏览 0提问于2015-12-17得票数 15

4回答

地图也能成为集合吗？

、、

或者更具体地说，我希望能够迭代Map中的条目，包括特定键有多个条目的情况。我试图解决的具体问题是提供一个可以在jstl中使用的对象，既可以使用c:forEach迭代，也可以在像${a.b.c}这样的表达式中使用。在本例中，我希望${a.b.c}计算为c的第一个值(如果没有，则为null )，但也能够使用<c:forEach items="${a.b.c}">迭

浏览 0提问于2012-01-26得票数 3

3回答

我可以在星火中并行写多个DataFrames吗？

、、、、

我有一个问题，我想顺序地用avro格式写很多数据，我在for循环中使用下面的代码。另外，当我检查星火用户界面中的活动执行器的数量时，我看到只有一个执行器正在被使用。是否可以在星火中并行地编写DataFrames？如果是的话，我这样做好吗？

浏览 12提问于2022-08-18得票数 2

3回答

多只熊猫数据的交集

、、、、

我在一个列表中有一些数据(100)，如下所示：每个dataframe都有两个列DateTime，Temperature。我希望在普通的DateTime列上交叉所有的数据，并将它们的所有Temperature列组合/合并成一个大数据:来自df1的温度、来自df2的温度、来自df3的温度、来自df100的温度。(熊猫merge不工作，因为我需要计算多个(99)个成对的交叉口)。

浏览 2提问于2016-11-10得票数 6

回答已采纳

2回答

从字符数组合并键值列表的有效方法

、、、、

在我们的一个应用程序的核心，我们必须合并键值列表。因为这个合并函数总是被调用，所以它必须尽可能快。用内存换取额外的速度是可以接受的。注意，键和值由'=‘分隔，键值对可以由字符#13和#10的任意组合分隔。输出中键值对的顺序并不重要。如果其中一个输入包含一个重复的键，则保留该副本是可以的。但是，只保留一个键也是可以接受的，因为首先不应该有重复的键。如果原始和更

浏览 1提问于2011-10-16得票数 4

回答已采纳

1回答

在scala中如何基于动态输入值调用方法？

、、、、

设想情况如下：另一个类包含独立方法的实现，以相应地处理这些输入值。有没有办法在Scala中处理这个问题？我们可以使用ENUM和case逻辑，但寻找更好的方法来做到这一点？例如Scala反射API或使用case类。

浏览 0提问于2018-02-25得票数 0

回答已采纳

1回答

管理存储在文件中的python结构，就像它们存储在内存中一样？

、、

我想以这样一种方式管理许多文件，即文件保留在磁盘上，而我的应用程序使用部分数据。1. create my own lib that uses mem-mappingDask似乎是个不错的选择，但我找不到让

浏览 4提问于2020-12-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

星火scala编码标准

为什么可变的和不可变的ListMaps在Scala中有不同的顺序？

Scala Map实现保持条目的插入顺序？

用Java编写多线程映射迭代器

Scala中元组的Python列表

Flink:实现DataStream和“规则集”之间的“连接”

在Groovy中查找列表中重复项的有效方法

将自定义函数应用于星火数据访问组

Spark中两个任务之间的时间间隔

如何以分布式方式处理耗时的任务？

将星火数据分割成分区，并并行地将这些分区写入磁盘。

Java 8 streams -列表的收集和流映射

当斯帕克呼叫ShuffleBlockFetcherIterator时发生了什么？

地图也能成为集合吗？

我可以在星火中并行写多个DataFrames吗？

多只熊猫数据的交集

从字符数组合并键值列表的有效方法

在scala中如何基于动态输入值调用方法？

管理存储在文件中的python结构，就像它们存储在内存中一样？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐