读取Spark问题中的大文件- python

、

我在本地使用python安装了spark，并且在运行以下代码时：data.first()$.writeUTF(PythonRDD.scala:622) at org.apache.spark.api.python.PythonRDD$.org$apache$spark$api$python$.writeUTF(PythonRDD.scala:622

浏览 13提问于2016-06-30得票数 7

回答已采纳

4回答

csv数据可以变得懒惰吗？

、、、

使用Python的csv模块，是否可以将整个大的csv文件读取到列表的惰性列表中？我之所以这样问，是因为在Clojure中有csv解析模块，可以解析一个大文件并返回一个惰性序列(序列序列)。我只是想知道在Python中这是否可能。

浏览 3提问于2012-06-20得票数 5

回答已采纳

1回答

我有一大堆小的csv文件(每个大约15kb )。这些csv文件具有不同的标头。我想将它们合并到一个包含所有列的csv文件中。最终，合并后的csv文件可能会超过100 be。我从s3下载这些csv文件到EMR集群，然后使用Spark代码合并这些csv文件，并尝试使用python代码合并它们。从我所做的实验来看，Python代码比Spark运行得更好，但不是idea。有没有更好的主意？谢谢。

浏览 3提问于2018-06-07得票数 1

1回答

如何在Kafka topic中流式传输100G的数据？

、、

因此，在我们的一个kafka主题中，有接近100 GB的数据。我们正在运行spark-structured来获取S3格式的数据问: spark-streaming如何从Kafka读取数据？是否从当前偏移量中获取整个数据？或者是成批接受一定大小的产品？

浏览 0提问于2018-12-20得票数 3

1回答

如何在MySQL表中捕获新的插入

、

我想捕获提交到Python表中的新插入，并在MySQL中处理这些记录。例如:在一个"Order“表中，每次客户下订单时都会插入一条新记录。我想实时捕捉对Table所做的更改，并在Python中处理它，以便例如将此记录写入csv文件。要做到这一点，最佳的方法是什么？我在考虑每秒运行一个脚本，跟踪表的总计数，每当计数上升时，我就拉出最新的x行。但也许有一种更简单、更可靠的方法？干杯!

浏览 10提问于2021-07-28得票数 0

回答已采纳

2回答

通过Spark读取Hive表的最佳方法是什么？

、、、

我从Hive表执行Spark读取，执行时间很长(15分钟)。我对优化查询执行感兴趣，所以我想知道这些查询的执行是否使用了Hive的执行引擎，通过这种方式，它类似于在Hive编辑器中执行查询，或者Spark使用Hive Metastore只知道文件的位置，然后直接处理文件\ .appName("src_count") \ .config('spark.execut

浏览 1提问于2019-07-29得票数 2

回答已采纳

1回答

使用DStream接口从Kafka读取Spark Straming中的时间戳

、、、、

我想从Kafka主题中读取使用Python的Spark streaming的值。我使用的是带有spark-streaming-kafka-0-8支持的DStream应用程序接口(尽管已被弃用)。我的代码如下： from pyspark import SparkContext, SparkConffrom", &q

浏览 22提问于2020-04-30得票数 0

2回答

使用Spark框架实现大文件上传

、

我正在尝试使用将大文件上传到web应用程序，但遇到内存不足错误。看起来spark正在内存中缓存请求正文。我想要么将文件上传缓存到磁盘上，要么将请求作为流读取。我尝试过使用Apache Commons FileUpload的，但似乎调用request.raw().getInputStream()会导致Spark将整个正文读取到内存中，并返回该内存块的InputStream视图，就像所做的那样。根据文件中的注释，这是为了可以多次调用get

浏览 1提问于2016-04-06得票数 0

2回答

使用pyspark批处理作业读取Kafka的最新记录

、

我正在pyspark中执行一个批处理作业，其中spark将每5分钟读取一次kafka主题中的数据。df = spark \ .format("kafka") \ .test") \ .option("startingOffsets", "earliest")

浏览 2提问于2020-03-04得票数 0

1回答

在hadoop python中处理多个文件

、、、、

我有一个场景，文本分隔的文件每30分钟从不同的服务器(大约10)到达hadoop系统。我希望将数据聚合到10个文件中。这样的大文件应该单独合并还是单独处理？我希望这个解决方案能在python中实现，但是希望使用hadoop中的任何工具/技术的解决方案。

浏览 1提问于2017-04-16得票数 0

1回答

星星之火wholeTextFiles()：java.lang.OutOfMemoryError: Java堆空间

、、、

我正在使用spark.wholeTextFiles()处理一个400‘m的文件，并不断地摆脱内存错误。我首先在一个文件文件夹中使用了这个API，该文件夹总共有40 my，我想知道我的代码是否适用于大文件，这就是大文件的来源。这是配置，我想我为堆提供了足够的RAM，但仍然没有运气，我只是读取文件夹，然后用命令是火花提交-驱动程序-内

浏览 1提问于2017-10-21得票数 1

2回答

当Spark消费者读取时，Kafka主题不会被刷新

、、

我在Spark中使用以下消费者代码来读取Kafka主题： .read .option("kafka.bootstrap.serversload() .as[(String, String)] 代码按预期从主题中读取，但主题的</

浏览 1提问于2019-01-12得票数 0

1回答

如何调整"spark.rpc.askTimeout"？

、

我们有一个spark 1.6.1应用程序，它从两个kafka主题中获取输入，并将结果写入另一个kafka主题。应用程序在第一个输入主题中接收一些大文件(大约1MB)，在第二个输入主题中接收一些简单的条件。如果满足条件，则将该文件写入输出topic else保持状态(我们使用mapWithState)。对于数量较少(几百个)的输入文件，该逻辑可以很好地工作，但对于org.apache.spark.rpc.RpcTimeoutException，建议增加<

浏览 44提问于2016-09-07得票数 5

1回答

独立Pyspark错误:打开的文件太多

、

我有大约40 on的数据(大约80M条记录，仅2列，文本)，并对这些数据进行了不同的计数。我可以在AWS上的r5a.4xlarge实例上成功运行它。大约需要。3分钟后返回结果。但是，当我将实例更改为一个更大的实例r5a.12xlarge时，当我运行相同的代码时，我得到了"Too code Files“错误。我为spark会话尝试了几种不同的配置，都不起作用。此外，我将LINUX打开文件的限制增加到4096个，没有变化。下面是代码和错误

浏览 29提问于2020-04-21得票数 1

1回答

火花速度性能

、

我有用于单机的程序(在Python中)，也为Spark实现了同样的程序。这个程序基本上只读取一个字段并将其保存回来的.json。使用Spark，我的程序在一个主程序和一个从程序上运行慢大约100倍，然后运行单个节点标准的Python程序(当然，我从文件中读取并保存到那里)。所以，我想问一问，问题可能在哪里？我的星火计划看起来是： sc = SparkContext

浏览 1提问于2014-10-18得票数 0

回答已采纳

1回答

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

、

我简单地使用Spark将数据从Mongo传输到HDFS，按某个字段对其进行分区，以便按该字段将其存储在不同的文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“，或者以某种方式划分一个由我的作业写入到每个文件夹的大文件，或者我应该只在每个文件夹中写入一个文件。我知道HDFS块的概念，HDFS会把大文件分成块等等。我想知道读取1个大文件和1000个不是很大(但仍然比块大得多)的文件之间

浏览 17提问于2020-11-09得票数 1

2回答

JSON从斯巴克核心读到巨蟒

、、、、

我已经在网上搜索过了，但是找不到合适的答案，所以我会在这里问一问。import urllib, jsondata["result"]["data1"] 我在另一个主题中找到了上面的内容，但我可能缺乏经验

浏览 1提问于2015-03-09得票数 1

回答已采纳

1回答

Spark Structured Streaming with Kafka source，在查询运行时更改主题分区的数量

、、、、

我设置了一个从Kafka主题读取的Spark结构化流查询。如果在Spark查询运行时更改了主题中的分区数量，Spark似乎不会注意到，并且不会消耗新分区上的数据。除了停止和重新启动查询之外，有没有办法让Spark检查同一主题中的新分区？spark

浏览 32提问于2019-11-08得票数 0

1回答

python中的xarray有文件大小限制吗？

、、

时间序列中超过300万点的大文件(3.2GB)。一个小文件，在时间序列中有9999点(9.8MB)。此代码将打开小文件。ds = xr.open_dataset(smallfile, chunks={'rec': 3600}, decode_times=False)这里发生什么事情？我还应该查些什么？提前谢谢。

浏览 6提问于2017-02-16得票数 1

回答已采纳

3回答

如何将HDFS小文件合并为一个大文件？

、、、

我有从Kafka流生成的小文件的数量，所以我喜欢合并小文件到一个单一的文件，但这种合并是基于日期，即原始文件夹可能有以前的文件数量，但我只喜欢合并给定的日期文件到一个单一的文件。有什么建议吗？

浏览 9提问于2018-07-26得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

csv数据可以变得懒惰吗？

在S3中合并大量小csv文件(不同列大小)的最佳方法

如何在Kafka topic中流式传输100G的数据？

如何在MySQL表中捕获新的插入

通过Spark读取Hive表的最佳方法是什么？

使用DStream接口从Kafka读取Spark Straming中的时间戳

使用Spark框架实现大文件上传

使用pyspark批处理作业读取Kafka的最新记录

在hadoop python中处理多个文件

星星之火wholeTextFiles()：java.lang.OutOfMemoryError: Java堆空间

当Spark消费者读取时，Kafka主题不会被刷新

如何调整"spark.rpc.askTimeout"？

独立Pyspark错误:打开的文件太多

火花速度性能

在HDFS中存储1000个1 1GB的文件和1个1000 1GB的文件以供Spark进一步使用的区别是什么？如果有的话，哪一个更好?为什么？

JSON从斯巴克核心读到巨蟒

Spark Structured Streaming with Kafka source，在查询运行时更改主题分区的数量

python中的xarray有文件大小限制吗？

如何将HDFS小文件合并为一个大文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐