腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5156)
视频
沙龙
0
回答
读取
Spark
问
题中
的
大文件
-
python
、
我在本地使用
python
安装了
spark
,并且在运行以下代码时:data.first()$.writeUTF(PythonRDD.scala:622) at org.apache.
spark
.api.
python
.PythonRDD$.org$apache$
spark
$api$
python
$.writeUTF(PythonRDD.scala:622
浏览 13
提问于2016-06-30
得票数 7
回答已采纳
4
回答
csv数据可以变得懒惰吗?
、
、
、
使用
Python
的
csv模块,是否可以将整个大
的
csv文件
读取
到列表
的
惰性列表中? 我之所以这样
问
,是因为在Clojure中有csv解析模块,可以解析一个
大文件
并返回一个惰性序列(序列序列)。我只是想知道在
Python
中这是否可能。
浏览 3
提问于2012-06-20
得票数 5
回答已采纳
1
回答
在S3中合并大量小csv文件(不同列大小)
的
最佳方法
、
、
、
我有一大堆小
的
csv文件(每个大约15kb )。这些csv文件具有不同
的
标头。我想将它们合并到一个包含所有列
的
csv文件中。最终,合并后
的
csv文件可能会超过100 be。我从s3下载这些csv文件到EMR集群,然后使用
Spark
代码合并这些csv文件,并尝试使用
python
代码合并它们。从我所做
的
实验来看,
Python
代码比
Spark
运行得更好,但不是idea。有没有更好
的
主意?谢谢。
浏览 3
提问于2018-06-07
得票数 1
1
回答
如何在Kafka topic中流式传输100G
的
数据?
、
、
因此,在我们
的
一个kafka主
题中
,有接近100 GB
的
数据。我们正在运行
spark
-structured来获取S3格式
的
数据
问
:
spark
-streaming如何从Kafka
读取
数据?是否从当前偏移量中获取整个数据?或者是成批接受一定大小
的
产品?
浏览 0
提问于2018-12-20
得票数 3
1
回答
如何在MySQL表中捕获新
的
插入
、
我想捕获提交到
Python
表中
的
新插入,并在MySQL中处理这些记录。 例如:在一个"Order“表中,每次客户下订单时都会插入一条新记录。我想实时捕捉对Table所做
的
更改,并在
Python
中处理它,以便例如将此记录写入csv文件。 要做到这一点,最佳
的
方法是什么?我在考虑每秒运行一个脚本,跟踪表
的
总计数,每当计数上升时,我就拉出最新
的
x行。但也许有一种更简单、更可靠
的
方法? 干杯!
浏览 10
提问于2021-07-28
得票数 0
回答已采纳
2
回答
通过
Spark
读取
Hive表
的
最佳方法是什么?
、
、
、
我从Hive表执行
Spark
读取
,执行时间很长(15分钟)。我对优化查询执行感兴趣,所以我想知道这些查询
的
执行是否使用了Hive
的
执行引擎,通过这种方式,它类似于在Hive编辑器中执行查询,或者
Spark
使用Hive Metastore只知道文件
的
位置,然后直接处理文件\ .appName("src_count") \ .config('
spark
.execut
浏览 1
提问于2019-07-29
得票数 2
回答已采纳
1
回答
使用DStream接口从Kafka
读取
Spark
Straming中
的
时间戳
、
、
、
、
我想从Kafka主
题中
读取
使用
Python
的
Spark
streaming
的
值。我使用
的
是带有
spark
-streaming-kafka-0-8支持
的
DStream应用程序接口(尽管已被弃用)。我
的
代码如下: from pyspark import SparkContext, SparkConffrom", &q
浏览 22
提问于2020-04-30
得票数 0
2
回答
使用
Spark
框架实现
大文件
上传
、
我正在尝试使用将
大文件
上传到web应用程序,但遇到内存不足错误。看起来
spark
正在内存中缓存请求正文。我想要么将文件上传缓存到磁盘上,要么将请求作为流
读取
。我尝试过使用Apache Commons FileUpload
的
,但似乎调用request.raw().getInputStream()会导致
Spark
将整个正文
读取
到内存中,并返回该内存块
的
InputStream视图,就像所做
的
那样。根据文件中
的
注释,这是为了可以多次调用get
浏览 1
提问于2016-04-06
得票数 0
2
回答
使用pyspark批处理作业
读取
Kafka
的
最新记录
、
我正在pyspark中执行一个批处理作业,其中
spark
将每5分钟
读取
一次kafka主
题中
的
数据。df =
spark
\ .format("kafka") \ .test") \ .option("startingOffsets", "earliest")
浏览 2
提问于2020-03-04
得票数 0
1
回答
在hadoop
python
中处理多个文件
、
、
、
、
我有一个场景,文本分隔
的
文件每30分钟从不同
的
服务器(大约10)到达hadoop系统。 我希望将数据聚合到10个文件中。这样
的
大文件
应该单独合并还是单独处理?我希望这个解决方案能在
python
中实现,但是希望使用hadoop中
的
任何工具/技术
的
解决方案。
浏览 1
提问于2017-04-16
得票数 0
1
回答
星星之火wholeTextFiles():java.lang.OutOfMemoryError: Java堆空间
、
、
、
我正在使用
spark
.wholeTextFiles()处理一个400‘m
的
文件,并不断地摆脱内存错误。我首先在一个文件文件夹中使用了这个API,该文件夹总共有40 my,我想知道我
的
代码是否适用于
大文件
,这就是
大文件
的
来源。这是配置,我想我为堆提供了足够
的
RAM,但仍然没有运气,我只是
读取
文件夹,然后用命令是 火花提交-驱动程序-内
浏览 1
提问于2017-10-21
得票数 1
2
回答
当
Spark
消费者
读取
时,Kafka主题不会被刷新
、
、
我在
Spark
中使用以下消费者代码来
读取
Kafka主题: .read .option("kafka.bootstrap.serversload() .as[(String, String)] 代码按预期从主
题中
读取
,但主题
的</
浏览 1
提问于2019-01-12
得票数 0
1
回答
如何调整"
spark
.rpc.askTimeout"?
、
我们有一个
spark
1.6.1应用程序,它从两个kafka主
题中
获取输入,并将结果写入另一个kafka主题。应用程序在第一个输入主
题中
接收一些
大文件
(大约1MB),在第二个输入主
题中
接收一些简单
的
条件。如果满足条件,则将该文件写入输出topic else保持状态(我们使用mapWithState)。对于数量较少(几百个)
的
输入文件,该逻辑可以很好地工作,但对于org.apache.
spark
.rpc.RpcTimeoutException,建议增加<
浏览 44
提问于2016-09-07
得票数 5
1
回答
独立Pyspark错误:打开
的
文件太多
、
我有大约40 on
的
数据(大约80M条记录,仅2列,文本),并对这些数据进行了不同
的
计数。我可以在AWS上
的
r5a.4xlarge实例上成功运行它。大约需要。3分钟后返回结果。但是,当我将实例更改为一个更大
的
实例r5a.12xlarge时,当我运行相同
的
代码时,我得到了"Too code Files“错误。我为
spark
会话尝试了几种不同
的
配置,都不起作用。此外,我将LINUX打开文件
的
限制增加到4096个,没有变化。下面是代码和错误
浏览 29
提问于2020-04-21
得票数 1
1
回答
火花速度性能
、
我有用于单机
的
程序(在
Python
中),也为
Spark
实现了同样
的
程序。这个程序基本上只
读取
一个字段并将其保存回来
的
.json。使用
Spark
,我
的
程序在一个主程序和一个从程序上运行慢大约100倍,然后运行单个节点标准
的
Python
程序(当然,我从文件中
读取
并保存到那里)。所以,我想问一
问
,问题可能在哪里?我
的
星火计划看起来是: sc = SparkContext
浏览 1
提问于2014-10-18
得票数 0
回答已采纳
1
回答
在HDFS中存储1000个1 1GB
的
文件和1个1000 1GB
的
文件以供
Spark
进一步使用
的
区别是什么?如果有的话,哪一个更好?为什么?
、
我简单地使用
Spark
将数据从Mongo传输到HDFS,按某个字段对其进行分区,以便按该字段将其存储在不同
的
文件夹中。我正在尝试理解我是否应该指定"maxRecordsPerFile“,或者以某种方式划分一个由我
的
作业写入到每个文件夹
的
大文件
,或者我应该只在每个文件夹中写入一个文件。我知道HDFS块
的
概念,HDFS会把
大文件
分成块等等。我想知道
读取
1个
大文件
和1000个不是很大(但仍然比块大得多)
的
文件之间
浏览 17
提问于2020-11-09
得票数 1
2
回答
JSON从斯巴克核心读到巨蟒
、
、
、
、
我已经在网上搜索过了,但是找不到合适
的
答案,所以我会在这里问一
问
。import urllib, jsondata["result"]["data1"] 我在另一个主
题中
找到了上面的内容,但我可能缺乏经验
浏览 1
提问于2015-03-09
得票数 1
回答已采纳
1
回答
Spark
Structured Streaming with Kafka source,在查询运行时更改主题分区
的
数量
、
、
、
、
我设置了一个从Kafka主题
读取
的
Spark
结构化流查询。如果在
Spark
查询运行时更改了主
题中
的
分区数量,
Spark
似乎不会注意到,并且不会消耗新分区上
的
数据。除了停止和重新启动查询之外,有没有办法让
Spark
检查同一主
题中
的
新分区?
spark
浏览 32
提问于2019-11-08
得票数 0
1
回答
python
中
的
xarray有文件大小限制吗?
、
、
时间序列中超过300万点
的
大文件
(3.2GB)。一个小文件,在时间序列中有9999点(9.8MB)。此代码将打开小文件。ds = xr.open_dataset(smallfile, chunks={'rec': 3600}, decode_times=False)这里发生什么事情?我还应该查些什么? 提前谢谢。
浏览 6
提问于2017-02-16
得票数 1
回答已采纳
3
回答
如何将HDFS小文件合并为一个
大文件
?
、
、
、
我有从Kafka流生成
的
小文件
的
数量,所以我喜欢合并小文件到一个单一
的
文件,但这种合并是基于日期,即原始文件夹可能有以前
的
文件数量,但我只喜欢合并给定
的
日期文件到一个单一
的
文件。 有什么建议吗?
浏览 9
提问于2018-07-26
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python利用Pandas分块读取大文件
python如何读取大文件以及分析时的性能优化小技巧
【Python】文件的读取
18G的大文件,PHP咋按行读取?
使用Spark将本地文件读取并封装为DataFrame的完整指南
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券