腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7838)
视频
沙龙
1
回答
如何实时调优spark
作业
?
、
、
如
何在
pyspark
中
调整spark
结构化
流式
作业
期间
的
内存核心消耗?
浏览 18
提问于2020-08-06
得票数 0
1
回答
如
何在
pyspark
中
的
结构化
流式
作业
中
运行
映射
转换
、
我正在尝试使用map()
转换
来设置一个
结构化
的
流
作业
,该
转换
可以进行REST API调用。\.start() 但是,我得到了一个错误:带有流源
的
查询必须在第
浏览 20
提问于2020-10-07
得票数 0
4
回答
对HDFS文件
的
一部分
运行
MR
作业
假设您有一个大文件存储在hdtf
中
,其中包含
结构化
数据。现在
的
目标是只处理文件
中
的
一部分数据,就像文件
中
第二列值介于so和so之间
的
所有行一样。是否可以启动MR
作业
,使hdfs仅
流式
传输文件
的
相关部分,而不是将所有内容
流式
传输到
映射
器。 原因是我想通过只处理我需要
的
部分来加快工作速度。可能一种方法是
运行
MR
作业
来创建一个新文件,
浏览 0
提问于2012-01-26
得票数 1
回答已采纳
1
回答
Spark结构流
作业
被卡住数小时而未被杀死
、
、
、
、
我有一个
结构化
的
流式
作业
,从kafka读取,执行聚合和写入hdfs。该
作业
在yarn
中
以群集模式
运行
。我使用
的
是spark2.4。每隔2-3天,这项工作就会卡住。它不会失败,但会卡在某个微批处理
中
。当我终止
流式
作业
并重新启动时,该
作业
再次开始正常
运行
。如何解决这个问题?
浏览 34
提问于2020-10-03
得票数 0
1
回答
spark structured streaming和batch
的
接收器相同吗?
、
、
、
、
一个是批处理
作业
,另一个是
结构化
流式
作业
。两者都写入相同
的
文件接收器。两者具有相同
的
架构。但是,当从该接收器读取数据时,spark仅读取由
流式
作业
创建
的
文件,并跳过由批处理
作业
创建
的
文件。然而,这并不总是可能
的
,因为在下一个微批spark中将在那里创建另一个_spark_metadata文件夹。如
何在
spark
中
读取此接收器
中
<
浏览 13
提问于2020-05-20
得票数 0
3
回答
HBase有自己
的
结构化
数据(在HDFS上)还是可以对HDFS上
的
非
结构化
数据执行
、
、
我正在切割我
的
牙齿进入Hadoop生态系统,并对MR,纱线和HDFS相当了解。 我正在探索生态系统
的
其他部分。我相信HiveQL可以以类似于SQL
的
方式在HBase上
运行
,而且几乎是实时
的
。如果是这样的话,我认为有必要将HDFS上
的
非
结构化
数据
转换
为
结构化
数据,以便在HQL
中
运行
相对较快
的
查询。这是否意味着数据以非
结构化
形式以HDFS形式存在,然后以
结构化
浏览 1
提问于2015-08-30
得票数 0
2
回答
亚马逊MapReduce无reducer
作业
、
、
、
我正在尝试通过AWS (
流式
作业
)创建一个仅限
映射
器
的
作业
。reducer字段是必需
的
,所以我给出了一个虚拟
的
可执行文件,并将-jobconf mapred.map.tasks=0添加到额外
的
参数框
中
。在我安装
的
hadoop环境(版本0.20)
中
,不会启动任何reducer
作业
,但在AWS
中
,虚拟可执行文件启动并失败。 如
何在
AWS
中</
浏览 0
提问于2009-12-31
得票数 9
回答已采纳
1
回答
pyspark
结构化
流式
处理不使用query.lastProgress或其他标准指标更新查询指标
、
、
我正在尝试将日志记录添加到我
的
pyspark
结构化
流应用程序
中
,以便查看每个微批处理
的
进度和统计数据。writestream方法使用foreach编写器将数据帧
中
的
行写入postgres数据库。我正在使用.lastProgress和其他由
pyspark
提供
的
标准指标来记录日志。writestream方法和我
的
日志尝试如下所示。query_progress) print("status ", que
浏览 15
提问于2020-11-18
得票数 2
回答已采纳
2
回答
是否可以在Azure上远程
运行
流式
映射
reduce
作业
?
、
、
、
、
如何使用C#在Azure群集上远程
运行
流式
映射
Reduce
作业
?我
的
映射
器和缩减程序都是用Java或C++编写
的
。.Net C# SDK
的
作业
执行方法在输入
中
接受JobType,因此我无法指定基于C++和Java
的
映射
器/减少器
的
类型。还有另一个类StreamingProcessExecutor,它看起来适合我
的
情况,但是没有在输入<e
浏览 1
提问于2013-08-19
得票数 0
2
回答
如何阻止spark
结构化
流媒体每次列出S3存储桶
中
的
所有文件
、
我在
pyspark
上有一个
结构化
的
流式
作业
,它在filesource上做一些聚合。我有一个kinesis firehose将来自IoT类型应用程序
的
数据组合在一起,并将S3位置上
的
数据作为每分钟一个文件存储在以下文件夹结构
中
的
不同文件夹
中
-我
的
spark结构流
作业
似乎列
浏览 2
提问于2018-06-15
得票数 8
1
回答
流式
作业
失败-状态架构不兼容问题
、
我
的
流
作业
现在失败了,错误如下,流
作业
几乎工作了2个月,而且它是完全无状态
的
转换
,只需要将新行追加到目标增量表
中
。在
流式
传输之前,我手动提供了csv文件
的
模式,甚至验证了
流式
作业
模式和下游表模式都与数据类型完全匹配。return_value = getattr(self.pool[
浏览 2
提问于2021-06-11
得票数 1
2
回答
5分钟Spark批处理
作业
与流
作业
、
我正在试着找出什么是更好
的
方法。 我有一个火花批处理
作业
,这是计划
运行
每5分钟,它需要2-3分钟来执行。由于已经添加了对动态分配spark.streaming.dynamicAllocation.enabled
的
支持,将其设置为每5分钟从源拉取数据
的
流式
作业
是一个好主意吗?在流/批处理
作业
之间进行选择时,我应该记住哪些事项?
浏览 0
提问于2019-07-24
得票数 0
1
回答
Azure Databricks存储或数据湖
、
、
我正在创建一个
结构化
的
流式
作业
,它将其数据存储在databricks增量数据库
中
。我面临
的
选择是将检查点位置和来自增量数据库
的
数据存储在以下两个位置之一
中
: 1.正常
的
dbfs位置,
如
“/”和“delta.mydatabase”2.来自数据湖
的
挂载目录,
如
“/mnt/mydatalake/delta.mycheckpointlocation”
浏览 4
提问于2018-11-20
得票数 1
1
回答
优化命令对
结构化
流式
作业
正在写入
的
Delta lake表没有帮助
、
我有一个
结构化
的
流式
作业
,它从事件中心读取,并将增量湖表作为/mytablepath写入,该表存储在Azure blob存储
中
。在过去两个月
的
生产
运行
中
,它已经在存储
中
创建了大约1000个小文件,每个文件只有2-3行。我尝试在增量湖表(Path)上
运行
优化命令,但即使在blob存储上文件数量没有减少,且当我在notebook
中
的
表上
运行
任何查询时,它仍然
浏览 1
提问于2020-02-20
得票数 1
1
回答
使用Spark每小时消费一个Kafka主题
、
、
、
我想批量消费一个Kafka主题,我想每小时阅读一次Kafka主题,并阅读最新
的
每小时数据。kafka.bootstrap.servers", hostAddress) .load() 但它总是读取前20个数据行,而这些行是从头开始
的
,所以它永远不会选择最新
的
数据行。如何使用scala和spark每小时阅读最新
的
行?
浏览 4
提问于2021-03-10
得票数 0
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的
分布式数据结构,
如
RDD、DataFrame、Datasets、vector等。Spark有自己
的
转换
操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中<
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
能实现什么?
、
、
我正在阅读Hadoop教程,并得出以下浅显
的
理解。有人能帮我确认一下我
的
理解是否正确吗? from input_file map(
浏览 3
提问于2015-11-12
得票数 0
回答已采纳
1
回答
PySpark
打印到控制台
、
、
在dataproc服务器上
运行
PySpark
作业
时,如下所示我
的
打印记录没有出现在我
的
终端上。在云上
运行
作业
时,有没有办法将数据输出到
PySpark
中
的
终端上?
浏览 0
提问于2016-05-24
得票数 10
回答已采纳
2
回答
无法导入模块'lambda_function':没有名为'
pyspark
‘
的
模块
、
、
我正在尝试使用AWS Lambda函数
运行
我
的
PySpark
作业
代码。下面是错误:无法导入模块'lambda_function':没有名为'
pyspark
‘
的
模块 我
的
PySpark
工作具有以下导入。那么,我如何将下面的库导入到我
的
Lambda函数
中
呢?如
何在
Lambda函数
中
安装这些?from
pyspark
.sql import
浏览 0
提问于2018-12-11
得票数 0
2
回答
将命令行参数提交给气流
中
的
pyspark
作业
。
、
、
我在GCP Dataproc上有一个可以在气流
中
触发
的
火花放电
作业
,如下所示: "placement": {"cluster_name": "my_cluster_name&qu
浏览 13
提问于2022-03-25
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
一个Python大数据处理利器:PySpark入门指南
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
如何在CDH集群上部署Python3运行环境及运行Python作业
0483-如何指定PySpark的Python运行环境
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券