腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1164)
视频
沙龙
1
回答
拼接
文件
输出
Sink
-
Spark
结构化
流
、
想知道什么(以及如何修改)会触发
Spark
Sturctured
流
查询(配置了拼图
文件
输出
接收器)以将数据写入拼图
文件
。我定期提供
流
输入数据(使用StreamReader读入
文件
),但它不会为作为输入提供的每个
文件
将
输出
写入Parquet
文件
。一旦我给它提供了几个
文件
,它往往会很好地编写一个Parquet
文件
。我希望能够强制每个新的
文件
作为输入提供到拼图
文
浏览 7
提问于2019-03-28
得票数 1
1
回答
如何在非实时地使用sql在蜂窝表上进行星火
流
?
、
、
、
我们使用这个sql并调用
spark
。
spark
.sqlContext.sql(statement) // hive-metastore integration is enabled 这导致火花驱动程序占用过多内存,我们是否可以使用火花
流
(或
结构化
流
)以管道方式
流
,而不是收集驱动程序上的所有内容,然后发送给客户端?我们不想(在典型的
流
应用程序中)立即发送数据,而是希望在客户要求(拉)数据时向客户发送
流
数据。
浏览 1
提问于2020-07-12
得票数 0
1
回答
是否有可能让火花
结构化
流
(更新模式)写入数据库?
、
、
我使用
spark
(3.0.0)
结构化
流
从kafka读取主题。我使用了joins,然后使用了mapGropusWithState来获取
流
数据,因此,根据我对火花官方指南:的理解,我不得不使用更新模式。下面的火花官方指南部分没有提到DB
sink
,它也不支持为update mode:写到files 目前,我将其
输出
到console,并希望将数据存储在
文件
或DB中。因此,我的问题是:在我的情况下,如何将
流
数据写入数据库或
文件
?我是否必须将数
浏览 5
提问于2020-09-16
得票数 0
1
回答
删除
spark
-structured-streaming写入的损坏
拼接
文件
时会丢失数据吗?
、
、
、
我使用
spark
-structured-streaming作为消费者从kafka获取数据,按照指南参考https://
spark
.apache.org/docs/latest/structured-streaming-kafka-integration.html然后将数据保存到hdfs作为拼图
文件
。这是我的问题:程序运行良好,但一些容器很少失败(但它确实发生了),导致了一些损坏的
拼接
文件
。它将导致错误,如不是拼图
文件
(长度太小: 4)或[
浏览 20
提问于2019-05-25
得票数 0
1
回答
如何从
Spark
结构化
流
刷新Hive/Impala表?
、
、
、
目前,我的
Spark
结构化
流
是这样的(
Sink
部件只显示): aggregationQuery.writeStreamseconds")) .option("path", "hdfs://<myip
浏览 0
提问于2018-05-18
得票数 2
1
回答
结构化
流式传输指标性能?
、
、
、
在尝试了一些监视
结构化
流
性能和输入/
输出
指标的方法后,我发现一种可靠的方法是附加streamingQueryListener来
输出
streamingQueryProgress,以获得输入/
输出
数量。除了SparkUI,将queryProgress
输出
到
文件
或Kafka的最好方法是什么?在
spark
streaming和
spark
struc
浏览 1
提问于2018-05-19
得票数 2
3
回答
结构化
流
不会将DF写入
文件
接收器,引用/_
spark
_元数据/9.不存在紧凑
、
、
、
我的意图是使用
结构化
流
从一个Kafka主题消费,做一些处理,并存储到EMRFS/S3的拼花格式。val event =
spark
.readStream.format("kafka") sc.hadoopConfiguration.set("parquet
浏览 0
提问于2018-04-09
得票数 13
1
回答
Apache /Azure数据湖存储-精确处理
文件
一次,标记为已处理的
文件
、
、
我有一个Azure数据湖存储容器,它充当由Apache处理JSON
文件
的着陆区。
spark
.read.json("/mnt/input_location/*.json") 创建一个带有已处理的
文
浏览 2
提问于2021-04-28
得票数 3
回答已采纳
1
回答
使用
结构化
流
将所有数据一次写入parquet
文件
、
我希望将卡夫卡主题的所有聚合数据一次写到一个拼花
文件
中(或者至少在最后有一个拼花
文件
)。Dataset<Row> df =
spark
.readStream() .format("kafka")当我试图将它写到parquet时,我只会得到多个空的parquet
文件
。.config("
spark
.master", "loc
浏览 1
提问于2019-05-29
得票数 0
2
回答
如何在
流
数据集中加载tar.gz
文件
?
、
我想从tar-gzip
文件
(tgz)中进行
流
处理,其中包括我实际存储的CSV数据。当我的数据以CSV
文件
的形式出现时,我已经设法用
spark
2.2实现了
结构化
流
,但实际上,数据是以压缩的csv
文件
的形式出现的。在处理CSV
流
之前,是否有一种通过
结构化
流
执行的触发器进行解压缩的方法?,产生预期的
输出
。当我试图将这些
文件
放在给定的路径上时,我不会得到任何异常,批处理
输出</e
浏览 12
提问于2017-12-30
得票数 2
回答已采纳
1
回答
如何在
Spark
结构化
流
中控制
输出
文件
大小
、
我们正在考虑在一个项目中使用
Spark
结构化
流
。输入和
输出
是S3桶上的拼图
文件
。是否有可能以某种方式控制
输出
文件
的大小?我们的目标是
输出
文件
大小为10-100 of。据我所知,在传统的批处理方法中,我们可以根据输入数据集的大小调整分区的数量来确定
输出
文件
的大小,在
结构化
流
中类似吗?
浏览 0
提问于2019-02-14
得票数 2
2
回答
为什么完全
输出
模式需要聚合?
、
我在ApacheSpark2.2中使用了最新的
结构化
流
,并得到了以下例外: res0
浏览 1
提问于2017-08-18
得票数 19
回答已采纳
1
回答
不能在ES 6.x及以上的索引/更新请求上使用时间戳。请删除[es.mapping.timestamp]设置
、
、
我正在使用
Spark
结构化
流
写入Elasticsearch 6.2.0
Sink
: .writeStream .queryName("ElasticSink") .option("checkpointLocation", s"
浏览 3
提问于2018-09-03
得票数 1
回答已采纳
1
回答
Spark
Streaming水槽集成
、
、
在尝试了许多更改之后,我仍然遇到了将Flume自定义接收器和
Spark
Stream绑定到同一端口的问题。我使用的是Flume 1.6.0和
Spark
2.0.0。使用
Spark
+flume集成指南,我构建了.conf
文件
和
spark
.py
文件
。我首先启动flume代理,但当我尝试在同一端口上使用
Spark
-streaming (读取)时,它显示fail to bind。我尝试了多个端口,但据我所知,无法找到任何网络限制(完全权限)。
浏览 17
提问于2016-09-28
得票数 0
2
回答
查找由writeStream操作编写的记录数量: SparkListener OnTaskEnd总是在
结构化
流
中返回0
、
spark
.sparkContext.addSparkListener(new SparkListener() { "processedRowsPerSecond" : 3013.733905579399 "
sink
" : { "description" : "
浏览 0
提问于2018-07-25
得票数 3
2
回答
[
结构化
流式处理]:
结构化
流式处理到红移接收器
、
、
有没有可能将Kafka
流
源支持的数据帧写入到AWS Redshift中,我们过去曾使用写入到Redshift中,但我认为它不会与DataFrame##writeStream一起工作。我在中遇到的一种可能的方法是将
文件
写入S3,然后使用具有S3对象路径的清单
文件
调用。在
结构化
流
的情况下,我如何控制写入S3的
文件
?还有一个单独的触发器,用于在将5个
文件
写入S3后创建清单
文件
。
浏览 14
提问于2018-01-19
得票数 0
回答已采纳
1
回答
星火结构
流
文件
源启动偏移量
、
、
是否有方法为星火
结构化
文件
流
源指定起始偏移量?我正在尝试从HDFS源源不断地发送
文件
: .parquetcheckpointLocation", "/tmp/streaming-test/checkpoint") .format(&q
浏览 1
提问于2018-07-18
得票数 3
回答已采纳
3
回答
如何获取Kafka offset,用于
结构化
查询,实现手动、可靠的offset管理?
、
、
、
、
Spark
2.2引入了Kafka的
结构化
流媒体源代码。据我所知,它依靠HDFS检查点目录来存储偏移量,并保证“只传递一次”消息。但旧的docks (如)表示,
Spark
Streaming检查点不能跨应用程序或
Spark
升级恢复,因此不太可靠。如果要将Kafka源的偏移量存储到事务型DB中,如何从
结构化
流
批处理中获取偏移量?RDD转换为HasOffsetRanges来完成 val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offs
浏览 1
提问于2017-09-11
得票数 28
回答已采纳
1
回答
如何仅从
文件
中处理新记录?
、
、
我有一个处理
文件
记录的方案。
文件
中的数据定期添加(每毫秒一次)。因此,我需要读取
文件
并处理它,同时只处理新添加的记录。 private void processData
浏览 1
提问于2017-07-13
得票数 2
2
回答
WAL在星火
结构化
流
中的定位
、
、
我已经为我的
结构化
流
应用程序启用了WAL。我在哪里能找到WAL日志的位置?我能够在前缀receivedBlockMetadata中看到我的星火流进程的WAL。但是,我没有看到为
结构化
流
创建的任何前缀
浏览 2
提问于2020-02-24
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【流处理】Spark结构化流处理实例(Kafka)
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
SeaTunnel 在 oppo 的特征平台实践 | ETL 平台数据处理集成
1,StructuredStreaming简介
大数据家族成员概述
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券