腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1776)
视频
沙龙
1
回答
从kafka datastream提取不同模式的Flink写入
hudi
apache-flink
、
flink-streaming
、
apache-hudi
现在,我想使用从datastream提取的模式在
hudi
中编写数据。但是由于
hudi
管道/编写器在一开始就使用预定义的avro模式进行配置,所以我不能这样做。可能的解决方案是基于一个键创建一个密钥
流
,他们识别一种模式类型,然后从其中提取模式,然后基于它创建一个动态
hudi
管道。 我不确定最后那部分是否可能。B是基于不同模式的分区
流
。C在数据
流
B中使用该模式创建配置,并将其传递给
hudi
管道编写器函数。
浏览 9
提问于2022-10-20
得票数 0
1
回答
使用spark递增聚合
hudi
表值
apache-spark
、
pyspark
、
apache-kafka
、
spark-streaming
、
apache-hudi
我有一个火花
流
作业,每10秒加载一次apache
hudi
表中的数据。如果该行已经存在,它将更新
hudi
表中的行。实际上,它正在执行重新插入操作。但是,在
hudi
表中,有一个an列,该列也使用新值进行更新。
hudi
是否支持增量聚合,不使用外部缓存/db?
浏览 9
提问于2022-07-13
得票数 1
1
回答
每次在新一
批
火花结构流上重写
Hudi
数据。
pyspark
、
apache-kafka
、
spark-structured-streaming
、
apache-hudi
我的工作是火花结构
流
,工作消耗Kafka消息,每10秒在apache表中进行聚合和保存数据。下面的代码运行良好,但它覆盖了每个批处理上的apache表数据。我还不知道为什么会发生这种事?它是火花结构
流
还是
hudi
行为?我使用的是MERGE_ON_READ,所以表文件不应该在每次更新时删除。但不知道为什么会这样?由于这个问题,我的另一个工作失败了,看了这个表格。df.groupby('a', 'b', 'c').agg(sum('d').alias('d
浏览 3
提问于2022-07-21
得票数 0
1
回答
基于Apache
Hudi
的星火结构化
流
apache-spark
、
streaming
、
spark-structured-streaming
、
apache-hudi
我有一个需求,我需要使用结构化流到
Hudi
数据集来编写
流
。我发现在Apache问题上有这样的规定,但是我想知道是否有人成功地实现了这一点,并且有一个例子。我正在尝试使用火花结构化流来构造从AWS Kinesis到Apache的数据
流
。 我们非常感谢你的快速帮助。
浏览 1
提问于2019-08-14
得票数 0
回答已采纳
1
回答
org.apache.flink.table.api.TableException:不支持的查询:合并到
flink-streaming
、
flink-sql
、
apache-hudi
我正在做一个Flink
流
作业,我需要在
Hudi
表中插入数据。我使用合并进入查询来在
Hudi
表中插入数据。
浏览 5
提问于2022-08-31
得票数 0
回答已采纳
4
回答
有哪些编程语言是用于机电
一体
化的?
programming-languages
、
robotics
有没有专为机电
一体
化编程而设计的语言?我知道LabView,这是一种数据
流
语言,但不确定它的主要平台。 除了c/c++之外,你能向我推荐一些语言吗?用于机电
一体
化(机器人、传感器编程等)主题的任何语言。
浏览 0
提问于2012-11-27
得票数 1
回答已采纳
1
回答
从批处理顺序Mule ESB调用
流
mule
、
batch-processing
、
mule-component
我创建了一个批处理
流
。从一
批
流
,我调用另一
批
,从第二
批
,我调用简单的第三
流
。我需要第三次流动的选择应该是完整的,然后,只有2条记录应
浏览 1
提问于2017-04-05
得票数 1
1
回答
tensorflow验证监视器
流
auc
python
、
tensorflow
在tensorflow验证监视器
流
auc中,它对流意味着什么?案例1:每次调用验证监视器时,都会重置auc状态,因为在每个验证步骤中,对10个
批
进行
流
处理。案例2: auc状态没有重置,因此
流
auc是从验证监视器的第一次调用中计算出来的。即,第一输出( 100步)从10
批
计算,第二验证输出( 200步骤)基于第
浏览 5
提问于2017-06-09
得票数 1
回答已采纳
0
回答
Spark RDD apend
apache-spark
在Spark中,我以RDD的形式加载了一个数据集,并且喜欢不频繁地向其追加
流
数据。我知道RDDs是不可变的,因为它简化了锁定,等等。其他处理静态和
流
数据的方法是
一体
的吗? 类似的问题以前也被问过:
浏览 7
提问于2016-12-24
得票数 0
1
回答
火花结构化
流
避免延迟和检查点: startingOffsets最新版本不工作吗?
scala
、
apache-spark
、
apache-kafka
、
spark-structured-streaming
(分钟)似乎火花结构化
流
并没有很好地使用startingOffsets属性的最新。我不想读旧消息,只有重要的当前的!
浏览 3
提问于2021-10-01
得票数 1
1
回答
将火花流连接到
流
集输入
streaming
、
spark-streaming
、
streamsets
我想知道是否有可能提供输入来激发来自StreamSets的
流
。我注意到在StreamSets连接器目的地中不支持火花
流
。 我将探讨是否有其他方法将它们连接到一个示例POC。
浏览 3
提问于2016-07-06
得票数 3
回答已采纳
1
回答
是否有一个变量来识别火花
流
中的每一
批
数据?
apache-spark
、
spark-streaming
在火花
流
中,数据按
批
间隔进行处理。is first batch of data10s~15s is third batch of data是否有一个变量来识别火花
流
中的每一
批
数据如果有这样的变量:我可以获得batchID的值来识别哪一
批
数据,也可以通过batchID (如:window(……).filter(_.batchId == 1) )过滤数据或者有什么方法来区分每一
批
数据?
浏览 6
提问于2016-02-02
得票数 3
回答已采纳
1
回答
具有周期性更新静态数据集的结构化
流
scala
、
apache-spark
、
spark-structured-streaming
流
和静态数据集的合并是结构化
流
的一个很好的特点。但是每一
批
数据集都会从数据源中刷新。由于这些源并不总是动态的,因此在指定的时间段(或
批
数)缓存静态数据集将是一种性能增益。在指定的批处理期间/
批
数之后,数据集将从源重新加载,否则将从缓存中检索。 在星火
流
中,我使用缓存的数据集来管理它,并在指定数量的批处理运行后取消它的持久化,但是由于某种原因,这不再适用于结构化
流
。
浏览 1
提问于2017-12-13
得票数 9
2
回答
星火
流
和星火结构化
流
使用相同的微
批
引擎吗?
apache-spark
、
spark-streaming
、
spark-structured-streaming
星火
流
和星火结构化
流
是否使用相同的微
批
调度引擎?星火结构
流
比星火
流
有更低的延迟吗?
浏览 0
提问于2019-02-01
得票数 3
回答已采纳
1
回答
PyFlink性能与Scala的比较
pyspark
、
apache-flink
、
spark-streaming
、
pyflink
冷(
批
)层将用Apache (PySpark)实现。但是对于热(
流
)层有不同的选择:火花
流
或Flink。提前谢谢你!
浏览 3
提问于2021-11-05
得票数 1
回答已采纳
1
回答
如何在其中一个作业失败时关闭/杀死火花
流
应用程序
apache-spark
、
spark-streaming
我正在运行一个星火
流
应用程序。有几次,其中一个作业由于某些运行时异常而失败。streaming将作业标记为失败,并继续处理下一个
流
批
。如果其中一个作业失败,是否有一个参数可以设置为通知Spark关闭应用程序(而不是处理下一个
流
批
)?我在独立集群模式上使用Spark1.4.1。
浏览 0
提问于2016-06-10
得票数 0
3
回答
当使用Spark结构化
流
时,如何才能获得当前批处理的聚合结果,如Spark
流
?
apache-spark
、
spark-streaming
、
spark-structured-streaming
星火结构
流
( SSS )和星火
流
(SS)的一个很大的区别是SSS可以利用状态。它可以存储以前
批
的聚合结果,并将当前结果与先前的结果一起应用。因此,它可以从输入流的一开始就得到真正的聚合结果。因此,我的问题是,在SSS中,是否仍然可以像SS一样,获得当前
批
产品的受害结果?当下一
批
"cat“出现时,我的预期输出是cat|1
浏览 0
提问于2018-01-23
得票数 3
回答已采纳
1
回答
火花
流
-我如何通知消费者一旦生产者完成?
scala
、
apache-kafka
、
spark-streaming
、
kafka-producer-api
一旦notify Consumer将所有数据发布到Kafka topic,Producer是否有可能我曾想过要使用Sliding window,但问题仍然是,我们不知道生产者是否完成了发布数据?目前,我们计划使用多个分区来基于Default Partitioner拆分数据。更新: 每隔十五分钟,生产者就会得到数据
浏览 0
提问于2016-11-12
得票数 2
回答已采纳
1
回答
寻求任务管理框架的建议
jira
、
workflow
、
airflow
、
operation
所有的任务由不同的步骤组成,这些步骤将作为一个工作
流
。你不能跳过一步。这些任务中的步骤是在我们结束时用各种微服务实现的,我们希望将这个工具与我们的服务集成起来。我听说过各种工作流管理工具,比如apache airflow、spotify的Luigi等等,但我相信它们是用于数据管道工作
流
的,我的需求是操作管理工作
流
。
浏览 4
提问于2020-02-11
得票数 0
1
回答
火花:如何附加到缓存的rdd?
caching
、
apache-spark
、
spark-streaming
每一
批
流
数据都缓存不同的值。 如何通过将下一
批
中的下一个不同值添加到已经缓存的RDD中来构建缓存?
浏览 1
提问于2015-12-03
得票数 0
点击加载更多
相关
资讯
Flink on Hive构建流批一体数仓
Flink1.11+Hive批流一体数仓
基于Flink+Hive构建流批一体准实时数仓
数据编织Data Fabric:批流一体的数据智能融合平台
深度解读:Flink 1.11 SQL流批一体的增强与完善
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券