hudi流批一体 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

从kafka datastream提取不同模式的Flink写入hudi

apache-flink、flink-streaming、apache-hudi

现在，我想使用从datastream提取的模式在hudi中编写数据。但是由于hudi管道/编写器在一开始就使用预定义的avro模式进行配置，所以我不能这样做。可能的解决方案是基于一个键创建一个密钥流，他们识别一种模式类型，然后从其中提取模式，然后基于它创建一个动态hudi管道。我不确定最后那部分是否可能。B是基于不同模式的分区流。C在数据流B中使用该模式创建配置，并将其传递给hudi管道编写器函数。

浏览 9提问于2022-10-20得票数 0

1回答

使用spark递增聚合hudi表值

apache-spark、pyspark、apache-kafka、spark-streaming、apache-hudi

我有一个火花流作业，每10秒加载一次apache hudi表中的数据。如果该行已经存在，它将更新hudi表中的行。实际上，它正在执行重新插入操作。但是，在hudi表中，有一个an列，该列也使用新值进行更新。hudi是否支持增量聚合，不使用外部缓存/db？

浏览 9提问于2022-07-13得票数 1

1回答

每次在新一批火花结构流上重写Hudi数据。

pyspark、apache-kafka、spark-structured-streaming、apache-hudi

我的工作是火花结构流，工作消耗Kafka消息，每10秒在apache表中进行聚合和保存数据。下面的代码运行良好，但它覆盖了每个批处理上的apache表数据。我还不知道为什么会发生这种事？它是火花结构流还是hudi行为？我使用的是MERGE_ON_READ，所以表文件不应该在每次更新时删除。但不知道为什么会这样？由于这个问题，我的另一个工作失败了，看了这个表格。df.groupby('a', 'b', 'c').agg(sum('d').alias('d

浏览 3提问于2022-07-21得票数 0

1回答

基于Apache Hudi的星火结构化流

apache-spark、streaming、spark-structured-streaming、apache-hudi

我有一个需求，我需要使用结构化流到Hudi数据集来编写流。我发现在Apache问题上有这样的规定，但是我想知道是否有人成功地实现了这一点，并且有一个例子。我正在尝试使用火花结构化流来构造从AWS Kinesis到Apache的数据流。我们非常感谢你的快速帮助。

浏览 1提问于2019-08-14得票数 0

回答已采纳

1回答

org.apache.flink.table.api.TableException:不支持的查询:合并到

flink-streaming、flink-sql、apache-hudi

我正在做一个Flink流作业，我需要在Hudi表中插入数据。我使用合并进入查询来在Hudi表中插入数据。

浏览 5提问于2022-08-31得票数 0

回答已采纳

4回答

有哪些编程语言是用于机电一体化的？

programming-languages、robotics

有没有专为机电一体化编程而设计的语言？我知道LabView，这是一种数据流语言，但不确定它的主要平台。除了c/c++之外，你能向我推荐一些语言吗？用于机电一体化(机器人、传感器编程等)主题的任何语言。

浏览 0提问于2012-11-27得票数 1

回答已采纳

1回答

从批处理顺序Mule ESB调用流

mule、batch-processing、mule-component

我创建了一个批处理流。从一批流，我调用另一批，从第二批，我调用简单的第三流。我需要第三次流动的选择应该是完整的，然后，只有2条记录应

浏览 1提问于2017-04-05得票数 1

1回答

tensorflow验证监视器流auc

python、tensorflow

在tensorflow验证监视器流auc中，它对流意味着什么？案例1:每次调用验证监视器时，都会重置auc状态，因为在每个验证步骤中，对10个批进行流处理。案例2: auc状态没有重置，因此流auc是从验证监视器的第一次调用中计算出来的。即，第一输出( 100步)从10批计算，第二验证输出( 200步骤)基于第

浏览 5提问于2017-06-09得票数 1

回答已采纳

0回答

Spark RDD apend

apache-spark

在Spark中，我以RDD的形式加载了一个数据集，并且喜欢不频繁地向其追加流数据。我知道RDDs是不可变的，因为它简化了锁定，等等。其他处理静态和流数据的方法是一体的吗？类似的问题以前也被问过：

浏览 7提问于2016-12-24得票数 0

1回答

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

scala、apache-spark、apache-kafka、spark-structured-streaming

(分钟)似乎火花结构化流并没有很好地使用startingOffsets属性的最新。我不想读旧消息，只有重要的当前的！

浏览 3提问于2021-10-01得票数 1

1回答

将火花流连接到流集输入

streaming、spark-streaming、streamsets

我想知道是否有可能提供输入来激发来自StreamSets的流。我注意到在StreamSets连接器目的地中不支持火花流。我将探讨是否有其他方法将它们连接到一个示例POC。

浏览 3提问于2016-07-06得票数 3

回答已采纳

1回答

是否有一个变量来识别火花流中的每一批数据？

apache-spark、spark-streaming

在火花流中，数据按批间隔进行处理。is first batch of data10s~15s is third batch of data是否有一个变量来识别火花流中的每一批数据如果有这样的变量：我可以获得batchID的值来识别哪一批数据，也可以通过batchID (如：window(……).filter(_.batchId == 1) )过滤数据或者有什么方法来区分每一批数据？

浏览 6提问于2016-02-02得票数 3

回答已采纳

1回答

具有周期性更新静态数据集的结构化流

scala、apache-spark、spark-structured-streaming

流和静态数据集的合并是结构化流的一个很好的特点。但是每一批数据集都会从数据源中刷新。由于这些源并不总是动态的，因此在指定的时间段(或批数)缓存静态数据集将是一种性能增益。在指定的批处理期间/批数之后，数据集将从源重新加载，否则将从缓存中检索。在星火流中，我使用缓存的数据集来管理它，并在指定数量的批处理运行后取消它的持久化，但是由于某种原因，这不再适用于结构化流。

浏览 1提问于2017-12-13得票数 9

2回答

星火流和星火结构化流使用相同的微批引擎吗？

apache-spark、spark-streaming、spark-structured-streaming

星火流和星火结构化流是否使用相同的微批调度引擎？星火结构流比星火流有更低的延迟吗？

浏览 0提问于2019-02-01得票数 3

回答已采纳

1回答

PyFlink性能与Scala的比较

pyspark、apache-flink、spark-streaming、pyflink

冷(批)层将用Apache (PySpark)实现。但是对于热(流)层有不同的选择:火花流或Flink。提前谢谢你！

浏览 3提问于2021-11-05得票数 1

回答已采纳

1回答

如何在其中一个作业失败时关闭/杀死火花流应用程序

apache-spark、spark-streaming

我正在运行一个星火流应用程序。有几次，其中一个作业由于某些运行时异常而失败。streaming将作业标记为失败，并继续处理下一个流批。如果其中一个作业失败，是否有一个参数可以设置为通知Spark关闭应用程序(而不是处理下一个流批)？我在独立集群模式上使用Spark1.4.1。

浏览 0提问于2016-06-10得票数 0

3回答

当使用Spark结构化流时，如何才能获得当前批处理的聚合结果，如Spark流？

apache-spark、spark-streaming、spark-structured-streaming

星火结构流( SSS )和星火流(SS)的一个很大的区别是SSS可以利用状态。它可以存储以前批的聚合结果，并将当前结果与先前的结果一起应用。因此，它可以从输入流的一开始就得到真正的聚合结果。因此，我的问题是，在SSS中，是否仍然可以像SS一样，获得当前批产品的受害结果？当下一批"cat“出现时，我的预期输出是cat|1

浏览 0提问于2018-01-23得票数 3

回答已采纳

1回答

火花流-我如何通知消费者一旦生产者完成？

scala、apache-kafka、spark-streaming、kafka-producer-api

一旦notify Consumer将所有数据发布到Kafka topic，Producer是否有可能我曾想过要使用Sliding window，但问题仍然是，我们不知道生产者是否完成了发布数据？目前，我们计划使用多个分区来基于Default Partitioner拆分数据。更新：每隔十五分钟，生产者就会得到数据

浏览 0提问于2016-11-12得票数 2

回答已采纳

1回答

寻求任务管理框架的建议

jira、workflow、airflow、operation

所有的任务由不同的步骤组成，这些步骤将作为一个工作流。你不能跳过一步。这些任务中的步骤是在我们结束时用各种微服务实现的，我们希望将这个工具与我们的服务集成起来。我听说过各种工作流管理工具，比如apache airflow、spotify的Luigi等等，但我相信它们是用于数据管道工作流的，我的需求是操作管理工作流。

浏览 4提问于2020-02-11得票数 0

1回答