hudi实现流批一体 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

基于Apache Hudi的星火结构化流

apache-spark、streaming、spark-structured-streaming、apache-hudi

我有一个需求，我需要使用结构化流到Hudi数据集来编写流。我发现在Apache问题上有这样的规定，但是我想知道是否有人成功地实现了这一点，并且有一个例子。我正在尝试使用火花结构化流来构造从AWS Kinesis到Apache的数据流。我们非常感谢你的快速帮助。

浏览 1提问于2019-08-14得票数 0

回答已采纳

1回答

tensorflow验证监视器流auc

python、tensorflow

在tensorflow验证监视器流auc中，它对流意味着什么？案例1:每次调用验证监视器时，都会重置auc状态，因为在每个验证步骤中，对10个批进行流处理。案例2: auc状态没有重置，因此流auc是从验证监视器的第一次调用中计算出来的。即，第一输出( 100步)从10批计算，第二验证输出( 200步骤)基于第

浏览 5提问于2017-06-09得票数 1

回答已采纳

1回答

PyFlink性能与Scala的比较

pyspark、apache-flink、spark-streaming、pyflink

冷(批)层将用Apache (PySpark)实现。但是对于热(流)层有不同的选择:火花流或Flink。提前谢谢你！

浏览 3提问于2021-11-05得票数 1

回答已采纳

1回答

具有周期性更新静态数据集的结构化流

scala、apache-spark、spark-structured-streaming

流和静态数据集的合并是结构化流的一个很好的特点。但是每一批数据集都会从数据源中刷新。由于这些源并不总是动态的，因此在指定的时间段(或批数)缓存静态数据集将是一种性能增益。在指定的批处理期间/批数之后，数据集将从源重新加载，否则将从缓存中检索。在星火流中，我使用缓存的数据集来管理它，并在指定数量的批处理运行后取消它的持久化，但是由于某种原因，这不再适用于结构化流。有什么建议可以用结构化流来实现吗？

浏览 1提问于2017-12-13得票数 9

1回答

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

scala、apache-spark、apache-kafka、spark-structured-streaming

(分钟)似乎火花结构化流并没有很好地使用startingOffsets属性的最新。我不想读旧消息，只有重要的当前的！

浏览 3提问于2021-10-01得票数 1

1回答

火花流-我如何通知消费者一旦生产者完成？

scala、apache-kafka、spark-streaming、kafka-producer-api

一旦notify Consumer将所有数据发布到Kafka topic，Producer是否有可能我曾想过要使用Sliding window，但问题仍然是，我们不知道生产者是否完成了发布数据？目前，我们计划使用多个分区来基于Default Partitioner拆分数据。更新：每隔十五分钟，生产者就会得到数据

浏览 0提问于2016-11-12得票数 2

回答已采纳

1回答

处理spark结构化流中传入的运动流中的空批次

apache-spark、pyspark、spark-structured-streaming

我们正在从kinesis读取数据，并使用spark结构流将其输出到文件中。当stream.these中没有数据时，kinesis实现正在生成空批吗?空批正在创建空文件作为输出？

浏览 24提问于2019-02-27得票数 0

回答已采纳

1回答

如何避免火花流中批量排队

apache-spark、apache-kafka、spark-streaming、spark-kafka-integration

我有直接流的火花流，我使用下面的配置 spark.streaming.kafka.maxRatePerPartition 42 当我使用最早的选项启动流批时是否有可能实现以下场景，我们的批处理间隔为60，如果每批运行在60，下一批可以准时开始。如果一批花费的时间超过60，我们不希望下一批来排队。

浏览 2提问于2021-03-16得票数 1

回答已采纳

1回答

火花流缓存和转换

apache-spark、spark-streaming

我是新来的火花，我使用星火流与卡夫卡..。假设我在第一批中得到100条记录，在第二批中得到120条记录，在第三批中得到80条记录。--> {sec 1 1,2,...100} --> {sec 2 1,2..120} --> {sec 3 1,2,..80}我想在处理第二批时使用result1，并将第二批的result1和120个记

浏览 1提问于2014-10-20得票数 3

回答已采纳

1回答

火花流预示着多作者

scala、apache-spark、apache-spark-sql、spark-structured-streaming

我希望从JSON文件中读取结构化流，并处理数据并将数据写入Kafka和Parquet接收器。

浏览 1提问于2018-08-16得票数 1

1回答

是否有可能实现一个可靠的接收器，支持不优雅的关闭？

apache-spark、spark-streaming

我很好奇，如果一个星火流应用程序被优雅地击落是绝对必须的，还是它有通过预写日志导致重复数据的风险。在下面的场景中，我概述了队列接收器与队列交互时需要确认消息的步骤序列。火花队列接收器从队列中提取一批消息。 ..。我的理解是正确的，如何

浏览 3提问于2015-07-29得票数 9

1回答

由Iterables.partition()生成的拆分器行为不符合预期吗？

java、java-stream、guava、partition、spliterator

此外，使用StreamSupport.stream(Iterables.partition(collection, partitionSize).spliterator(), true)不会并行化该流，StreamSupport.stream(Iterables.partition(collection, partitionSize).spliterator().trySplit(), true)会并行化，并且生成的流包含所有分区我的目标是:给定一个大小为100k的集合，我希望将其划分为大小为5000的批，并并行处理这些批

浏览 39提问于2021-03-18得票数 3

回答已采纳

1回答

Java :将用户输入转换为批处理

lambda、java-8、java-stream

我想要流it (从用户输入)并输出一个特定长度的列表流--有效地将用户的输入批处理成批，然后对其执行其他一些工作。因此，基本上，对于用户输入：1,2,3,4,5,6,7,8,9，只要我收集到3个数字，我就可以将它分割成这些批<1,2,3> , <4,5,6> , <7,8,9>，我想为下一个处理步骤创建一个列表。我试图使用lamda和java 8中的流操作来实现这一点，以便更多地了解它。我能找到的唯一相关示例是这个带有自定义收集器的，它执行与我想要的非常相似的事情--使

浏览 4提问于2015-11-25得票数 4

回答已采纳

1回答

MVC 5中的WorkFlow实现

asp.net-mvc-5、workflow-foundation

我需要在MVC5中实现工作流。虽然我读过关于工作流的文章，但我不知道如何集成工作流和MVC5 5。我对工作流非常陌生，对MVC5知之甚少。如何向用户显示工作流状态？

浏览 0提问于2015-05-08得票数 3

1回答

三叉戟卡夫卡交易喷口

maven、transactions、apache-storm、transactional、trident

我应该实现三叉戟事务拓扑。我发现，我可以使用kafka作为喷口，使我的拓扑事务性。我发现，这是卡夫卡的风口浪尖，但它不是交易。另外，我发现是一个三叉戟卡夫卡交易喷口。如果您有实现事务性拓扑的经验，请帮助我！谢谢!

浏览 1提问于2014-05-21得票数 0

回答已采纳

2回答

基于工作流的软件开发与基于常规编程的软件开发的优势

functional-programming、workflows、bpmn

我对工作流非常陌生，并试图理解使用工作流的原因。在上网的时候，我还没有发现任何使用工作流的优点。请解释一下，与通常的基于编程的开发相比，基于工作流的开发具有优势。

浏览 0提问于2016-06-14得票数 0

1回答

Sidekiq父批等待子批处理的所有作业完成

ruby-on-rails、sidekiq

我想要创建一个工作流程，其中Sidekiq工人生成一个批处理作业，其中将再次生成和完成一个要生成和完成的工人列表，并且只有在这些子工作人员完全执行之后，我才想运行父批的回调(On_complete)。基本上，我想要实现这个工作流但是，上述两种资源都提到了一个工作流，该工作流希望工作步骤首先完成，然后使用Sidekiq批处理转移到另一个步骤。在我的需求中，我不打算在每个单独的批处理作业中创建批，然后在主批的回调中做一些工作

浏览 0提问于2018-04-11得票数 3

回答已采纳

1回答

如何在Spark Streaming中累积数据帧？

apache-spark、dataframe、apache-spark-sql、spark-streaming

我知道Spark Streaming会产生批量的RDDs，但我想积累一个大的Dataframe，随着每一批的更新(通过将新的dataframe附加到末尾)。有没有办法像这样访问所有的历史流数据？

浏览 12提问于2018-08-01得票数 1

1回答

弹簧反应器不发生突变就将输入分批

reactive-programming、spring-webflux、project-reactor

我正在尝试对不断从流源(Kafka)发出的记录进行分批处理，并在一批100次调用我的服务。 }使用反应堆在流源上实现批处理的最佳方法是什么

浏览 4提问于2018-04-20得票数 2

回答已采纳

3回答

同时为大量记录创建工作流服务实例

workflow-foundation-4、appfabric、batch-processing

每个记录都必须作为单独的记录在工作流中注册，该记录必须经过自己的工作流。是否有其他解决方案来处理批记录/ids？否则，工作流服务必须调用1000次才能注册工作流实例中的每条

浏览 4提问于2012-09-20得票数 3

回答已采纳

点击加载更多

基于Apache Hudi的星火结构化流

tensorflow验证监视器流auc

PyFlink性能与Scala的比较

具有周期性更新静态数据集的结构化流

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

火花流-我如何通知消费者一旦生产者完成？

处理spark结构化流中传入的运动流中的空批次

如何避免火花流中批量排队

火花流缓存和转换

火花流预示着多作者

是否有可能实现一个可靠的接收器，支持不优雅的关闭？

由Iterables.partition()生成的拆分器行为不符合预期吗？

Java :将用户输入转换为批处理

MVC 5中的WorkFlow实现

三叉戟卡夫卡交易喷口

基于工作流的软件开发与基于常规编程的软件开发的优势

Sidekiq父批等待子批处理的所有作业完成

如何在Spark Streaming中累积数据帧？

弹簧反应器不发生突变就将输入分批

同时为大量记录创建工作流服务实例

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐