keyBy是否在Flink (scala)中跨并行任务对DataStream进行分区？

、、、、

我想对Flink中的一个输入数据流应用ProcessFunction()，用一个缓存对象处理每个传入的元素。{ //Collect updated event } } } 当我并行化这个作业时，我假设该作业的每个并行实例都有它自己的cacheObject，因此，单个缓存键可能存在于多个cacheObjects中。<em

浏览 41提问于2019-04-05得票数 0

回答已采纳

2回答

分块前的Flink滤波器

、

话虽如此，如果我使用以下代码DataStream<Element> res = data.filter(...).keyBy(...).timeWindow(...).apply(...); .keyBy()将DataStream转换为KeyedStream，并在Flink工作节点之间分发。我的问题是，flink在这里将如何处理filter？在对流进行分区

浏览 7提问于2020-05-08得票数 0

回答已采纳

1回答

在阅读卡夫卡时使用KeyBy* vs reinterpretAsKeyedStream()*

、

我有一个简单的Flink流处理应用程序(Flink版本1.13)。Flink应用程序从Kakfa读取，对记录进行有状态处理，然后将结果写回Kafka。在阅读了卡夫卡主题之后，我选择使用reinterpretAsKeyedStream()而不是keyBy()来避免混乱，因为这些记录已经在Kakfa中分区了。在Kakfa中用于分区的键是记录的字符串字段(使用默认的kafka分区程序)。

浏览 35提问于2022-06-15得票数 0

2回答

在Flink中，为什么DataStream不支持聚合

、

我是Flink的新手。有时，我想在不需要先做keyBy的情况下在DataStream上进行聚合。为什么Flink不支持聚合(sum、min、max等)在DataStream上？谢谢你艾哈迈德

浏览 1提问于2021-03-16得票数 1

1回答

Apache将流划分为输入Kafka主题相同

、、、、

我想在Apache中实现以下场景：考虑到有4个分区的Kafka主题，我想使用不同的逻辑在Flink中独立地处理分区内的数据，这取决于事件的类型。特别是，假设输入的Kafka主题包含前面图像中描述的事件。每个事件都有不同的结构:分区1的字段"a“作为键，分区2的字段"b”作为键，等等。在Flink中，我想根据事件应用不同的业务逻辑，所以我认为应该以某种

浏览 2提问于2020-10-03得票数 2

回答已采纳

1回答

带有Table和Datastream* API的Flink 1.14中的全局排序*

、

我一直在研究Flink 1.14中有界数据的不同全局数据排序选项。由于Flink正在迅速发展，我想问一下最新的稳定Flink (1.14)中可用的选项。下面是我对当前情况的理解(这可能是错误的)。我的问题也随函附上。如果我想在批处理模式下对有界数据进行全局排序，orderby的并行性是否仅限于1? flink如何处理大型数据?它是否溢出到磁盘？DataS

浏览 17提问于2022-04-27得票数 0

回答已采纳

1回答

Apache维基百科用Scala编辑分析

、、、

我正在尝试从将Apache教程中的维基百科编辑流分析重写到Scalaimport org.apache.flink.api.common.functions.FoldFunction;import org.apache.flink.streaming.api.datastream.KeyedS

浏览 1提问于2016-12-29得票数 0

回答已采纳

1回答

自定义密钥逻辑以避免洗牌

、

我正在使用Flink 1.11。我的应用程序从Kafka读取数据，因此在Kafka分区中消息已经按顺序排列。在使用了卡夫卡的信息之后，我想应用TumblingWindow。根据Flink文档，keyBy需要使用TumblingWindow。使用keyby，意味着它将触发数据的洗牌，这是我想要避免的。由于在每个任务插槽，记录已经在有序(由于它的消费从卡夫卡)，如何避免洗牌？并行性的数量可以更大，也可

浏览 5提问于2022-04-09得票数 1

1回答

Apache Flink* -如何对齐Flink和Kafka切分*

、、

我正在为一个大容量流用例(每秒数以千万计的事件)开发一个DataStream-based Flink应用程序。这些数据是从卡夫卡主题中消耗的，并且已经根据特定的键进行了切分。我的意图是在Flink端创建特定于键的状态，以运行自定义分析。我无法解决的主要问题是，如何创建键控状态，而不对keyBy()强加的传入数据进行重新配置。我可以保证Flink作业的最大并行性将小于或等于源Kafka主题中的分区数，因此逻辑上没有必要

浏览 4提问于2022-08-08得票数 2

回答已采纳

2回答

在WindowedStream中查找计数-闪烁

、、、

我在流的世界里是个新手，在我的第一次尝试中我遇到了一些问题。更具体地说，我正在尝试使用Flink在滑动窗口中实现计数和groupBy功能。我在一个普通的DateStream中做过，但是我不能让它在WindowedStream中工作。你对我该怎么做有什么建议吗？evidence$28: org.apache.flink.api.common.typeinfo.TypeInformation[R])org.apach

浏览 18提问于2019-05-02得票数 1

1回答

Apache Flink:如何使用本地预聚合计算窗口？

、

我有一个DataStream，需要在它上面计算一个窗口聚合。当我执行常规窗口聚合时，网络IO非常高。因此，我希望执行本地预聚合，以减少网络IO。我想知道是否有可能在本地对任务管理器进行预聚合(即，在混洗记录之前)，然后执行完整的聚合。使用Flink的DataStream应用程序接口可以做到这一点吗？我的代码是： .map().filter().assignTi

浏览 25提问于2017-12-15得票数 2

3回答

Flink流在windows中的应用功能

、、、

我对flink和流媒体也很陌生。我想对流的每个窗口(使用事件时间)每个分区应用一个特定的函数。case class EventStream(val eventTime: Long, val id: String, actualEvent: String) 我想要做的是对每个窗口批处理的每个分区应用一个通用函数我已经看到了这个方法在DataStream API中的应用，但是我不明白它是如何工作的。在Flink API<

浏览 10提问于2017-01-30得票数 4

回答已采纳

1回答

keyedStream和Table之间的关系是什么？

据我所知，DataStream和KeyedDataStream是flink数据流的抽象。KeyedDataStream意味着按键对数据进行分区，以便具有相同键的数据位于同一台计算机上。代码看起来类似于：另一方面，如果我们通过flink将DataStream注册为一个表，我们可以在它上做类似的事情这是否意味着<em

浏览 7提问于2022-06-29得票数 0

3回答

Apache :如何并行执行，但保持消息的顺序？

、、

关于flink的并行性，我有几个问题。这是我的设计：1.)传递-p 2只配置任务并行性，即任务(如m

浏览 4提问于2017-04-13得票数 3

回答已采纳

1回答

Flink何时将流拆分到作业，使用uid，重新平衡

、

我是非常新的flink和即将加载我们的第一个生产版本。我们有一系列的数据。有状态筛选器正在检查数据是否是新的。是否更好地将流拆分到不同的作业中，以获得更多对并行性的控制，如选项1或选项2所示？/ops/production_ready.html#set-uuids-for-operators). should I put `uid` per operator e.g :dataStream.uid("firstid") .<

浏览 2提问于2019-02-04得票数 0

1回答

事件处理在Flink和恢复中的顺序

、、

我已经研究Flink一个多星期了。我们正在消费来自Kafka的事件，我们希望事件属于特定的对象，id需要按照事件时间的顺序进行处理。检查点机制是否知道未被处理的事件，它将如何请求Kafka有关这些事件？在CallCenter中，代理将接收呼叫并进入不同的状态。在具有并行进程的Flink集群中，我们不应该在代理状态不好的不同分区/任务集中处理代理信息。我的问题是，

浏览 1提问于2018-11-26得票数 1

回答已采纳

1回答

如何在Flink* (Scala)中的任务之间共享私有变量？*

、、、、

我想在我的Flink作业(Scala)中跨Flink的并行任务共享一个私有变量。params) : Unit = { //myVariable is used here in the ProcessFunction} 当我使用一些并行化运行这个作业时，是否会在所有的myVariable任务之间共享一个“Flink<

浏览 4提问于2019-04-04得票数 1

1回答

Flink KeyedProcessFunction排序

、

我对Flink很陌生，并试图了解Flink命令如何在并行性下的processElement()抽象中调用KeyedProcessFunction。import org.apache.flink.streaming.api.scala.{DataStream, StreamExecutionEnvironment, createTypeInformation} import org.apache.flink.util.Collector

浏览 2提问于2021-04-14得票数 1

回答已采纳

3回答

如何按键对Fs2流进行分区，分别对每个分区进行转换？

、

我想要实现的，例如，，给定的数据：0, a, 32, b, 103, a, 5stream.keyBy(_.part).scan(0)((s, d) => s + d)0, a, 32, b, 103, a, 12 我尝试过使用groupAdjacentBy对其进行分区，但是它变得太复杂了，因为我需要用键在每个块之间保留复杂的状态。我想知道是否有类

浏览 0提问于2018-12-21得票数 1

2回答

像Hash这样的术语在Flink计划中意味着什么？

、

这是在我部署工作时出现在仪表板上的Flink计划的图像。如您所见，操作符之间的连接被标记为FORWARD/HASH等。它们指的是什么？什么时候叫HASH，什么时候叫FORWARD

浏览 0提问于2019-01-25得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

分块前的Flink滤波器

在阅读卡夫卡时使用KeyBy* vs reinterpretAsKeyedStream()*

在Flink中，为什么DataStream不支持聚合

Apache将流划分为输入Kafka主题相同

带有Table和Datastream* API的Flink 1.14中的全局排序*

Apache维基百科用Scala编辑分析

自定义密钥逻辑以避免洗牌

Apache Flink* -如何对齐Flink和Kafka切分*

在WindowedStream中查找计数-闪烁

Apache Flink:如何使用本地预聚合计算窗口？

Flink流在windows中的应用功能

keyedStream和Table之间的关系是什么？

Apache :如何并行执行，但保持消息的顺序？

Flink何时将流拆分到作业，使用uid，重新平衡

事件处理在Flink和恢复中的顺序

如何在Flink* (Scala)中的任务之间共享私有变量？*

Flink KeyedProcessFunction排序

如何按键对Fs2流进行分区，分别对每个分区进行转换？

像Hash这样的术语在Flink计划中意味着什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐