腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(505)
视频
沙龙
1
回答
基于Apache
Hudi
的星火结构化
流
apache-spark
、
streaming
、
spark-structured-streaming
、
apache-hudi
我有一个需求,我需要使用结构化流到
Hudi
数据集来编写
流
。我发现在Apache问题上有这样的规定,但是我想知道是否有人成功地
实现
了这一点,并且有一个例子。我正在尝试使用火花结构化流来构造从AWS Kinesis到Apache的数据
流
。 我们非常感谢你的快速帮助。
浏览 1
提问于2019-08-14
得票数 0
回答已采纳
1
回答
tensorflow验证监视器
流
auc
python
、
tensorflow
在tensorflow验证监视器
流
auc中,它对流意味着什么?案例1:每次调用验证监视器时,都会重置auc状态,因为在每个验证步骤中,对10个
批
进行
流
处理。案例2: auc状态没有重置,因此
流
auc是从验证监视器的第一次调用中计算出来的。即,第一输出( 100步)从10
批
计算,第二验证输出( 200步骤)基于第
浏览 5
提问于2017-06-09
得票数 1
回答已采纳
1
回答
PyFlink性能与Scala的比较
pyspark
、
apache-flink
、
spark-streaming
、
pyflink
冷(
批
)层将用Apache (PySpark)
实现
。但是对于热(
流
)层有不同的选择:火花
流
或Flink。提前谢谢你!
浏览 3
提问于2021-11-05
得票数 1
回答已采纳
1
回答
具有周期性更新静态数据集的结构化
流
scala
、
apache-spark
、
spark-structured-streaming
流
和静态数据集的合并是结构化
流
的一个很好的特点。但是每一
批
数据集都会从数据源中刷新。由于这些源并不总是动态的,因此在指定的时间段(或
批
数)缓存静态数据集将是一种性能增益。在指定的批处理期间/
批
数之后,数据集将从源重新加载,否则将从缓存中检索。 在星火
流
中,我使用缓存的数据集来管理它,并在指定数量的批处理运行后取消它的持久化,但是由于某种原因,这不再适用于结构化
流
。有什么建议可以用结构化流来
实现
吗?
浏览 1
提问于2017-12-13
得票数 9
1
回答
火花结构化
流
避免延迟和检查点: startingOffsets最新版本不工作吗?
scala
、
apache-spark
、
apache-kafka
、
spark-structured-streaming
(分钟)似乎火花结构化
流
并没有很好地使用startingOffsets属性的最新。我不想读旧消息,只有重要的当前的!
浏览 3
提问于2021-10-01
得票数 1
1
回答
火花
流
-我如何通知消费者一旦生产者完成?
scala
、
apache-kafka
、
spark-streaming
、
kafka-producer-api
一旦notify Consumer将所有数据发布到Kafka topic,Producer是否有可能我曾想过要使用Sliding window,但问题仍然是,我们不知道生产者是否完成了发布数据?目前,我们计划使用多个分区来基于Default Partitioner拆分数据。更新: 每隔十五分钟,生产者就会得到数据
浏览 0
提问于2016-11-12
得票数 2
回答已采纳
1
回答
处理spark结构化
流
中传入的运动
流
中的空批次
apache-spark
、
pyspark
、
spark-structured-streaming
我们正在从kinesis读取数据,并使用spark结构
流
将其输出到文件中。当stream.these中没有数据时,kinesis
实现
正在生成空
批
吗?空
批
正在创建空文件作为输出?
浏览 24
提问于2019-02-27
得票数 0
回答已采纳
1
回答
如何避免火花
流
中批量排队
apache-spark
、
apache-kafka
、
spark-streaming
、
spark-kafka-integration
我有直接
流
的火花
流
,我使用下面的配置 spark.streaming.kafka.maxRatePerPartition 42 当我使用最早的选项启动
流
批
时是否有可能
实现
以下场景,我们的批处理间隔为60,如果每批运行在60,下一
批
可以准时开始。如果一
批
花费的时间超过60,我们不希望下一
批
来排队。
浏览 2
提问于2021-03-16
得票数 1
回答已采纳
1
回答
火花
流
缓存和转换
apache-spark
、
spark-streaming
我是新来的火花,我使用星火
流
与卡夫卡..。假设我在第一
批
中得到100条记录,在第二
批
中得到120条记录,在第三
批
中得到80条记录。--> {sec 1 1,2,...100} --> {sec 2 1,2..120} --> {sec 3 1,2,..80}我想在处理第二
批
时使用result1,并将第二
批
的result1和120个记
浏览 1
提问于2014-10-20
得票数 3
回答已采纳
1
回答
火花
流
预示着多作者
scala
、
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
我希望从JSON文件中读取结构化
流
,并处理数据并将数据写入Kafka和Parquet接收器。
浏览 1
提问于2018-08-16
得票数 1
1
回答
是否有可能
实现
一个可靠的接收器,支持不优雅的关闭?
apache-spark
、
spark-streaming
我很好奇,如果一个星火
流
应用程序被优雅地击落是绝对必须的,还是它有通过预写日志导致重复数据的风险。在下面的场景中,我概述了队列接收器与队列交互时需要确认消息的步骤序列。火花队列接收器从队列中提取一
批
消息。 ..。我的理解是正确的,如何
浏览 3
提问于2015-07-29
得票数 9
1
回答
由Iterables.partition()生成的拆分器行为不符合预期吗?
java
、
java-stream
、
guava
、
partition
、
spliterator
此外,使用StreamSupport.stream(Iterables.partition(collection, partitionSize).spliterator(), true)不会并行化该
流
,StreamSupport.stream(Iterables.partition(collection, partitionSize).spliterator().trySplit(), true)会并行化,并且生成的
流
包含所有分区我的目标是:给定一个大小为100k的集合,我希望将其划分为大小为5000的
批
,并并行处理这些
批
浏览 39
提问于2021-03-18
得票数 3
回答已采纳
1
回答
Java :将用户输入转换为批处理
lambda
、
java-8
、
java-stream
我想要
流
it (从用户输入)并输出一个特定长度的列表
流
--有效地将用户的输入批处理成批,然后对其执行其他一些工作。因此,基本上,对于用户输入:1,2,3,4,5,6,7,8,9,只要我收集到3个数字,我就可以将它分割成这些
批
<1,2,3> , <4,5,6> , <7,8,9>,我想为下一个处理步骤创建一个列表。我试图使用lamda和java 8中的
流
操作来
实现
这一点,以便更多地了解它。我能找到的唯一相关示例是这个带有自定义收集器的,它执行与我想要的非常相似的事情--使
浏览 4
提问于2015-11-25
得票数 4
回答已采纳
1
回答
MVC 5中的WorkFlow
实现
asp.net-mvc-5
、
workflow-foundation
我需要在MVC5中
实现
工作
流
。虽然我读过关于工作
流
的文章,但我不知道如何集成工作
流
和MVC5 5。我对工作
流
非常陌生,对MVC5知之甚少。 如何向用户显示工作
流
状态?
浏览 0
提问于2015-05-08
得票数 3
1
回答
三叉戟卡夫卡交易喷口
maven
、
transactions
、
apache-storm
、
transactional
、
trident
我应该
实现
三叉戟事务拓扑。我发现,我可以使用kafka作为喷口,使我的拓扑事务性。我发现,这是卡夫卡的风口浪尖,但它不是交易。另外,我发现是一个三叉戟卡夫卡交易喷口。如果您有
实现
事务性拓扑的经验,请帮助我!谢谢!
浏览 1
提问于2014-05-21
得票数 0
回答已采纳
2
回答
基于工作
流
的软件开发与基于常规编程的软件开发的优势
functional-programming
、
workflows
、
bpmn
我对工作
流
非常陌生,并试图理解使用工作
流
的原因。在上网的时候,我还没有发现任何使用工作
流
的优点。 请解释一下,与通常的基于编程的开发相比,基于工作
流
的开发具有优势。
浏览 0
提问于2016-06-14
得票数 0
1
回答
Sidekiq父
批
等待子批处理的所有作业完成
ruby-on-rails
、
sidekiq
我想要创建一个工作流程,其中Sidekiq工人生成一个批处理作业,其中将再次生成和完成一个要生成和完成的工人列表,并且只有在这些子工作人员完全执行之后,我才想运行父
批
的回调(On_complete)。基本上,我想要
实现
这个工作
流
但是,上述两种资源都提到了一个工作
流
,该工作
流
希望工作步骤首先完成,然后使用Sidekiq批处理转移到另一个步骤。在我的需求中,我不打算在每个单独的批处理作业中创建
批
,然后在主
批
的回调中做一些工作
浏览 0
提问于2018-04-11
得票数 3
回答已采纳
1
回答
如何在Spark Streaming中累积数据帧?
apache-spark
、
dataframe
、
apache-spark-sql
、
spark-streaming
我知道Spark Streaming会产生批量的RDDs,但我想积累一个大的Dataframe,随着每一
批
的更新(通过将新的dataframe附加到末尾)。 有没有办法像这样访问所有的历史
流
数据?
浏览 12
提问于2018-08-01
得票数 1
1
回答
弹簧反应器不发生突变就将输入分批
reactive-programming
、
spring-webflux
、
project-reactor
我正在尝试对不断从
流
源(Kafka)发出的记录进行分批处理,并在一
批
100次调用我的服务。 }使用反应堆在
流
源上
实现
批处理的最佳方法是什么
浏览 4
提问于2018-04-20
得票数 2
回答已采纳
3
回答
同时为大量记录创建工作
流
服务实例
workflow-foundation-4
、
appfabric
、
batch-processing
每个记录都必须作为单独的记录在工作
流
中注册,该记录必须经过自己的工作
流
。 是否有其他解决方案来处理
批
记录/ids?否则,工作
流
服务必须调用1000次才能注册工作
流
实例中的每条
浏览 4
提问于2012-09-20
得票数 3
回答已采纳
点击加载更多
相关
资讯
Flink on Hive构建流批一体数仓
Flink1.11+Hive批流一体数仓
基于Flink+Hive构建流批一体准实时数仓
数据编织Data Fabric:批流一体的数据智能融合平台
深度解读:Flink 1.11 SQL流批一体的增强与完善
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券