流批一体架构的应用 - 腾讯云开发者社区

、、、

我们的目标是建立冷和热层的Lambda架构。冷(批)层将用Apache (PySpark)实现。但是对于热(流)层有不同的选择:火花流或Flink。因此，Apache是纯流的，而不是Spark的微批，我倾向于选择Apache。但我唯一关心的是PyFlink的性能。PySpark流的延迟会更少吗？它比Scala编写的</e

浏览 3提问于2021-11-05得票数 1

回答已采纳

1回答

箭流端到端是免费的吗？

我对箭流很困惑。描述Arrow的许多来源都只是转述了然而，据我所知，列式格式的序列化数据的基本单位是“记录批处理”。从语义上讲，记录批是一个有序的数组集合，称为其字段，每个数组具有相同的长度，但可能具有不同的数据类型。记录批处理的字段名和类型共同构成批处理的架构。在本节中，我们定义了一种协议，用于将记录批序列化为

浏览 1提问于2019-12-13得票数 1

回答已采纳

1回答

移动-消费者集群

我有一个运动流，用来排任务队列，比如发送电子邮件。我有一群消费者，他们应该阅读队列，然后发送电子邮件。在这种情况下，如果消费者从队列中读取某一项，则其他消费者不应读取同一项；另一项我将发送重复的电子邮件。我怎样才能做到这一点？

浏览 4提问于2016-04-08得票数 0

回答已采纳

1回答

基于M1苹果硅支持的DynamicSDKv9.1-M1模拟器

、、、、

DynamicsSDKv9.0.x的提到M1 Mac不支持iOS模拟器。在苹果M1设备上，SDK不支持在iOS模拟器上构建和调试BlackBerry Dynamic应用程序。如果是这样的话，除了通常升级SDK之外，是否还需要任何特殊的配置？我已经将SDK升级到了v9.1.x，但是在为iOS模拟器构建时，我遇到了iOS错误。但仍然期待着本土的支持。

浏览 7提问于2021-04-20得票数 0

回答已采纳

1回答

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

、、、

我正在为一个实时应用程序开发一个火花结构化流进程。超过30秒的邮件与此项目无关。我猜问题是我写的主题的HDFS检查点位置.下面是我<em

浏览 3提问于2021-10-01得票数 1

3回答

当使用Spark结构化流时，如何才能获得当前批处理的聚合结果，如Spark流？

、、

星火结构流( SSS )和星火流(SS)的一个很大的区别是SSS可以利用状态。它可以存储以前批的聚合结果，并将当前结果与先前的结果一起应用。因此，它可以从输入流的一开始就得到真正的聚合结果。但有一种情况是，我们不希望得到与以前的statestore值合并的最终结果。我们只想得到(输出)当前批处理的聚合结果。在平台和框架方面，我们不能回到党卫军。因此，我的<

浏览 0提问于2018-01-23得票数 3

回答已采纳

1回答

如何在其中一个作业失败时关闭/杀死火花流应用程序

、

我正在运行一个星火流应用程序。有几次，其中一个作业由于某些运行时异常而失败。streaming将作业标记为失败，并继续处理下一个流批。如果其中一个作业失败，是否有一个参数可以设置为通知Spark关闭应用程序(而不是处理下一个流批)？我在独立集群模式上使用Spark1.4.1。

浏览 0提问于2016-06-10得票数 0

2回答

HMVC模式的准确使用/消耗？

、、

我正在努力理解HMVC，以及在我当前的MVC应用程序中如何或是否应该考虑它。关于这个关于MVC架构的问题，有时采用分层模型-视图-控制器(HMVC)模式(也称为表示-抽象-控制)是处理更复杂的接口和应用程序需求的好选择。“然而，在控制GUI元素(小部件)方面，传统的MVC范围是不够的。MVC不处理数据管理、事件管理和应用程序流的复杂性。作为MVC三位一体

浏览 1提问于2011-08-16得票数 2

回答已采纳

1回答

Spark streaming每小时00:00运行处理

我正在尝试使用Spark每小时执行一次流数据处理，但我希望它开始时接近xx:00:00 (xx是小时id)。这是可能的，还是违背了Spark的意识形态？

浏览 1提问于2018-08-09得票数 0

4回答

有哪些编程语言是用于机电一体化的？

、

有没有专为机电一体化编程而设计的语言？我知道LabView，这是一种数据流语言，但不确定它的主要平台。除了c/c++之外，你能向我推荐一些语言吗？用于机电一体化(机器人、传感器编程等)主题的任何语言。

浏览 0提问于2012-11-27得票数 1

回答已采纳

2回答

如何避免Lambda体系结构中的代码冗余？

、、

我们有一个正在进行的批处理，如下所述。同一批处理系统将消耗卡夫卡主题。新的火花应用程序将消耗卡夫

浏览 2提问于2018-09-18得票数 1

2回答

我们有一个拥有100多万用户的电子商务系统，订单表中有400万到500万条记录。我们使用codeigniter框架作为后台，Mysql作为数据库。由于用户和购买的数量过多，我们使用cron作业每小时更新订单详细信息和推荐奖励点数，以使事情正常工作。现在我们有这样一种情况，这些数据更新超过一个小时，下一批更新在完成前一批更新之前到达，从而导致系统死锁和失败。我想知道不同可能的架构和数据库扩展选项，以及摆脱这种情况的建议。我们仅使用单片架构来运行此<em

浏览 10提问于2021-09-16得票数 0

1回答

从批处理顺序Mule ESB调用流

、、

我创建了一个批处理流。从一批流，我调用另一批，从第二批，我调用简单的第三流。我

浏览 1提问于2017-04-05得票数 1

1回答

是否有可能实现一个可靠的接收器，支持不优雅的关闭？

、

我很好奇，如果一个星火流应用程序被优雅地击落是绝对必须的，还是它有通过预写日志导致重复数据的风险。在下面的场景中，我概述了队列接收器与队列交互时需要确认消息的步骤序列。火花队列接收器从队列中提取一批消息。火花队

浏览 3提问于2015-07-29得票数 9

1回答

火花结构化流作业如何处理流-静态DataFrame连接？

、、、

我有一个火花结构化流作业，它从cassandra和deltalake读取映射表，并加入流df。我想了解这里的确切机制。星火是否击中了这些数据来源(卡桑德拉和德尔塔雷克)的每一个周期的微批？

浏览 2提问于2020-12-02得票数 1

回答已采纳

1回答

星火结构流-动态更新数据帧的模式

、、、

我有一个简单的结构化流作业，它监视CSV文件的目录，并编写拼花文件--在两者之间没有转换。，我希望始终使用最新的模式来构建我的数据框架，或者换句话说，从CSV文件中读取数据。虽然buildSchema()可以为我提供最新的模式，但我不知道如何定期调用它(或者每个CSV文件一次)，然后使用最新的模式以某种方式重新生成或修改数据框架。在测试时，我观察到只有query对象在一批接一批地连续运行；我放置的log语句和用于模式

浏览 2提问于2018-02-12得票数 11

1回答

tensorflow验证监视器流auc

、

在tensorflow验证监视器流auc中，它对流意味着什么？案例1:每次调用验证监视器时，都会重置auc状态，因为在每个验证步骤中，对10个批进行流处理。案例2: auc状态没有重置，因此流auc是从验证监视器的第一次调用中计算出来的。即，第一输出( 100步)从10<em

浏览 5提问于2017-06-09得票数 1

回答已采纳

1回答

火花流缓存和转换

、

我是新来的火花，我使用星火流与卡夫卡..。假设我在第一批中得到100条记录，在第二批中得到120条记录，在第三批中得到80条记录。--> {sec 1 1,2,...100} --> {sec 2 1,2..120} --> {sec 3 1,2,..80}我想在处理第二批时使用

浏览 1提问于2014-10-20得票数 3

回答已采纳

2回答

让一列模型火车进行大量的划时代有什么坏处吗？

、、、、

我有一个有限的时间序列，我可以用它来训练模型，所以我决定增加数据。我使用的数据增强策略是非常基本的，但已经证明了提高了我的模型的准确性。从本质上讲，它接受了我所拥有的整个训练数据集，对所有的时间序列进行洗牌，并且增强过程在每一批中具体进行。在每一批中，我随机挑选，每批中的每个时间序列，开始点和结束点，使每一批包含不同长度的每个系列在批内的切片。这显然会创建一个几乎无穷无尽的

浏览 0提问于2019-01-27得票数 2

回答已采纳

0回答

Spark RDD apend

在Spark中，我以RDD的形式加载了一个数据集，并且喜欢不频繁地向其追加流数据。我知道RDDs是不可变的，因为它简化了锁定，等等。其他处理静态和流数据的方法是一体的吗？类似的问题以前也被问过：

浏览 7提问于2016-12-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

PyFlink性能与Scala的比较

箭流端到端是免费的吗？

移动-消费者集群

基于M1苹果硅支持的DynamicSDKv9.1-M1模拟器

火花结构化流避免延迟和检查点: startingOffsets最新版本不工作吗？

当使用Spark结构化流时，如何才能获得当前批处理的聚合结果，如Spark流？

如何在其中一个作业失败时关闭/杀死火花流应用程序

HMVC模式的准确使用/消耗？

Spark streaming每小时00:00运行处理

有哪些编程语言是用于机电一体化的？

如何避免Lambda体系结构中的代码冗余？

运行cron每小时更新100万条记录失败

从批处理顺序Mule ESB调用流

是否有可能实现一个可靠的接收器，支持不优雅的关闭？

火花结构化流作业如何处理流-静态DataFrame连接？

星火结构流-动态更新数据帧的模式

tensorflow验证监视器流auc

火花流缓存和转换

让一列模型火车进行大量的划时代有什么坏处吗？

Spark RDD apend

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐