腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
结构化
流式
协议
的
Apache
Kafka
、
、
我正在尝试编写一个
使用
结构化
流媒体
的
Kafka
消费者(一个protobuf)。让我们调用protobuf as,它应该在Scala中反序列化为字节数组(ArrayByte)。我尝试了所有我能在网上找到
的
方法,但仍然不能正确地解析消息A 方法1:在集成指南(https://spark.
apache
.org/docs/2.2.0/structured-streaming-
kafka
-integration.html= SQL
浏览 6
提问于2019-09-24
得票数 0
回答已采纳
1
回答
Spark Streaming with Spark 2和
Kafka
2.1
、
、
、
我们有Spark Streaming从
Kafka
读取数据来处理它并将结果写到其他地方。在升级过程中,Spark从v1.6升级到v2.1,
Kafka
从v0.8升级到v2.1。为了执行流处理,我们
使用
KafkaUtils.createStream(...)连接到
Kafka
,但KafkaUtils在
Kafka
2.11中不再可用。然而,我似乎找不到任何Spark Streaming +
Kafka
在Java中不
使用
此方法
的
示例或文档。 我是不是漏掉了什么?在
浏览 11
提问于2021-09-27
得票数 0
1
回答
如何
使用
Spark-streaming进行实时日志分析??(我附加架构镜像)
、
、
Spark streaming应用程序实时接收来自大量IoT设备
的
数据。但它们都是少量
的
数据。整体流程看起来像是-> Iot ->
Kafka
(1个主题/所有数据) ->火花流(过滤错误日志) -> DB(保存) ->警报屏幕 有没有
使用
spark或python进行实时日志分析
的
好方法?
浏览 13
提问于2020-11-19
得票数 0
回答已采纳
1
回答
使用
Spark Structured Streaming读取目录时,如何实现只读一次处理?
、
、
我想
使用
流处理
的
概念从本地目录读取文件,然后发布到
Apache
Kafka
。我考虑过
使用
Spark Structured Streaming。此外,如果我们在
结构化
流媒体中
使用
检查点,当代码有任何升级或任何更改时,我们是否会有任何问题。
浏览 0
提问于2019-02-25
得票数 2
1
回答
Spark Structured来自Cassandra
、
我
使用
结构化
数据流从
Kafka
流式
传输数据 .readStream .option("
kafka
.bootstrap.servers.option("group.id", UUID.randomUUID().toString) .loa
浏览 0
提问于2018-11-16
得票数 1
1
回答
连接spark structured streaming +
kafka
出错
、
、
、
、
我正在尝试连接我
的
结构化
流式
spark 2.4.5与
kafka
,但所有的时间,我尝试这个数据源提供程序出现错误。遵循我
的
scala代码和sbt构建: import org.
apache
.spark.sql._import org.
apache
.spark.sql.functionsval
KAFKA
_TOPIC_NAME_CONS = "test&qu
浏览 86
提问于2020-05-04
得票数 0
回答已采纳
1
回答
我如何将
结构化
的
流数据发送到
kafka
?
、
、
、
、
我正在尝试将
结构化
的
流式
数据文件发送到我的卡夫卡主题之一,detection。这是
结构化
流数据格式
的
架构: |-- timestamp: timestamp (nullable = true)dfwriter=df \ .writeStream \ .format("
浏览 9
提问于2021-11-02
得票数 0
回答已采纳
1
回答
如何避免DataSet.toJSON与
结构化
流不兼容
、
、
、
我想把推特上
的
数据写进卡夫卡。出于教育目的,我尝试
使用
结构化
流来实现这一点。我创建了一个基于socket-Source
的
Twitter-Source,它运行得很好。接下来,我想将每条推文都保留在稍微闪闪发亮
的
模式中,直到
Kafka
: .toJSON.as("value")Ex
浏览 0
提问于2017-08-10
得票数 2
回答已采纳
1
回答
通过MongoDB
使用
Storm bolt或Spark-streaming丰富数据
、
、
、
我想创建一个Storm Spout,它从
Apache
Kafka
的
主题中读取数据,并将这些数据发送到连接到MongoDB
的
Storm bolt,并查询我从
Kafka
收集
的
消息以丰富数据。例如:我有一个personID (我是通过
Kafka
发来
的
消息得到
的
),我想
使用
这个personID查询MongoDB中
的
个人地址。在我
的
MongoDB集合中,每个文档都有personID和地址。一
浏览 0
提问于2018-04-18
得票数 0
1
回答
从最新偏移量恢复
结构化
流
、
我想从
Kafka
源创建Spark
结构化
流式
作业读取消息,写入
Kafka
接收器,失败后将恢复只读取当前,最新
的
消息。出于这个原因,我不需要为我
的
工作设置检查站。但它看起来没有选项来禁用检查点,而写入到
Kafka
接收器
的
结构化
流。
浏览 2
提问于2020-06-23
得票数 0
1
回答
如何在zeppelin中自动更新
结构化
流查询
的
%spark.sql结果
、
、
、
我正在对来自
kafka
的
数据运行
结构化
流式
处理(spark 2.1.0 with zeppelin 0.7),并尝试
使用
spark.sql可视化
流式
处理结果%spark2 .builder() .master("yarn").getOrCreate()
浏览 4
提问于2017-07-13
得票数 6
1
回答
如何
使用
吡火花将
结构化
流数据写入Cassandra表?
、
、
、
、
这是我运行strm.py文件
的
终端命令 无法
使用
URI org.
apache
.spark:spark-cassand
浏览 0
提问于2020-03-04
得票数 0
1
回答
我可以
使用
spark 2.3.0和pyspark来做
Kafka
的
流处理吗?
、
、
我将
使用
pyspark进行流处理,并
使用
Kafka
作为数据源。 我发现Spark Python API不支持
Kafka
0.10连接器。我可以在Spark 2.3.0中
使用
Kafka
0.8连接器吗?
浏览 14
提问于2018-03-02
得票数 4
2
回答
Spark (2.2):
使用
结构化
流对
Kafka
中
的
Thrift记录进行反序列化
、
、
、
我是spark
的
新手。我
使用
结构化
流媒体从
kafka
中读取数据。我可以在Scala中
使用
以下代码读取数据: .format("
kafka
") .option("startingOffsets"
浏览 1
提问于2017-10-19
得票数 2
1
回答
使用
列标题将Python JSON数据
流式
传输到PySpark数据帧中
、
、
我
使用
从
Kafka
Source到PySpark Dataframe
的
结构化
流。
Kafka
提供
的
数据类型是JSON,结构如下: {"user_id":1,...,id |user_id|status | ---------
浏览 15
提问于2020-06-19
得票数 1
回答已采纳
1
回答
如何在Spark流媒体app中查询
Kafka
发送
的
Hive表?
、
、
我有一个Spark Streaming应用程序,可以从
Kafka
中读取记录中
的
配置单元表名,例如table1。table2..table3..等。我想在hive表上执行
结构化
查询,并将结果
流式
传输到另一个
Kafka
主题。val hqls = rdd当我执行此命令时,我在sparkSession.sql调用中得到一个NullPointerException,如下所示: org.
ap
浏览 0
提问于2019-02-25
得票数 1
2
回答
从
kafka
中
的
投票记录创建批次
、
、
我们想知道是否有更好
的
方法对数据进行批处理,并在进行批处理时避免数据丢失。initialize(topic, consGroup, STREAMSERDE.STRINGDESER, STREAMSERDE.JSONDESER, props); throwable.printStackTrace(); }克隆数据以避免数据丢失
的
代码listOfMessages.a
浏览 1
提问于2019-01-22
得票数 0
1
回答
k8s上
的
Spark
结构化
流媒体
、
我们正在
使用
spark 2.4.3运行一个
结构化
的
流式
处理过程,它从
kafka
读取数据,转换数据(
使用
udf平面化并创建一些列),然后将数据写回
kafka
到不同
的
主题。10-12小时后,我们注意到由于高内存消耗,我们
的
pod正在下降。正如我上面解释
的
那样,我们没有聚合,也没有在数据集上
使用
持久化。我们注意到
的
是堆内存在不断增长。有什么想法吗?
浏览 17
提问于2019-07-08
得票数 1
1
回答
Spark结构流作业被卡住数小时而未被杀死
、
、
、
、
我有一个
结构化
的
流式
作业,从
kafka
读取,执行聚合和写入hdfs。该作业在yarn中以群集模式运行。我
使用
的
是spark2.4。每隔2-3天,这项工作就会卡住。它不会失败,但会卡在某个微批处理中。当我终止
流式
作业并重新启动时,该作业再次开始正常运行。如何解决这个问题?
浏览 34
提问于2020-10-03
得票数 0
1
回答
处理Spark结构流中
的
二进制数据
、
、
、
我
使用
的
是
Kafka
和Spark
结构化
流媒体。我收到了以下格式
的
kafka
消息。Dataset<String> data = spark .format("
kafka
")在我
的
json消息中,"data“是byte[]
的
字符串形式。
浏览 0
提问于2017-02-24
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
流式处理:使用 Apache Kafka的Streams API 实现 Rabobank 的实时财务告警
使用Apache Kafka的Golang实践指南
使用 Kafka 和动态数据网格进行流式数据交换
“Kafka技术”Apache Kafka中的事务
Apache Kafka的安装与配置(一)
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券