腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中将
Kafka
的
结果
写入
csv
、
、
我已经设置了一个
Kafka
代理,并且我设法用
pyspark
读取记录。, SparkContext, SQLContext, Rowfrom
pyspark
.streaming.
kafka
ssc.start()返回数据示例(时间戳,名称,姓氏,高度):我想将这些记录
写入</em
浏览 12
提问于2020-05-20
得票数 0
1
回答
Spark Structred Streaming
Pyspark
Sink
Csv
不附加
、
、
、
、
向
Kafka
topic
写入
json,并从
kafka
Topic读取json。实际上,我是逐行订阅主题和编写控制台
的
。但我必须接收/
写入
文件
csv
。但是我不能。我只写了一次
csv
,但没有附加。你可以在下面看到我
的
代码。 谢谢!import
pyspark
from
pyspark
.sql.types import *
浏览 23
提问于2020-01-11
得票数 1
回答已采纳
1
回答
Pyspark
结构化流处理
、
、
我正在尝试用spark做一个结构化
的
流媒体应用程序,主要思想是从
kafka
源读取,处理输入,写回另一个主题。我已经成功地让spark读写了
kafka
,但是我
的
问题出在处理部分。我尝试过foreach函数来捕获每一行并在写回
kafka
之前对其进行处理,但是它总是只做foreach部分,而不会写回
kafka
。但是,如果我从writestream中删除foreach部分,它将继续
写入
,但现在我丢失了处理。 如果有人能给我举一个例子,告诉我如何做到这一点,我将非常感激。以下是我
浏览 37
提问于2019-07-17
得票数 0
回答已采纳
1
回答
Spark流式数据以更新SQL Server (事务)
、
目前我有一些
pyspark
代码,它是从
kafka
主题读取数据(readStream),我计划使用事务更新SQL Server表。流数据将具有所有三个插入、更新、删除事务。
浏览 2
提问于2020-01-29
得票数 0
1
回答
CDH星火消费者kerberos
kafka
、
、
、
、
有没有人尝试使用spark-steaming(
pyspark
)作为CDH中kerberos
KAFKA
的
消费者?是不是CDH不支持?
浏览 2
提问于2018-02-08
得票数 1
2
回答
pyspark
streaming DStreams to
kafka
主题
、
、
、
简单地说,有没有可能将DStream流式传输到
Kafka
主题? 我有火花流作业,它做了所有的数据处理,现在我想把数据推送到卡夫卡主题。
在
pyspark
中可以做到这一点吗?
浏览 1
提问于2018-06-08
得票数 0
2
回答
如何使用
pyspark
读取hdfs
kafka
数据?
、
、
、
、
我正在尝试读取通过
Kafka
和SparkStreaming获取
的
HDFS存储
的
数据。数据保存在本地主机:50070
的
默认hadoop浏览器中。 然后,
在
pyspark
应用程序中,我尝试使用sparkContext.textFile读取数据。问题是我读取
的
数据(使用python或localhost:50070中
的
“手工”)也包含元数据。然后拆分和解析长字符串以获得“值”内容并不是最好
的
主意。还是拯救本身
的
问题?
浏览 0
提问于2018-01-22
得票数 0
回答已采纳
2
回答
如何将电火花数据发送到卡夫卡主题?
、
、
、
、
火花放电版本- 2.4.7卡夫卡版本- 2.13_3.2.0findspark.init("/usr/local/spark") from
pyspark
.sql import S
浏览 21
提问于2022-06-13
得票数 0
1
回答
pySpark
:将
Kafka
流放入parquet中,并从远程会话读取parquet
、
、
、
、
Spark读取
Kafka
流。stream_df = spark.readStream.format("
kafka
")\ .option("
kafka
.bootstrap.servers", "
kafka
1:19091")\并将stream_df
写入
拼图文件。从不同
的
docker容器中,我尝试读取拼图文件。但是如果提交一个读取spark容器上拼花文件
的
应用程序,我就可以访问数据... 我已经尝试了
浏览 36
提问于2021-04-29
得票数 0
1
回答
PySpark
:关于调用df.foreach方法
的
PicklingError
、
、
、
我有一个代码(
kafka
_producer.py),从
csv
>>中读取,创建Pandas dataframe >>,将熊猫
的
数据转换为星星之火>>调用>>方法,将消息发送给
kafka
。df = pd.read_
csv
(path,sep=sep) print("Converting Pandas(df)
浏览 37
提问于2022-05-27
得票数 0
回答已采纳
4
回答
如何在结构化流式传输
中将
数据帧转换为rdds?
、
我使用
pyspark
流从
kafka
获取数据,
结果
是一个dataframe,当我将dataframe转换为rdd时,它出错了: Traceback (most recent call last):
pyspark
.sql.utils.AnalysisException: 'Queries with streamingsources must be executed wi
浏览 56
提问于2020-01-06
得票数 3
1
回答
在
火花流/结构化流中阅读
Kafka
的
avro消息
、
、
、
、
火花版本: 2.3.0卡夫卡版本: 2.2.0 我有一个卡夫卡生产者,它以avro格式发送嵌套数据,我正在尝试用火花流/结构化流写代码,这将反序列化从
kafka
到dataframe
的
avro,做转换,把它以拼花格式写成我能够
在
spark/scala中找到avro转换器,但是还没有增加对
pyspark
的
支持。如何在火花放电中转换相同
的
内容。谢谢。
浏览 3
提问于2019-05-02
得票数 3
回答已采纳
2
回答
运行火星与卡夫卡在木星笔记本
、
、
、
我可以
在
终端机运行这个。我
的
终端命令是:import os os.environ['
PYSPARK
_SUBMIT_ARGS'] = "--packages org
浏览 3
提问于2018-04-16
得票数 1
1
回答
Pyspark
Structred Streaming Parse嵌套Json
、
、
、
、
我
的
项目是,写json到
Kafka
主题,并从
kafka
主题读取json,最后下沉一个
csv
。一切都很好。但有些关键字是嵌套
的
json。如何解析json中
的
列表?temp", "d": [{"test1": "car", "test2": 345}, {"test3": "animal", "test4": 1}], "e"
浏览 14
提问于2020-01-12
得票数 0
1
回答
Pyspark
:云存储中来自多个文件
的
增量ETL
、
、
、
、
我有大约500-700
csv
文件
的
日志加载每周。文件名是每周随机生成
的
。这些文件存储
在
google云存储上,
pyspark
在
google dataproc上运行,有几个工作节点。我以为我会在bigquery表上看到增量加载,但似乎
pyspark
会将整个gz输入文件合并到dataframe中,然后立即处理它。所以我
在
大约90分钟后得到了
结果
。我如何编写
pyspark
代码,以便每次读取文件时,都会将其
写入</e
浏览 22
提问于2021-10-10
得票数 1
1
回答
从
Kafka
读取
的
火花结构化流应用程序只返回空值。
、
、
、
我计划使用Spark结构化流从
Kafka
中提取数据,但我得到了空数据。# -*- coding: utf-8 -*-from
pyspark
.sql.functions import from_
csv
= SparkSession \ .appName("
pyspark
_structured_streaming_
kafka
") \Laptop
浏览 2
提问于2021-02-04
得票数 1
回答已采纳
1
回答
从writeStream读取到json文件,但在HDFS json文件中只找到一条消息。
、
、
只需设置一个hadoop/
kafka
/星火,一个节点演示环境。
在
pyspark
中,我尝试读取(.readStream)
Kafka
消息,并在hadoop
中将
它
写入
(.writeStream)到json文件。奇怪
的
是,
在
hadoop "output/test“目录下,我可以找到一个创建
的
json文件,但只有一个消息。卡夫卡
的
所有新消息都不会更新json文件。但是我想把卡夫卡<em
浏览 2
提问于2022-08-27
得票数 0
1
回答
基于dashbord可见性
的
PySpark
结构化流查询
、
、
我编写了一些连接到
kafka
broker
的
示例代码,从主题读取数据并将其放入snappydata表。from
pyspark
.conf import SparkConffrom
pyspark
.sql import SQLContext主题中读取,并在snappydata表中
写入
。我不明白为什么我没有
在
SnappyData仪表板UI中看到这个流查询--
在
控制台中提交了
浏览 1
提问于2020-11-30
得票数 0
回答已采纳
1
回答
执行Spark streaming从
Kafka
主题读取数据时出错
、
、
、
我是卡夫卡和斯帕克
的
新手。我已经通过
Kafka
生产者传递了消息,并试图
在
spark流中读取,但在main方法中遇到错误。代码如下所示。spark-submit --packages org.apache.spark:spark-streaming-
kafka
-0-8_2.11:2.4.7 Streaming Example.pyfrom
pyspark
import SparkContextfrom <e
浏览 15
提问于2021-05-27
得票数 0
1
回答
如何使用
Kafka
格式化Azure Eventhub
的
pyspark
连接字符串
、
、
、
我正在尝试从一个启用了
Kafka
兼容性
的
Azure Eventhub中使用
Pyspark
解析JSON消息。我找不到任何有关如何建立连接
的
文档。import osfrom
pyspark
.streaming import StreamingContext from
pyspark
.streaming.
kafka
浏览 9
提问于2019-08-19
得票数 0
回答已采纳
点击加载更多
相关
资讯
PySpark,一个大数据处理利器的Python库!
一个Python大数据处理利器:PySpark入门指南
深入理解Kafka Connect:转换器和序列化
Apache Spark 2.4 内置的 Avro 数据源实战
一款开源的数据采集同步ETL工具
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券