腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
通过
指定
的
模式
使用
spark
streaming
读取
数据
帧
、
、
、
我正在尝试
使用
Spark
streaming
将csv文件从AWS S3
读取
到dataframe中,但是
数据
并没有存储在所需
的
列中,相反,它们只在1列中输入,而其他列是空
的
。需要一种方法,我可以采取
的
csv文件作为格式
的
输入。 我已尝试添加架构。删除架构并尝试推断架构状态时,必须
指定
架构。StructField("high",StringType,true) :: StructField(&
浏览 12
提问于2019-07-02
得票数 0
回答已采纳
1
回答
以Kafka为源
的
结构化流中
的
JSON
模式
推理
、
我目前正在
使用
从Kafka主题中
读取
json
数据
。json作为字符串存储在主题中。为了实现这一点,我提供了一个硬编码
的
JSON
模式
作为StructType。我正在寻找一种在流过程中动态推断主题
模式
的
好方法。这是我
的
代码:(这是Kotlin,而不是通常
使用
的
Scala) .readStream() .option
浏览 2
提问于2020-10-21
得票数 1
回答已采纳
13
回答
在将csv文件作为
数据
帧
读取
时提供架构
、
、
、
、
我正在尝试将csv文件
读取
到
数据
帧
中。我知道我
的
csv文件之后,我知道我
的
数据
帧
的
模式
应该是什么。另外,我
使用
spark
csv包来
读取
该文件。我尝试
指定
模式
,如下所示。databricks-datasets/wikipedia-datasets/data-001/pagecounts/sample
浏览 3
提问于2016-10-08
得票数 66
1
回答
解析pyarrow.parquet.ParquetDataset对象
的
模式
、
我正在
使用
pyarrow从s3
读取
拼图
数据
,我希望能够解析
模式
并将其转换为适合在
Spark
外部运行mLeap序列化模型
的
格式。 这需要解析
模式
。如果我有一个Pyspark
数据
帧
,我可以这样做: test_df =
spark
.read.parquet(test_data_path) schema = [ { "name" : field.simpleString
读取
数据<
浏览 47
提问于2018-12-20
得票数 0
2
回答
inferSchema=true不适用于csv文件
读取
n火花结构化流
、
、
、
(DataSource.scala:115) at org.apache.
spark
.sql.
streaming
.DataStreamReader.load(DataStreamReader.scala:232) at org.apache.
spark
.sql.
streaming</
浏览 18
提问于2021-10-17
得票数 4
回答已采纳
3
回答
星火Python Avro Kafka Deserialiser
、
、
、
、
我已经在应用程序中创建了一个kafka流,并且可以解析任何
通过
它产生
的
文本。kafkaStream = KafkaUtils.createStream(ssc, zkQuorum, "
spark
-
streaming
-consumer", {topic: 1}) 我想改变这一点,我对python还是新手,我
如何
更改流来解析avro消息?另外,在从Kafka
读取
Avro消息时,
如何
指定
要
使用
的
浏览 4
提问于2015-05-20
得票数 4
2
回答
数据
源io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。
、
、
、
我试图
读取
卡夫卡
的
数据
,并将其上传到格林梅利
的
数据
库
使用
火花。我
使用
的
是格林梅-火花连接器,但我正在获取
数据
源,io.pivotal.greenplum.
spark
.GreenplumRelationProvider不支持流写入。是否格林梅源不支持流媒体
数据
?我曾尝试将
数据
源命名为“绿梅”,并将"io.pivotal.greenplum.
spark
.Gr
浏览 0
提问于2019-04-04
得票数 0
回答已采纳
2
回答
Spark
选项: inferSchema vs header = true
、
、
、
、
对
的
引用 我认为我需要.options("inferSchema" , "true")和.option("header", "true")来打印我
的
标题,但显然我仍然可以打印我
的
csv
的
标题。它需要额外传递一次
数据
,默认情况下为false“
的
含义。
浏览 0
提问于2019-07-08
得票数 13
回答已采纳
1
回答
Spark
Structred
Streaming
Kafka -
如何
从主题
的
特定分区
读取
并进行偏移量管理
、
、
我对
spark
结构化
数据
流和kafka
的
偏移管理是新
的
。
使用
spark
-
streaming
-kafka-0-10-2.11。在消费者中,我
如何
从主题
的
特定分区中
读取
?applicationProperties.getProperty(BOOTSTRAP_SERVERS_CONFIG)) .option("subscribe", topicName) 我正
浏览 22
提问于2019-05-29
得票数 0
1
回答
Spark
Streaming
正在阅读Kafka主题以及
如何
将嵌套
的
Json格式转换为dataframe
、
、
、
、
我能够从Kafka topic
读取
数据
,并能够
使用
spark
streaming
在控制台上打印
数据
。
spark
= SparkSession \ .appName("StructuredSocketRead") \
spark
.spar
浏览 0
提问于2020-11-03
得票数 0
2
回答
Azure Synapse -
如何
从同一集合中包含多个类型
的
Azure Cosmos DB容器中
读取
数据
?
、
我正在尝试
使用
以下代码从Synapse
的
这个容器中
读取
数据
: cfg = {"
spark
.cosmos.accountKey": accountKey,"
spark
.cosmos.container": con
浏览 58
提问于2021-10-28
得票数 0
回答已采纳
1
回答
如何
使用
Spark
-
streaming
进行实时日志分析??(我附加架构镜像)
、
、
Spark
streaming
应用程序实时接收来自大量IoT设备
的
数据
。但它们都是少量
的
数据
。整体流程看起来像是-> Iot -> Kafka(1个主题/所有
数据
) ->火花流(过滤错误日志) -> DB(保存) ->警报屏幕 有没有
使用
spark
或python进行实时日志分析
的
好方法?
浏览 13
提问于2020-11-19
得票数 0
回答已采纳
2
回答
在
spark
结构化流中写入来自kafka / json
数据
源
的
损坏
数据
、
、
在
spark
批处理作业中,我通常会将JSON
数据
源写入到一个文件中,并且可以
使用
DataFrame阅读器
的
损坏列功能将损坏
的
数据
写出到不同
的
位置,并
使用
另一个阅读器从同一作业中写入有效
数据
。(
数据
写为拼接) 但在
Spark
Structred
Streaming
中,我首先
通过
kafka将流作为字符串
读取
,然后
使用
from_jso
浏览 34
提问于2018-12-27
得票数 1
回答已采纳
1
回答
如何
将kafka主题中
的
json字符串读入pyspark dataframe?
、
、
、
我正在尝试将json消息从Kafka主题
读取
到PySpark
数据
帧
中。
Spark
structured
streaming
或类似的方法来获得相同
的
数据
帧
。更新2:我设法添加了所需
的
包,并尝试从kafka
读取
消息:... .readStream \.. .lo
浏览 2
提问于2021-06-04
得票数 0
2
回答
Apache Ignite到亚马逊S3
的
连接
我想知道
如何
将
数据
从亚马逊S3加载到Apache Ignite集群?是否需要单节点或多节点群集?
浏览 5
提问于2017-05-02
得票数 1
1
回答
Spark
Job未将消息发布到Kafka主题
、
、
、
、
我已经编写了
spark
作业来
读取
一个文件,将
数据
转换为json并将
数据
发布到Kafka:我尝试了所有选项,如1. posting thread.sleep 2.更改linger.ms小于thread.sleep.But如果我写一个简单
的
独立制作人来发布消息到相同
的
kafka主题,它是没有任何问题
的
。因此,卡夫卡本身不存在任何问题。4.我可以看到我
的
发送方法是从日志中调用
的
,.Also在结束时被调用.No错误。以下是我
的</em
浏览 0
提问于2020-06-10
得票数 0
1
回答
Spark
streaming
和kafka集成
、
、
、
、
我正在为一个用python编程
的
项目
使用
kafka和
spark
streaming
。我想将kafka producer
的
数据
发送到我
的
流媒体程序中。当我
使用
指定
的
依赖关系执行以下命令时,它可以顺利地工作:是否有任何方法可以
指定
依赖项并直接运行流代码(例如,不
使用
spark
-submit或
使用
<e
浏览 2
提问于2017-06-26
得票数 0
1
回答
使用
Spark
流
的
红移
、
、
、
我有一个Kafka -
Spark
流应用程序,可以每分钟摄取和处理60K个事件。我需要一个
数据
库来存储我转换后
的
数据
帧
,以供可视化层访问。Redshift可以与
Spark
Streaming
一起
使用
吗?还是应该
使用
Cassandra?我将在每30秒
的
spark
窗口中处理和存储
数据
帧
。另外,我需要从每个窗口
的
数据
存储中
读取
浏览 0
提问于2017-09-28
得票数 0
2
回答
用消防软管从分区文件夹中
读取
JSON
、
、
、
那么我
如何
使用
Spark
2.0来
读取
这些嵌套
的
子文件夹,并从所有的叶json文件中创建一个静态
的
Dataframe呢?
数据
阅读器有“选项”吗?我
的
下一个目标是成为一个流DF,火龙将新文件持久化到s3中,
使用
Spark
2.0中
的
新结构化流自然成为流
数据
的
一部分。我知道这都是实验性
的
--希望有人以前曾
使用
过S3作为流文件源,在这里,
浏览 4
提问于2016-10-30
得票数 8
1
回答
如何
从PySpark DStream写到Redis?
、
、
、
、
我正在
使用
Redis2.3.1从Kafka中
读取
一系列
的
值作为DStreams,我想对这些
数据
进行一些转换,比如取一个移动平均值,然后将其保存到PySpark中。
streaming
context (=connection to
Spark
)total = prices.reduce(lambda x, y: x +
浏览 32
提问于2019-06-22
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark Streaming 中管理 Kafka Offsets 的几种方式
如何在万亿级别规模的数据量上使用 Spark?
如何在万亿级别规模的数据量上使用Spark
Spark Streaming如何读Kafka数据 Hbase如何设计表
Spark Streaming+Kafka的offset管理方法
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券