腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
sparking
流
无法
写入
hdfs
路径
、
、
、
、
.trigger(Trigger.ProcessingTime("15 seconds")) 在将数据
写入
我的
hdfs
路径
(即parqetFileName)后,它会失败,并显示以下错误。parquet/raw/part-00001-7cba7fa3-a98f-442d-9584-b71085b7cd82-c000.snappy.parquet] WARN org.apache.hadoop.
hdfs
浏览 31
提问于2019-11-22
得票数 1
1
回答
HDFS
文件接收器输出作为另一个
流
-争用条件的文件
流
输入?
、
、
我正在使用结构化流来评估一个15节点星火集群中的特定数据
流
。我在我的应用程序中定义了两个
流
查询: SQ2 -从
HDFS
(与上面相同的
路径
)读取数据作为文件
流
,->使用ForeachWriter进一步处理->
写入
外部数据库。我的问题--我是否在这里看到了
浏览 3
提问于2018-07-13
得票数 4
1
回答
火花结构化流动态更改
hdfs
写入
路径
、
、
我有一个火花结构化
流
应用程序,它从kafka读取数据并将其
写入
hdfs
。我想根据当前日期动态更改
hdfs
写入
路径
,但似乎结构化
流
并不是这样工作的。它只创建应用程序启动日期的一个文件夹,并继续
写入
同一个文件夹,即使日期更改。有任何方法可以根据当前日期动态更改
路径
吗?format(writeformat) .option("path",outPath+inputFormat.format((new java.
浏览 2
提问于2019-04-12
得票数 1
回答已采纳
3
回答
火花
流
无法
读取从
hdfs
中的水槽中创建的文件
、
、
、
、
我创建了一个实时应用程序,在这个应用程序中,我使用flume从weblog中将数据
流
写入
hdfs
,然后使用火花
流
处理该数据。但是,尽管flume正在
hdfs
中编写和创建新文件,但spark
流
无法
处理这些文件。如果我使用put命令将这些文件放到
hdfs
目录中,火花
流
就能够读取和处理这些文件。
浏览 9
提问于2015-06-09
得票数 2
回答已采纳
1
回答
火花
流
预写日志是否将接收到的所有数据保存到
HDFS
?
、
如果在火花
流
中启用了预写日志,是否所有接收到的数据都
写入
了
HDFS
路径
?或者它只写元数据。清理是如何工作的,
HDFS
路径
是否每天都在变大?我是否需要写一个清理作业来删除写前日志文件夹中的数据?
浏览 4
提问于2015-11-20
得票数 1
回答已采纳
1
回答
反序列化内存中的Hadoop序列文件对象
、
、
、
、
Pyspark有一个函数sequenceFile,它允许我们读取存储在
HDFS
中的序列文件,或者所有节点都可以使用的本地
路径
。例如,我正在处理的应用程序(不能更改应用程序逻辑)运行一个火花作业,它将该文件
写入
非
HDFS
兼容的文件系统,然后我可以作为内存中的python字节对象检索该文件,该对象似乎只包含一个序列化的序列对象,而我应该能够在内存中反序列化该对象因为这个对象已经在内存中(因为我
无法
控制),所以我必须反序列化它并实际看到输出(这是一个json文件)的唯一方法是在本地将它写成一个文件,将该文件移动
浏览 15
提问于2021-12-08
得票数 1
1
回答
使用
HDFS
-Dataset保存
无法
更新kerberos票证的avro数据的springxd
流
、
、
、
我创建了一个springxd
流
====>源-JMS队列->转换-自定义->处理器(XML )-> Sink -
HDFS
。
流
运行非常好,但24小时后,由于它的持续连接,它
无法
更新kerberos身份验证票证,因此停止了对
HDFS
的
写入
。我们正在重新启动部署此
流
的容器,但仍然面临问题,并且丢失消息,因为它们甚至没有发送到redis错误队列。 如果我们可以续订
流
的kerberos票证。我在springxd文档中找不到
浏览 5
提问于2017-06-21
得票数 1
回答已采纳
1
回答
在通过
hdfs
连接器从kafka
写入
时,是否有一种限制avro文件大小的方法?
、
、
、
目前,我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold,将
写入
HDFS
上avro/json文件的数据大小限制在128 on。由于我们在新项目中没有使用高级Flink特性,所以我们希望使用Kafka Connect
HDFS
Connector中的Kafka
流
直接将消息
写入
hdfs
(而不是旋转Flink)。但是,我
无法
找到限制卡夫卡连接器中
hdfs
文件的文件大小的选项,除了flush.s
浏览 0
提问于2018-08-08
得票数 1
回答已采纳
1
回答
当减速器完成时调用映射器
、
、
、
、
我执行这项工作的目的是:-reducer kmeans_reducer.py -input gutenberg/small_train.csv -output gutenberg/out 当两个减
浏览 1
提问于2016-02-07
得票数 0
回答已采纳
1
回答
HDFS
接收器支持在Spring中
写入
序列文件吗?
我想在
流
处理中使用
HDFS
接收器将二进制键值对的数据
写入
HDFS
。因此,像序列文件这样的薄包装格式就足够了。
HDFS
接收器模块支持将键值
写入
HDFS
序列文件吗? 提前感谢!
浏览 3
提问于2015-06-10
得票数 0
回答已采纳
1
回答
Hadoop Yarn
写入
本地文件系统
、
、
、
在当前的工作
流
中,数据被读取,转换成序列文件,处理后的小文件以序列文件的形式输出到
HDFS
。然而,非Hadoop算法
无法
理解序列文件。这里的问题是,对于最后一个作业,我必须从
HDFS
读取Sequence Files,并将其
写入
要由非Hadoop算法处理的每个节点的本地文件系统。我已经尝试将输出
路径
设置为file:///<local-fs-path>并使用Hadoop LocalFileSystem类。但是,这样做只会将最终结果输出到namenod
浏览 20
提问于2017-08-21
得票数 2
1
回答
如何停止Hadoop cat:在shell中运行循环时
无法
自动
写入
输出
流
?
我想写一个循环的外壳,并执行'hadoop fs -cat‘命令,但当它完成时,它将显示’猫:
无法
写入
到输出
流
‘,所以它不能进入循环的下一步。并且我需要使用ctrl+c手动停止它。那么如何停止Hadoop cat:当在shell中运行循环时
无法
自动
写入
输出
流
?shell如下所示: echo "$i"; cd $i hadoop fs -cat
hd
浏览 27
提问于2018-08-29
得票数 0
2
回答
从Java执行Pig脚本时出错
、
、
我使用下面的代码从java中运行pig:import org.apache.pig.PigServer; public static void main(String[] args) { PigServer pigServer = new PigServer(ExecType.MAPREDUCE); }catch(Exception e) {
浏览 2
提问于2016-03-11
得票数 0
1
回答
将数据从
hdfs
写入
运动
流
、
、
、
我需要将
hdfs
中的数据
写入
到kinesis
流
中,以便进一步计算。有人可以指导我如何将数据从
hdfs
放到kinesis
流
中吗?例如,我在
hdfs
上有拼图格式的数据。我现在想把数据放到动态
流
中。
浏览 2
提问于2017-09-23
得票数 0
1
回答
对从
HDFS
接收器
写入
的数据添加前缀的contentType
我正在使用
HDFS
接收器并
写入
HDFS
。但是我
写入
HDFS
的有效负载是以? contentType "text/plain“为前缀的,尽管这不在有效负载中。请让我知道为什么这是前缀和如何删除它。
流
创建--定义“:
流
同步> myprocessor --spring.cloud.stream.bindings.output.content-type=text/plain --spring.cloud.stream.bindings.inp
浏览 4
提问于2017-03-09
得票数 0
回答已采纳
1
回答
微笑-模型持久性-如何将模型
写入
HDFS
?
、
、
我试图在我的Scala项目中使用,该项目使用了Spark和
HDFS
。为了我的模型的可重用性,我需要将它们
写入
HDFS
。现在我正在使用对象,预先检查
路径
是否存在,如果不存在则创建
路径
(否则会抛出一个FileNotFoundException): outputFile.createNewFile();write(mySmileModel, pa
浏览 2
提问于2020-11-11
得票数 2
回答已采纳
3
回答
Flink 1.6压缩接收器
HDFS
文件卡在.in-progress中
、
、
、
、
我正在将Kafka数据
流
写入
HDFS
路径
中的bucketing接收器。Kafka会给出字符串数据。supergroup 4053052 2018-10-19 19:16 /streaming/2018-10-19--19/_part-3-1.in-progress 只有当我使用一些映射函数来动态操作
流
数据时如果我直接将
流
写入
HDFS
,它工作得很好。你知道为什么会发生这种事吗?我使用的是Flink 1.6.1、Hado
浏览 0
提问于2018-10-20
得票数 0
1
回答
Oozie错误: E1310: E1310 :捆绑作业提交错误:[空]
、
我创建了一个由几个协调器和各自的工作
流
组成的oozie包。该捆绑包以前运行良好,但随着添加新的工作
流
,它完全停止工作。问题是,我在-dryrun或run上没有得到任何有意义的错误。
浏览 0
提问于2016-04-29
得票数 2
1
回答
如何根据内容
写入
不同的文件,以便在Flink中进行批处理?
、
我正在尝试处理
HDFS
上的一些文件,并将结果写回
HDFS
。在作业开始之前,文件已经准备好了。问题是,我想根据文件内容
写入
不同的
路径
和文件。我知道BucketingSink()是为了在Flink
流
中实现这一点而提供的。然而,Dataset似乎没有类似的API。我发现了一些关于堆栈溢出的问题(,,)。现在我想我有两个选择: 以
流
的形式读取文件并使用BucketingSink。
浏览 0
提问于2019-03-19
得票数 0
回答已采纳
2
回答
处理Spark
流
rdd并存储到单个
HDFS
文件
、
、
、
我正在使用卡夫卡火花
流
获得
流
数据。 runConfigParser是一种JAVA方法,它解析一个文件并生成一个输出,我必须将其保存在
HDFS
因此,多个节点将处理RDD并将输出
写入
单个
HDFS
文件。因为我想把它装进蜂巢里。我是否应该输出runConfig
浏览 5
提问于2015-07-28
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
分布式文件系统的备份
好程序员大数据学习路线分享分布式文件系统HDFS
如何将kafka中的数据快速导入Hadoop?
深度分析分布式文件系统(Hadoop HDFS)客户端写入机制
Hadoop分布式文件系统(HDFS)基础概念讲解
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券