sparking流无法写入hdfs路径

、、、、

.trigger(Trigger.ProcessingTime("15 seconds")) 在将数据写入我的hdfs路径(即parqetFileName)后，它会失败，并显示以下错误。parquet/raw/part-00001-7cba7fa3-a98f-442d-9584-b71085b7cd82-c000.snappy.parquet] WARN org.apache.hadoop.hdfs

浏览 31提问于2019-11-22得票数 1

1回答

HDFS文件接收器输出作为另一个流-争用条件的文件流输入？

、、

我正在使用结构化流来评估一个15节点星火集群中的特定数据流。我在我的应用程序中定义了两个流查询： SQ2 -从HDFS (与上面相同的路径)读取数据作为文件流，->使用ForeachWriter进一步处理->写入外部数据库。我的问题--我是否在这里看到了

浏览 3提问于2018-07-13得票数 4

1回答

火花结构化流动态更改hdfs写入路径

、、

我有一个火花结构化流应用程序，它从kafka读取数据并将其写入hdfs。我想根据当前日期动态更改hdfs写入路径，但似乎结构化流并不是这样工作的。它只创建应用程序启动日期的一个文件夹，并继续写入同一个文件夹，即使日期更改。有任何方法可以根据当前日期动态更改路径吗？format(writeformat) .option("path",outPath+inputFormat.format((new java.

浏览 2提问于2019-04-12得票数 1

回答已采纳

3回答

火花流无法读取从hdfs中的水槽中创建的文件

、、、、

我创建了一个实时应用程序，在这个应用程序中，我使用flume从weblog中将数据流写入hdfs，然后使用火花流处理该数据。但是，尽管flume正在hdfs中编写和创建新文件，但spark流无法处理这些文件。如果我使用put命令将这些文件放到hdfs目录中，火花流就能够读取和处理这些文件。

浏览 9提问于2015-06-09得票数 2

回答已采纳

1回答

火花流预写日志是否将接收到的所有数据保存到HDFS？

、

如果在火花流中启用了预写日志，是否所有接收到的数据都写入了HDFS路径？或者它只写元数据。清理是如何工作的，HDFS路径是否每天都在变大?我是否需要写一个清理作业来删除写前日志文件夹中的数据？

浏览 4提问于2015-11-20得票数 1

回答已采纳

1回答

反序列化内存中的Hadoop序列文件对象

、、、、

Pyspark有一个函数sequenceFile，它允许我们读取存储在HDFS中的序列文件，或者所有节点都可以使用的本地路径。例如，我正在处理的应用程序(不能更改应用程序逻辑)运行一个火花作业，它将该文件写入非HDFS兼容的文件系统，然后我可以作为内存中的python字节对象检索该文件，该对象似乎只包含一个序列化的序列对象，而我应该能够在内存中反序列化该对象因为这个对象已经在内存中(因为我无法控制)，所以我必须反序列化它并实际看到输出(这是一个json文件)的唯一方法是在本地将它写成一个文件，将该文件移动

浏览 15提问于2021-12-08得票数 1

1回答

使用HDFS-Dataset保存无法更新kerberos票证的avro数据的springxd流

、、、

我创建了一个springxd流====>源-JMS队列->转换-自定义->处理器(XML )-> Sink -HDFS。流运行非常好，但24小时后，由于它的持续连接，它无法更新kerberos身份验证票证，因此停止了对HDFS的写入。我们正在重新启动部署此流的容器，但仍然面临问题，并且丢失消息，因为它们甚至没有发送到redis错误队列。如果我们可以续订流的kerberos票证。我在springxd文档中找不到

浏览 5提问于2017-06-21得票数 1

回答已采纳

1回答

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

、、、

目前，我们使用Flink FsStateBackend检查点并设置fileStateSizeThreshold，将写入HDFS上avro/json文件的数据大小限制在128 on。由于我们在新项目中没有使用高级Flink特性，所以我们希望使用Kafka Connect HDFS Connector中的Kafka流直接将消息写入hdfs (而不是旋转Flink)。但是，我无法找到限制卡夫卡连接器中hdfs文件的文件大小的选项，除了flush.s

浏览 0提问于2018-08-08得票数 1

回答已采纳

1回答

当减速器完成时调用映射器

、、、、

我执行这项工作的目的是：-reducer kmeans_reducer.py -input gutenberg/small_train.csv -output gutenberg/out 当两个减

浏览 1提问于2016-02-07得票数 0

回答已采纳

1回答

HDFS接收器支持在Spring中写入序列文件吗？

我想在流处理中使用HDFS接收器将二进制键值对的数据写入HDFS。因此，像序列文件这样的薄包装格式就足够了。HDFS接收器模块支持将键值写入HDFS序列文件吗？提前感谢！

浏览 3提问于2015-06-10得票数 0

回答已采纳

1回答

Hadoop Yarn写入本地文件系统

、、、

在当前的工作流中，数据被读取，转换成序列文件，处理后的小文件以序列文件的形式输出到HDFS。然而，非Hadoop算法无法理解序列文件。这里的问题是，对于最后一个作业，我必须从HDFS读取Sequence Files，并将其写入要由非Hadoop算法处理的每个节点的本地文件系统。我已经尝试将输出路径设置为file:///<local-fs-path>并使用Hadoop LocalFileSystem类。但是，这样做只会将最终结果输出到namenod

浏览 20提问于2017-08-21得票数 2

1回答

如何停止Hadoop cat:在shell中运行循环时无法自动写入输出流？

我想写一个循环的外壳，并执行'hadoop fs -cat‘命令，但当它完成时，它将显示’猫:无法写入到输出流‘，所以它不能进入循环的下一步。并且我需要使用ctrl+c手动停止它。那么如何停止Hadoop cat:当在shell中运行循环时无法自动写入输出流？shell如下所示： echo "$i"; cd $i hadoop fs -cat hd

浏览 27提问于2018-08-29得票数 0

2回答

从Java执行Pig脚本时出错

、、

我使用下面的代码从java中运行pig：import org.apache.pig.PigServer; public static void main(String[] args) { PigServer pigServer = new PigServer(ExecType.MAPREDUCE); }catch(Exception e) {

浏览 2提问于2016-03-11得票数 0

1回答

将数据从hdfs写入运动流

、、、

我需要将hdfs中的数据写入到kinesis流中，以便进一步计算。有人可以指导我如何将数据从hdfs放到kinesis流中吗？例如，我在hdfs上有拼图格式的数据。我现在想把数据放到动态流中。

浏览 2提问于2017-09-23得票数 0

1回答

对从HDFS接收器写入的数据添加前缀的contentType

我正在使用HDFS接收器并写入HDFS。但是我写入HDFS的有效负载是以? contentType "text/plain“为前缀的，尽管这不在有效负载中。请让我知道为什么这是前缀和如何删除它。流创建--定义“：流同步> myprocessor --spring.cloud.stream.bindings.output.content-type=text/plain --spring.cloud.stream.bindings.inp

浏览 4提问于2017-03-09得票数 0

回答已采纳

1回答

微笑-模型持久性-如何将模型写入HDFS？

、、

我试图在我的Scala项目中使用，该项目使用了Spark和HDFS。为了我的模型的可重用性，我需要将它们写入HDFS。现在我正在使用对象，预先检查路径是否存在，如果不存在则创建路径(否则会抛出一个FileNotFoundException)： outputFile.createNewFile();write(mySmileModel, pa

浏览 2提问于2020-11-11得票数 2

回答已采纳

3回答

Flink 1.6压缩接收器HDFS文件卡在.in-progress中

、、、、

我正在将Kafka数据流写入HDFS路径中的bucketing接收器。Kafka会给出字符串数据。supergroup 4053052 2018-10-19 19:16 /streaming/2018-10-19--19/_part-3-1.in-progress 只有当我使用一些映射函数来动态操作流数据时如果我直接将流写入HDFS，它工作得很好。你知道为什么会发生这种事吗？我使用的是Flink 1.6.1、Hado

浏览 0提问于2018-10-20得票数 0

1回答

Oozie错误: E1310: E1310 :捆绑作业提交错误：[空]

、

我创建了一个由几个协调器和各自的工作流组成的oozie包。该捆绑包以前运行良好，但随着添加新的工作流，它完全停止工作。问题是，我在-dryrun或run上没有得到任何有意义的错误。

浏览 0提问于2016-04-29得票数 2

1回答

如何根据内容写入不同的文件，以便在Flink中进行批处理？

、

我正在尝试处理HDFS上的一些文件，并将结果写回HDFS。在作业开始之前，文件已经准备好了。问题是，我想根据文件内容写入不同的路径和文件。我知道BucketingSink()是为了在Flink流中实现这一点而提供的。然而，Dataset似乎没有类似的API。我发现了一些关于堆栈溢出的问题(，，)。现在我想我有两个选择：以流的形式读取文件并使用BucketingSink。

浏览 0提问于2019-03-19得票数 0

回答已采纳

2回答

处理Spark流rdd并存储到单个HDFS文件

、、、

我正在使用卡夫卡火花流获得流数据。 runConfigParser是一种JAVA方法，它解析一个文件并生成一个输出，我必须将其保存在HDFS因此，多个节点将处理RDD并将输出写入单个HDFS文件。因为我想把它装进蜂巢里。我是否应该输出runConfig

浏览 5提问于2015-07-28得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

HDFS文件接收器输出作为另一个流-争用条件的文件流输入？

火花结构化流动态更改hdfs写入路径

火花流无法读取从hdfs中的水槽中创建的文件

火花流预写日志是否将接收到的所有数据保存到HDFS？

反序列化内存中的Hadoop序列文件对象

使用HDFS-Dataset保存无法更新kerberos票证的avro数据的springxd流

在通过hdfs连接器从kafka写入时，是否有一种限制avro文件大小的方法？

当减速器完成时调用映射器

HDFS接收器支持在Spring中写入序列文件吗？

Hadoop Yarn写入本地文件系统

如何停止Hadoop cat:在shell中运行循环时无法自动写入输出流？

从Java执行Pig脚本时出错

将数据从hdfs写入运动流

对从HDFS接收器写入的数据添加前缀的contentType

微笑-模型持久性-如何将模型写入HDFS？

Flink 1.6压缩接收器HDFS文件卡在.in-progress中

Oozie错误: E1310: E1310 :捆绑作业提交错误：[空]

如何根据内容写入不同的文件，以便在Flink中进行批处理？

处理Spark流rdd并存储到单个HDFS文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐