从同一csv进行结构化流式写入和读取

、

在我的工作中，我正在将流写入CSV文件，之后我想立即从流中读取。但是我的readstream失败了，因为在独立集群中运行时，我可以看到写流创建了一些crc文件和空白csv文件。# write stream spark.writestream().format("csv").option("path","myfile.csv").s

浏览 15提问于2019-08-08得票数 0

回答已采纳

2回答

结构化流式写入到不同的拼图文件夹

、、、

我正在使用spark structured streaming从kafka主题中读取事件，并对其进行处理并将其写入到parquet中。我必须根据我在事件中获得的键将输出写入不同的文件夹。我尝试使用结构化流式处理示例始终指向特定的文件夹.Do我需要为每个文件夹启动一个流吗？

浏览 2提问于2018-08-13得票数 0

1回答

Spark结构流作业被卡住数小时而未被杀死

、、、、

我有一个结构化的流式作业，从kafka读取，执行聚合和写入hdfs。该作业在yarn中以群集模式运行。我使用的是spark2.4。每隔2-3天，这项工作就会卡住。它不会失败，但会卡在某个微批处理中。当我终止流式作业并重新启动时，该作业再次开始正常运行。如何解决这个问题？

浏览 34提问于2020-10-03得票数 0

1回答

spark structured streaming和batch的接收器相同吗？

、、、、

一个是批处理作业，另一个是结构化流式作业。两者都写入相同的文件接收器。两者具有相同的架构。但是，当从该接收器读取数据时，spark仅读取由流式作业创建的文件，并跳过由批处理作业创建的文件。当我删除这个文件夹时，spark开始读取所有文件。然而，这并不总是可能的，因为在下一个微批spark中将在那里创建另一个_spark_metadata文件夹。如何在spark中读取此接收器中的所有文件。

浏览 13提问于2020-05-20得票数 0

2回答

如何在Mule 4中将大型CSV文件写入SFTP

、、、

我正在尝试将一个大的CSV文件写入SFTP。用于每个拆分记录并使用SFTP连接器写入。但是文件不能到达SFTP。我在这里做错了什么？matcher="filename-regex-filter" doc:id="bbfb12df-96a4-443f-a137-ef90c74e7de1" outputMimeType="application/csv

浏览 18提问于2021-08-26得票数 0

1回答

Apache Nifi :我想将我的数据CSV摄取到Elasticsearch，而不是使用apache nifi将其流式传输到其他处理器

、、、

我不想在将文件从一个处理器传递到另一个处理器时，在Stdout上流式传输我的CSV文件。现在，为了完成这个任

浏览 2提问于2019-08-06得票数 0

2回答

JMETER在线程组之间从相同的CSV文件进行读写

在JMeter中，我有一个创建订单的线程组，我捕获了订单的相关细节，并将其写入csv文件。相反，我想检查是否有从同一csv文件中写入和读取的选项，以避免提前进行数据准备。对如何实现这一点有什么建议吗？在多个用户从同一文件写入和读取的情况下运行时出现的任何约束。谢谢

浏览 0提问于2021-10-14得票数 0

1回答

如何在JMeter中自动更新有效负载中的行值时测试更新端点

、、、、

对于所有其他端点，我能够在处理之前将ID存储在CSV文件中并加载它，但是我希望重用CSV中的值以进行更新，这需要更新和跟踪ID的Row Version属性。我将使用100个用户和100个订单进行测试，因此我需要将每个用户匹配到一个订单，这样他们就不会尝试更新同一个实体。步骤：在JMet

浏览 4提问于2019-10-03得票数 0

1回答

从新位置进行Spark读取保持输出目录不变

、

我有一个spark作业，它从源s3://bucket/ source -1文件夹读取(使用结构化流式API)，并写入s3://bucket/destination-1文件夹。现在，我希望从s3://bucket/source-2读取具有相同模式的数据(检查点位于s3://bucket/checkpoint-2)，但我希望将其附加到相同的s3://bu

浏览 0提问于2021-05-01得票数 1

1回答

我正在尝试将处理后的数据写入HDFS位置。经过长时间的试验和错误方法后，我获得了写入HDFS位置的数据，但现在的问题是，每当我向我的目录(我指向readStream)添加新文件时，旧文件在HDFS位置得到处理和更新。假设我已经开始流式传输，我已经添加了文件-1.csv在我的directory...nothing中被写入到HDFS location..Then我已经添加了文件-2.csv..仍然没有写入到HDFS，接下来我添加了文件-3

浏览 2提问于2019-01-12得票数 0

2回答

在Android文件中读写大JSONObject

、

我正在尝试在文件中写入/读取json对象。json结构很复杂，并且是动态生成的。对于小的json对象，我只需将json转换为字符串，然后进行字符串写入/读取。如何将JSONObject直接流式传输到文件，以及如何从文件直接流式传回JSONObject？

浏览 2提问于2016-06-22得票数 0

4回答

对HDFS文件的一部分运行MR作业

假设您有一个大文件存储在hdtf中，其中包含结构化数据。现在的目标是只处理文件中的一部分数据，就像文件中第二列值介于so和so之间的所有行一样。是否可以启动MR作业，使hdfs仅流式传输文件的相关部分，而不是将所有内容流式传输到映射器。原因是我想通过只处理我需要的部分来加快工作速度。请注意，目标是将数据保存在HDFS中，我不想从数据库中读取和写入数据。

浏览 0提问于2012-01-26得票数 1

回答已采纳

1回答

未显示结构化流式处理的流式处理选项卡

、、、、

我正在使用结构化流媒体来读取csvs和写入kafka。流选项卡未显示在Spark UI中(未使用流上下文)。csvDF = spark .option("sep", ";") .csv("/path/to/directory"

浏览 16提问于2019-05-09得票数 1

回答已采纳

1回答

一个appdomain可以限制在一个目录下吗？

、、

插件应该有尽可能少的信任，因为他们需要，但我希望有一个插件的可能性，以读取和写入文件。如果相关:我正在为插件使用MAF基础设施。

浏览 0提问于2010-05-20得票数 6

回答已采纳

2回答

使用Spark Structured Streaming读取多个Kafka主题并写入不同接收器的最佳方式是什么？

、、、

我正在尝试编写一个火花结构化流式作业，读取多个卡夫卡主题(可能是100)，并根据主题名称将结果写入S3上的不同位置。我已经开发了这段代码，它当前从多个主题读取并将结果输出到控制台(基于循环)，它可以按预期工作。然而，我想了解性能的影响是什么。这是推荐的方法吗？不建议有多个readStream和writeStream操作吗？如果是这样，推荐的方法是什么？

浏览 1提问于2020-06-13得票数 7

1回答