Pyarrow 0.15.1上传空文件到HDFS

文章/答案/技术大牛

发布

1回答

、、

您好，我正在尝试使用pyarrow文件系统接口中的upload方法将csv文件上载到我的HDFS群集：with open('test.csv') as f:由于某种原因，

浏览 14提问于2019-11-22得票数 2

回答已采纳

1回答

使用pyarrow上载将CSV从流写入HDFS

、、、

我正在尝试保存一个熊猫DataFrame到HDFS的CSV格式使用pyarrow上传方法，但CSV文件保存是空的。代码示例可以在下面找到。import ioimport pyarrow as pa buf = io.StringIO()hdfs = pa.hdfs.co

浏览 0提问于2021-07-07得票数 0

1回答

与丹克/潘达斯和火花公子的地板兼容性

、、、、

:///user/<myuser>/<filename>', engine='pyarrow', flavor='spark')sdf = spark.read.parquet: Parquet column cannot be converted in file hdfs://nameservice1/user/<user>&

浏览 4提问于2020-01-28得票数 2

回答已采纳

1回答

用地质公园从HDFS读取shapefile

、、

我的HDFS上有一个shapefile，我想用geopandas (版本0.8.1)在我的木星笔记本中导入它。这是我使用的代码： CPLE_OpenFailedError: hdfs://hdfsha/my_<

浏览 5提问于2021-02-19得票数 1

回答已采纳

3回答

没有名为“pyarrow._orc”的模块

、、、

我在Windows10上使用Anaconda中的pyarrow.orc模块时遇到了问题。import pyarrow.orc as orcTraceback (most recent call last):ModuleNotFoundError: No module named 'pyarrow._orc' 另一方面：import <em

浏览 5提问于2019-11-12得票数 7

回答已采纳

1回答

并行化GZip文件处理火花

、、、、

我有一个巨大的GZip文件列表，需要转换为Parquet。由于GZip的压缩特性，无法对一个文件进行并行化。我可以并行化文件名列表，编写一个处理本地Parquets并将它们保存回HDFS的函数。我完全意识到Spark可以将它们作为RDD读入，

浏览 0提问于2016-02-15得票数 3

2回答

无法使用pyarrow从目录中读取拼图文件

、

我使用pyarrow(0.12.1)从s3读取拼图对象s3 = s3fs.S3FileSystem()我已经尝试过了：-添加一个尾随的正斜杠当我将一个文件的路径提供给它时，它就工作了。显然，它试图从我提供给它的目录中获取文件的方式有问题。

浏览 22提问于2019-11-09得票数 1

1回答

这个‘pyarrow.lib.’的解释是什么？

、、

我正在开发一个HDP集群，并试图使用pyarrow从HDFS读取一个.csv文件。我能够连接到hdfs，并使用info()函数打印有关文件的信息。但是当涉及到读取文件的内容时，我会得到一个pyarrow.lib.ArrowIOError.问题的根源是什么？这是我正在执行的代码import pyarrow as paimport os import

浏览 1提问于2019-04-16得票数 0

回答已采纳

1回答

使用Pyarrow读取分区的拼图文件会占用太多内存

、、、、

我有一个由分区的拼图文件组成的大型Impala数据库。我直接使用HDFS将一个Parquet分区复制到本地磁盘。此分区总共有15 of，由许多文件组成，每个文件大小为10MB。我正在尝试使用Pandas与Pyarrow引擎或Pyarrow直接读取，但它在内存中的大小使用了超过60‘t的RAM，并且它在使用所有内存之前不会读取整个数据集。内存使用量如此之大的原因可能是什么？

浏览 32提问于2019-02-02得票数 1

2回答

如何使用python将熊猫数据帧数据存储到azure blob中？

、、、、

我想以拼图文件格式将处理后的数据存储在pandas dataframe到azure blob中。但在上传到blobs之前，我必须将其作为parquet文件存储在本地磁盘中，然后再上传。我想把pyarrow.table写成pyarrow.parquet.NativeFile，然后直接上传。有没有人能帮我。下面的代码运行正常： import pyarrow as pa import pyarrow.parquet as

浏览 20提问于2019-02-13得票数 3

回答已采纳

5回答

使用Python3与HDFS交互的最佳模块是什么？

、、

我看到有hdfs3，蛇咬伤，还有其他一些。哪一个是最好的支持和全面？

浏览 11提问于2016-10-27得票数 20

回答已采纳

1回答

如何控制pyarrow.dataset.write_dataset是覆盖之前的数据还是追加数据？

、

我正在尝试使用pyarrow.dataset.write_dataset函数将数据写入hdfs。但是，如果我写入一个已经存在并包含一些数据的目录，那么这些数据会被覆盖，而不是创建一个新文件。有没有一种方法可以方便地“追加”到已经存在的数据集，而不必先读入所有数据？我不需要将数据放在一个文件中，我只是不想删除旧的。我现在做什么和不做什么： import pyarrow.dataset as dswrite_o

浏览 62提问于2021-04-13得票数 4

回答已采纳

3回答

Apache Livy cURL不工作火花提交命令。

、、、、

我最近开始使用Scala、HDFS、sbt和Livy。目前我试图创建livy batch。Warning: Skip remote jar hdfs://localhost:9001/jar/project.jar. java.lang.ClassNotFoundException: SimpleApp我的星火提交命令在本地.jar文件中运行得非常好。因此，我在hdfs中转换.jar文件。

浏览 0提问于2018-06-21得票数 1

1回答

PyArrow OSError：[WinError 193] %1不是有效的win32应用程序

、、

我尝试用PyArrow模块开发Hadoop File System 3.3客户端。在Windows10上成功安装了带有conda的PyArrow。> conda install -c conda-forge pyarrowimport pyarrow as pa fs = pa.hdfs.connect-3.8.3-x64\lib\site-packages\pyarrow\hd

浏览 7提问于2020-10-21得票数 0

2回答

rxHadoopCopyFromLocal来自Windows

、、、

从Windows复制到远程HDFS的正确语法是什么？我试图使用RStudio将文件从本地计算机复制到远程hadoop集群这个扔了rxHadoopCopyFromLocal("C:\\path\\to\\file.csv", "/

浏览 6提问于2017-05-23得票数 0

回答已采纳

2回答

从hdfs加载文件csv

、

我试图将CSV文件上载到分布式文件系统hdfs中，其中包括： But I get the following error: 

浏览 1提问于2018-10-31得票数 2

回答已采纳

2回答

将文件上传到hadoop hdfs？

大家好，我是使用hadoop的新手，这是我的大学工作，所以我正在做一些研究，我已经安装了hadoop-2.7.3，但我找不到路径，我应该在哪里上传文件，以便通过hadoop本地主机检查它？此图显示了为数据节点和名称节点创建的文件夹 hdfs文件夹内部如有任何帮助，我们将不胜感激

浏览 2提问于2016-10-31得票数 0

1回答

HDFS TO COS上传了hdfs上的文件到cos，哪怎么把上传到cos的文件直接下载到hdfs？

、

HDFS TO COS上传了hdfs上的文件到cos，哪怎么把上传到cos的文件直接下载到hdfs?

浏览 635提问于2019-02-13

3回答

第一个hadoop项目错误：“输入路径不存在”

当我使用以下代码指定In文件夹时：我收到这个错误： 13/03/03 22:05:27 ERRORPriviledgedActionException as:DEVUSER cause:org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://localhost:9100/use

浏览 1提问于2013-03-04得票数 12

回答已采纳

点击加载更多