我刚刚开始使用Pyspark,我希望将一个文件保存为csv,而不是文本文件。我尝试使用在堆栈溢出中找到的几个答案,例如 return ','.join(str(d) for d in data) rdd = lines.map(toCSVLine)它的工作原理是我可以在excel中打开它,但是所有的信息都被放入
我正在从hdfs读取一个管道分隔的文本文件。我想要将这个文件存储为一个数据文件,以便进行进一步的相关操作。我能够从hdfs读取文件,现在我想知道如何将它转换成数据格式。有可能吗?input=sc.textFile("hdfs://host/user/data/file1.txt") ## it is RDD
如果第一种方式是不可
我正在使用本地窗口,并试图用python上的以下代码加载XML文件,我遇到了这个错误,有人知道如何解决它吗?990.s3.amazonaws.com/201611339349202661_public.xml")
1135 for temp_arg in temp_args:
C:\SPARK_HOME\spark-2.2.0-bin-hadoop2.7\py