我有一个pyspark作业,它将结果数据帧写入本地文件系统中。dynamic and so it will be like avro, json, csv, etc
df.coalesce.write.format(file_format).save('file:///pyspark_data/output') 但我发现了很多内存问题(OOM),而且也需要更长的时间。因此,要将结果df写入本地系统中的单个文件,我需要使用
where(sdf['PRODUCT_ID'].isin(PRODUCTS)) \ .groupBy(lambda x: x['SESSION_ID']) \--> 9 for sess_id, rows in views:
/usr/local/spark/python/pyspark/rdd.py in _load_from_socket
我已经将我的工作代码库从spark 1.6迁移到了2.1。运行我的代码时出现错误。当我使用RDD的toLocalIterator方法时,它显示了错误。我试图从错误日志中获取胶水,但似乎不起作用。())
File "/opt/spark2/python/lib/pyspark.zip/pyspark/rdd.py", line 140, in _load_from_soc