我正在尝试跟踪我的csv.writer正在写入的行数。在运行代码时,len(list(reader)识别正确的行数,如果为under 100,则编写器继续插入2个新行,这一切都很好,但在第一次循环之后,len(list(reader)将始终求和为0行,从而导致无限循环我认为这是一个内存问题,因为写入器似乎会写入内存,并在最后刷新到磁盘,但刷新文件或重新创建读取器实例并没有帮助。')]
with open('tes
有了这个UDF,我体验到了同样的速度,就好像我只是在python中循环文件一样。那么,是否有可能在火花中完成这样的任务呢?我想要使用火花并行下载和解压缩,以加快它。我通过ssh连接到执行器和驱动程序(它是一个测试集群,因此它只有一个),并且发现只有数据是在执行器上处理的,而驱动程序根本没有做任何事情。为什么是这样?但是,如果文件分布在执行器和驱动程序上,如何做到这一点呢?我还没有找到一种方法来进入仓库的执行者。或者是否可以在UDF中定义一个公共位置来将其写回驱动程序的位置?我想读取比提取的文件与:
dat