我有两组文件b和c (JSON)。每个文件的数量通常在500-1000之间。现在我正在单独阅读这篇文章。我可以使用多线程同时读取这些代码吗?我有足够的内存和处理器。yc=no of c filesfor num in range(yc):
c_json_file/output/d_c_'+str(nu
我们发现在同时读取时,使用来自GP2或GP3的AWS文件存储(EFS或EBS )非常缓慢。下面是一个例子:这样做一次大约需要16毫秒。但是,如果我在同一个EC2实例上生成8个并行进程,每个进程读取不同集的30个二进制文件,则每个进程平均占用105 ms (比单个进程慢556%)。这几乎就像8读是串行的,而不是并行的</
我使用的是pyspark。
我想在Google地图上加载一个常规的file文件,比如" region -polygon-mapping“文件,其中包含了区域名称和它的多边形。当我处理另一个数据集RDD时,我想在map函数中使用" region - polygon -mapping“,比如测试RDD中的点是否在多边形的区域中。问题是如何在RDD map函数中将json用作常规<em