我正在使用诸如:.join、.where、filter等方法,将已知的工作SQL查询转换为pyspark中的工作,给定了两个数据格式。rv ON r.id = rv.record_id WHERE r.job_id = 41 AND rv.record_id is not null;
我已经快到80/20了,但是在最后几个步骤中,我的头有问题我有一个带有列r_df的Datafram
所以我有一个很大的数据帧列表,其中一些有匹配的列,而另一些没有。我希望重新绑定具有匹配列的变量,并合并其他没有匹配列的变量(基于变量Year、Country)。但是,我不想手动遍历所有数据帧来查看哪些有匹配的列,哪些没有匹配的列。else put them in another list and merge.