我遇到了一个问题,我试图在Apache气流中执行某些任务。
问题是,记忆是非常有限的,而执行这条熊猫线会使它排除任务,并将其归类为使用过多的记忆。
有没有其他方法可以做到这一点,而不使用与这两个数据文件一样多的内存?
arct_df = arct_df[~arct_df.im_uuid.isin(dadge_df.im_uuid)]
arct_df示例并假设dadge_df在行中有相同的列,只是不同的数据。

发布于 2021-11-25 21:05:46
您不应该使用气流作为数据处理框架,如果您有机会,该操作很可能在数据库上运行得更好。
参见气流最佳做法。
https://stackoverflow.com/questions/70116507
复制相似问题