我有一个例子,来自‘外部’for循环的多个属性与来自‘内部’for循环的多个属性进行比较。这两个循环都在pandas数据帧上,从少量的阅读来看,使用iterrows()进行这种类型的作业通常会很慢。 # do something, such as append to a combined df
有没有一种更合适的方式来对熊猫数据帧执行这种<e
但是,当行数是中等大小(既不大也不小)时,相同的查询运行速度会慢15倍。
解释计划显示,中型数据集上的查询使用嵌套循环作为其联接算法。大型数据集使用散列联接。我可以阻止查询规划器在数据库级别(postgresql.conf)或每个会话(SET enable_nestloop TO off)中使用嵌套循环。