我正在寻找一种方法来减少在我的大型数据集上计算SHAP值所需的计算时间(大约180米行,6个特性),我遇到了这个,讨论了如何在SHAP上使用PySpark。def calculate_shap(iterator: Iterator[pd.DataFrame]) -> Iterator[pd.DataFrame]:
for X in iterator代码片段演示了如何在PySpark中使用Pandas并行化应用扩展程序。我们定义了一个名为calculate_
我有一个带有纬度和经度列的Spark SQL DataDrame,我试图通过计算到输入的距离来过滤低于阈值的行。我当前的代码看起来像这样。我使用geopy (great_circle)来计算后面长对之间的距离。Cannot convert column into bool: please use '&' for 'and', '|' for 'or', '~' for 'not' when building DataFram