我正在以表的形式将数据库中的表调用到synapse中。然后我的下一步是转换为pandas,这样我就可以运行所有与pandas.However相关的代码。当我将表转换为pandas时,会话将被终止。我已经通过转换为拼花文件,但我不能转换为拼花从一个表,然后读取熊猫数据帧。这方面有没有什么最佳实践:
%pyspark
rawdata = spark.sql("""select Invoice_Flag,
Vendor_Name,Market,
Inv_Age,Inv_Amount_In_GC,
Inv_Early_Late_Flag
FROM default.Regression_copy where Market='India'""")
%%pyspark
model_data= rawdata.select("*").toPandas()
在这种到pandas的转变中,会话被杀死可能是因为巨大的数据大小
发布于 2021-04-23 13:10:01
databricks优化的pandas包被命名为koalas,因此我尝试使用databricks.koalas (install databricks.koalas as ks
)并使用ks.DataFrame(rawdata)
将其转换为koalas数据帧。
https://stackoverflow.com/questions/67180900
复制相似问题