我有一个Dataframe,从它创建一个临时视图以运行sql查询。经过几个sql查询之后,我想将sql查询的输出转换为一个新的Dataframe。因此,问题是:将sql查询输出转换为Dataframe的正确方法是什么?下面是我到目前为止掌握的代码://read data from Azure blobvar df = spark.read.parquet(some_path)
SELECT
d
as b group by b.pidimport org.apache.spark.sql.(data), schme) df.createOrReplaceTempView("tab_tmp")
spark.sql("select storeid,orderid,combox_pid,pid,count
我有以下涉及UNION的Spark (2.4.0)查询。现在,我试图限制优化器从其查询的物理计划中排除特定规则,以便Spark只为这两个查询创建一个Exchange。SET "spark.sql.optimizer.excludeRules" = org.apache.spark.sql.catalyst.optimizer.PushDownPredicate;select a, count(*) as cnt<e