我已经创建了一个Azure data Lake gen2文件系统来存储和恢复数据。我已经正确地加载了我的数据(每天一个文件),但是,当我想要使用Azure Data Lake Azure RestAPI获取数据时,我只能针对每个请求访问一个文件,所以,如果我需要一个月,我必须每天执行一个请求并将其合并到我的本地机器中我知道这可以在数据库中使用SparkSQL和通配符来完成,但是如果我可以直接在Azure Data Lake gen2 rest <em
我正在尝试使用SparkSQL对数据帧执行广播散列联接,如下所示:我遇到的问题是,我需要使用SQL来构造我的sparkSQL (我需要用一个ID列表连接大约50个表,并且不想手动编写这个SQL语句)。How do I tell spark to use the broadcast hash join via the <e