我正在尝试使用crontab通过spark-submit安排一个spark作业。基本上这个作业应该每天晚上运行,当作业即将提交给后续时间时,现有的应用程序应该被杀死,我很难找到一种方法来做到这一点。因为我找不到提交的作业的应用程序Id或驱动程序Id,所以我可以正常关闭。
我知道Spark Master Web UI可以用来查找提交Id,但如果我要为此设置一个cro
从Spark 2.4.0开始,可以在没有外部jars的情况下保存为AVRO。然而,我根本不能让它工作。我的代码如下所示:df.write.mode('overwrite').format("avro").save(key)pyspark.sql.utils.AnalysisExceptionAvro is built-in but external data source modu