我正在使用flink从Azure数据湖中读取数据。但flink无法找到Azure数据湖文件系统。我已经实现了spark来读取Azure Data Lake文件系统文件。因此,我尝试从flink中触发火花,从Azure数据湖中读取数据,并执行一些逻辑操作,然后将列表返回给flink。所以flink可以使用这些数据?
是否可以从flink触发spark作业?或者如何配置flink来理解Azure数据湖文件系统。有人能在这方面给我指点一下吗
比较Flink和Spark Streaming,Flink和Storm,Storm和Heron有很多问题。这个问题的来源是Apache Flink和Twitter Heron都是真正的流处理框架(而不是像Spark Streaming这样的微批处理框架)。在Flink和Flink vs Spark上有斯利姆·巴尔塔吉的精彩演讲:关于Flink vs Storm的有趣想法:
但我还
Flink是否有避免每次提交作业时都上传扩展jars的配置,就像spark-submit中的spark.yarn.archive一样?我知道处理外部jars的方法,比如How to Reference the External Jar in Flink中的答案。例如fat jar、将jar复制到$FLINK/lib、-yt配置,但它们不够灵活或不够方便。