sessionIdList的类型为:res19: org.apache.spark.rdd.RDD[String] = MappedRDD[17] at distinct:20:46 ERROR Executor: Exception in task ID 80 at org.apache.spark.rdd.RDD.filter= null)
kDis
是否可以用spark-streaming-kafka-0-10库配置Spark来读取多个Kafka分区,或者用单个任务来读取整个Kafka主题,而不是为每个可用的Kafka分区创建不同的Spark任务?我有四个虚拟主机,一个有火花放电的主人,每个都有一个火花工作者。其中一个主机还运行一个基于的Kafka代理。每台主机都有四个核心和大约8GB的未使用RAM。我正在使用SubscribePattern类订阅Spark的所有206个主题:
val stream = KafkaUtils.cre