我使用Kafka 0.8.2从AdExchange接收数据,然后使用SparkStreaming 1.4.1将数据存储到MongoDB。我的问题是当我重新启动我的SparkStreaming作业时,比如更新新版本,修复bug,添加新功能。它将继续阅读最新的offset of kafka,然后我将失去数据AdX推动卡夫卡在重新
我有一个练习,实现一个服务,从Kafka获取数据,处理它,并使用SparkStreaming将结果存储到elasticsearch中。我可以从Kafka获取数据到我的服务中,并在Spark集群中处理它,但我不知道如何在操作中将结果持久化到elasticsearch中。Process event t here /
Spark从kafka获取数据。我想通过spark-streaming限制记录消耗。关于卡夫卡的数据非常庞大。我使用spark.streaming.kafka.maxRatePerPartition=1属性来限制spark中的记录。但是仍然在5分钟内,我收到了13400条消息。我的spark程序每5分钟不能处理超过1000条消息。Kafka to