我使用Python API for Spark streaming中的textFileStream()方法在创建XML文件时读取它们,将它们映射到一个xml值中,从ElementTree中提取“有趣的”项并将它们放入一个字典( ElementTree:flatMap )中,然后我执行一个reduceByKey()来聚合每个键的计数。因此,如果密钥是字符串网络名称,则值可能是数据包数。在减少时,我的字典中只剩下每个网络
下面是我使用Scala在spark.streaming中获取Flume事件和进程的代码。当尝试使用reduceBykey函数时,我得到以下编译错误:
value reduceByKey is not a member of org.apache.spark.streaming.dstream.DStream我不认为这是一个依赖问题,我有其他简单的应用程序在使用reduceBykey的同一个Eclipse中工作。pa
当我调用RDD.mapValues(...).reduceByKey(...)时,我的代码不会编译。但是当我倒序时,RDD.reduceByKey(...).mapValues(...)((x, _) ⇒ x)Test.scala:7: error: value reduceByKey is not a member of org.apache.spark.rdd.RDD[(Long, E)]
possible cause: maybe a semic
为什么Spark强制从元组列表中构建RDD,以便在进行还原键转换的情况下?$$anon$1.read(PythonRDD.scala:166) at org.apache.spark.api.python.PythonRDD.compute(PythonRDD.scala:70)
at org.apache.spark.rdd.RDD.co