我在anaconda,python3.4中使用ipython。这是这个问题的快照。请注意,此命令在pyspark中工作。.__/\_,_/_/ /_/\_\ version 1.5.2SparkContext available as sc, HiveContext available as sqlContext.
>>&
我在这个在线jupyter笔记本上玩了Spark和Python,并尝试了3种传递python函数的方法:import numpy as np returnnp.sqrt(x)
2)并行化my_sqrt并调用它
sc.parallelize([(my_sqrt, i) for i in range(10)]).map(lambda x : x[0](x[1])).coll
我试着用下面这样的代码来解决这个问题--在一台4核机器上,使用带python 3.5和that 1.6.0的木星笔记本运行--但是我希望知道的人能给我一个答案。# size of dataset """ do not chache """f()
> 1 loops, best of 3: 2.19 s per loop</em