我想在分布式系统中实现流朴素贝叶斯。选择框架的最佳方法是什么?我是否应该选择:
选择和开始工作的最佳框架是什么?任何建议都会有很大帮助。
发布于 2015-04-02 01:33:37
如果我是你,我会选择我所熟悉的任何一个框架,并实现用例。星星之流+ MLlib应该可以工作,并且是我的选择,因为它的用户基础正在上升,而且它是Apache下最受欢迎的项目之一,有着良好的企业业务计划。Cloudera和Hortonworks都提供企业级支持。现在,从理论上讲,星火流在流处理方面缺乏Storm的支持,但是这个框架很酷,它为您提供了在同一框架下执行流、公共映射和还原、图形处理和SQL的选项。因此,一旦您有了将数据转换为RDD的管道,您就可以处理大多数与数据分析相关的常见作业了。它是用Scala从头开始编写的,Scala是一种非常强大的语言,在处理并发性时,它在分布式设置中提供了巨大的可伸缩性。希望这有帮助,请随时与我联系,与您有任何问题。
发布于 2015-11-13 07:17:47
那得看情况。如果您需要一种快速的方法来挖掘数据流并使用数据集的自适应培训,最好的工具是萨摩亚,因为它可以很容易地与Storm或S4流处理引擎集成。如果您只需要以快速和分布式的方式处理批处理数据,那么火花MLLib将是其中最好的解决方案。
https://datascience.stackexchange.com/questions/5417
复制相似问题