技术:Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum
distributed stream computing) Storm (distributed realtime computation system, in turn used by many others) Cascalog
MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort、 Neo4j MapReduce相关:Hive、Pig、Cascading、Cascalog
“ 技术: Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、Kafka、Azkaban、Oozie、Greenplum
“ 技术: Hadoop和Hive、Pig、Cascading、Cascalog、mrjob、Caffeine、S4、MapR、Acunu、Flume、 Kafka、Azkaban、Oozie、Greenplum
的流处理框架; Apache Tez :基于YARN,用于执行任务中的复杂DAG(有向无环图); Apache Twill :基于YARN的抽象概念,用于减少开发分布式应用程序的复杂度; Cascalog
MongoDB、Apache CouchDB、Redis、BigTable、HBase、Hypertable、Voldemort、Neo4j MapReduce相关:Hive、Pig、Cascading、Cascalog
流行的框架有强大的社区支持 缺点:人力投入多(需要一个开发者/数据科学家的团队) 数据处理框架: Map / Reduce + Hadoop——分布式存储和处理系统 M / R——处理大量数据的范式 Pig,Hive,Cascalog
虽然Cascading是一个JAVA API,但是APIs当前允许使用其他的语言,列表包括Scala的Scalding, Clojure的Cascalog, Python的PyCascading以及其他...例如,Cascalog增加了基于数据日志的逻辑查询功能,而Scalding增加了有关遍历问题以及许多机器算法的数学模型。
实际案例: Datomic系统的查询语言 Cascalog 主要是查询大数据集的Datalog实现。
数据处理框架: Map / Reduce + Hadoop——分布式存储和处理系统 M / R——处理大量数据的范式 Pig,Hive,Cascalog——在Map / Reduce 上的框架 Spark
YARN的流处理框架; Apache Tez :基于YARN,用于执行任务中的复杂DAG(有向无环图); Apache Twill :基于YARN的抽象概念,用于减少开发分布式应用程序的复杂度; Cascalog
在实践中,Datalog 语言被应用在多个数据系统中,例如 Datomic 系统将其作为查询语言;Hadoop 则基于 Datalog 实现了 Cascalog 用于大数据集的查询。
Kafka和YARN的流处理框架; Apache Tez:基于YARN,用于执行任务中的复杂DAG(有向无环图); Apache Twill:基于YARN的抽象概念,用于减少开发分布式应用程序的复杂度; Cascalog
大数据处理框架: 除了上述提到的项目,Java还有许多其他的大数据处理框架,如Cascalog、Samza和Akka等。这些框架提供了不同的数据处理模式和抽象,以满足不同的应用场景需求。
领取专属 10元无门槛券
手把手带您无忧上云