开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

按给定集群配置Spark

Spark是一个开源的分布式计算框架，用于处理大规模数据集的计算任务。它提供了高效的数据处理能力和灵活的编程接口，可以在大规模集群上进行快速的数据处理和分析。

Spark的集群配置包括以下几个方面：

硬件配置：集群中的每个节点都需要具备一定的硬件配置，包括处理器、内存和存储等。通常情况下，节点的硬件配置应该保持一致，以确保集群的稳定性和性能。
网络配置：集群中的节点之间需要进行高速的网络通信，因此需要配置高速网络互联，以保证数据的快速传输和计算任务的协同执行。
软件配置：Spark需要在集群中的每个节点上安装和配置相应的软件环境，包括操作系统、Java虚拟机、Spark运行时环境等。同时，还需要配置集群管理工具，如Hadoop、YARN等，以便进行任务调度和资源管理。
集群规模：根据任务的规模和需求，可以调整集群的规模，包括节点数量和计算资源的分配。较大规模的集群可以提供更高的计算能力和并行处理能力。

Spark的优势在于：

高性能：Spark采用内存计算和基于RDD（弹性分布式数据集）的计算模型，可以在内存中快速进行数据处理，大大提高了计算速度。
灵活性：Spark提供了丰富的编程接口，包括Scala、Java、Python和R等，可以根据不同的需求选择合适的编程语言进行开发。同时，Spark还支持多种数据源和数据格式，可以方便地与各种数据存储系统集成。
扩展性：Spark可以方便地扩展到大规模集群上进行分布式计算，可以根据任务的需求动态调整集群的规模和资源分配。
生态系统：Spark拥有丰富的生态系统，包括Spark SQL、Spark Streaming、MLlib和GraphX等组件，可以支持多种数据处理和分析任务。

对于按给定集群配置Spark的应用场景，可以包括大规模数据处理、机器学习、实时数据分析等。例如，在大规模数据处理场景下，Spark可以高效地处理和分析海量数据；在机器学习场景下，Spark的MLlib组件可以提供丰富的机器学习算法和工具；在实时数据分析场景下，Spark的Streaming组件可以实时处理和分析数据流。

腾讯云提供了适用于Spark的云计算产品，包括云服务器、云数据库、云存储等。具体产品和介绍链接地址可以参考腾讯云官方网站。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Spark集群安装-基于hadoop集群

文章目录 hadoop集群下载环境配置集群配置测试 hadoop集群参考使用docker部署hadoop集群-手把手复现下载首先查看hadoop版本 hadoop version 下载spark http://spark.apache.org/downloads.html cd /usr/local #yum -y install wget wget https://mirrors.bfsu.edu.cn/apache/spark/spark-3.1.1/spark-3.1

03

Spark部署模式与作业提交

需要注意的是：在集群环境下，application-jar 必须能被集群中所有节点都能访问，可以是 HDFS 上的路径；也可以是本地文件系统路径，如果是本地文件系统路径，则要求集群中每一个机器节点上的相同路径都存在该 Jar 包。

03

Ambari + HDP 整体介绍

Ambari 是 hortonworks推出的管理监控Hadoop集群的Web工具，此处的Hadoop集群不单单指Hadoop集群，而是泛指hadoop 整个生态，包括Hdfs，yarn,Spark,Hive,Hbase,Zookeeper，druid等等，管理指的是可以通过Ambari对整个集群进行动态管理，包括集群的部署，修改，删除，扩展等，监控指Ambari实时监控集群的运行状况，包括运行内存，剩余内存，CPU使用率，节点故障等。所以通过Ambari可以简化对集群的管理和监控，让开发者更多的聚焦与业务逻辑。 Ambari + HDP介绍： Ambari：WEB应用程序，后台为Ambari Server，负责与HDP部署的集群工作节点进行通讯，集群控制节点包括Hdfs，Spark，Zk，Hive，Hbase等等。 HDP：HDP包中包含了很多常用的工具，比如Hadoop，Hive，Hbase，Spark等 HDP-Util：包含了公共包，比如ZK等一些公共组件。老的集群部署方式： 1. 集群配置(免密登陆，静态IP，防火墙) 2. JDK，MySql 部署 (Hive相关表结构管理，如果没有用到Hive，无需安装) 3. Hadoop Hdfs 部署(修改配置) (分布式文件存储) 4. Hadoop Yarn 部署(修改配置) (MapReduce 任务调度) 5. (可选) Zookeeper部署，需要修改NameNode 和 ResourceManager 的配置文件 6. Hive 部署 (数据仓库，对Hdfs上保存的数据进行映射管理) 7. HBase 部署 (NoSQL数据库，进行数据存储) 8. (可选) Flume，Sqoop 部署(主要用于数据采集，数据迁移) 9. Spark 部署 (计算框架部署) 10. 后面还需要部署监控框架等等，部署准备：MySql,JDK,Hadoop,Hive,HBase,Zookeeper,Spark,Flume,Sqoop等部署缺点：以上全部部署都是通过命令行来部署，麻烦复杂，容易出错，动态扩展较难，无集群监控部署优点：整体可控，对集群内部运行逻辑比较清楚，只部署需要的服务，所以对集群要求(内存，CPU及硬盘) 可以不是很高 Ambari 集群部署方式： 1. 集群配置(免密登陆，静态IP，防火墙) 2. JDK，MySql 部署 (需要配置Ambari，Hive，Hbase等多张表) 3. 部署Ambari 服务 4. 通过Ambari Web工具部署Hdfs，Spark，Hive，Zk，Hbase，Flume等，想怎么部署就怎么部署，鼠标选择服务和需要部署的节点即可 5. 通过Ambari Web工具进行集群监控，并且对警告及错误进行处理部署准备：MySql,JDK,Ambari,HDP,HDP-Util，和上面老的部署方式相比，是不是少了很多部署注意事项：通过Ambari部署集群对集群节点机器要求比较高，因为有好多关于AmbariServer服务会部署在同一个管理节点上，同时其他集群节点也会同时部署很多其他服务，这对节点的配置(CPU，内存，硬盘)要求比较高，可能运行不起来。部署优点：部署简单，一键部署，方便监控，方便扩展，多集群同时管理 Ambari 部署步骤： 1. 单节点:Ntp,java,selinux,hosts,hostname,ip 2. 克隆节点，修改ip及hostname 3. 安装mysql，配置免密登陆 4. 安装httpd，配置本地ambari+HDP 的yum源 5. Ambari Server安装及初始化 6. Ambari Server 通过向导安装集群 7. Ambari 使用介绍 8. Hdfs HA的高可用 9. 接下来就可以根据我们的需求使用集群了，这部分后面会有专门章节针对Hadoop MR 和Spark进行详细解读。

01

如何从0到1搭建高可用的画像平台-基础准备

之前的章节比较偏重理论方法介绍，本章将从实践的角度介绍如何从0到1搭建画像平台，包括运行环境配置和服务端工程框架的搭建。运行环境配置包括基础准备、大数据环境和存储引擎搭建，基础准备将介绍各技术组件与平台功能的关联关系以及一些基础环境配置，为后续搭建运行环境做好准备；大数据环境和存储引擎搭建中将详细介绍大数据组件的安装配置方式，为画像平台的运行提供基础运行环境；服务端工程框架搭建将介绍如何构建多模块项目以及如何通过代码连接和使用各类大数据组件。

03

Spark 整体介绍

Spark 是一个大数据运算框架，使用了DAG调度程序,比基于Hadoop MapReduce 运行速度提高了100倍以上 Spark 是一个通用框架，对于不同的运行场景都提供了对于的解决方案：基于流式运算的 Spark Streaming框架基于SQL 语法的 Spark SQL框架基于图运算的 GraphX 框架基于人工智能与机器学习的 MLlib 框架 Spark 可运行在 Yarn 框架上，还可以运行在独立的集群，Mesos，kubernetes 等集群上面，访问HDFS，HBase，Hive等上百种数据源 Spark 支持 Scala，Java，Python及R语言的快速编写 Spark 角色分为 HMaster，Worker俩种角色,Spark 启动命令为 Spark-Submit(简称Driver), Spark 运算框架可以不基于Hadoop 框架进行数据运行，所以在配置conf文件时，不涉及 Hadoop 相关东西，在运算时，如果数据存储或者需要写入到HDFS时，需要指定数据读取/写入命令如果只是Local模式运行(调试模式)，可以不基于HDFS 提示：[集群在运行过程中，涉及SSH访问，所以集群配置时一定需要免密登陆方可执行] Spark 集群安装 1. 配置文件修改 spart-env.xml 配置HMaster IP,端口 slave.sh 配置workers ip地址 2. 启动Spark集群 start-all.sh Spark 高可用安装可以采用，也可以不采用，根据自身条件而定 1. 安装Zookeeper 集群及配置Zookper集群，修改HMaster IP端口为Zookeeper 地址，并且启动 spart-env.xml 2. 启动Spark 集群 start-all.sh 3. 配置HMaster StandBy 进程并且启动 hmaster-start.sh 提交Spark Sample任务 1.spart-submit classpath jarpath Spark任务执行流程 Spark任务执行流程与Yarn任务执行流程类型 1. 首先客户端编写配置Configuration信息，打包Jar包，发起任务到HMaster 2. HMaster根据用户下发的任务信息，配置Worker个数及Worker对应的内存及CPU等，并且启动Worker； 3. Worker根据HMaster下发参数信息，并且与Client交互，获取对应的jar包等信息，然后启动Executor行数据处理(一个Worker下可以包含多个Executor) 4. 输出保存数据。 Yarn与Spark的对比 Yarn ResourceManager DataManager YarnChild (Job/Client)/ApplicationMastor Spark HMaster Worker Executor SparkSubmit SparkShell 执行 SparkShell 可以理解为Spark的交互式编程窗口，在启动SparkShell那一瞬间，Spark任务已经启动，每个Work已经分配内存及CPU，等待执行任务，一般不采用SparkShell执行任务，不推荐。 Scala编写Spark Spark对Scala的支持最好，Spark是用Scala语言开发的，所以Spark中包含了很多Scala特有的语法，这一点是其他语言所不能比拟的，所以编写Spark任务推荐使用Scala。 Spark 任务入口为SparkContext，首选需要创建SparkContent，然后就可以按照Spark任务执行流程进行编写，指定MapTask执行操作，ReduceTask执行操作，数据输入，数据输出等。

01

从0到1搭建spark集群---企业集群搭建

今天分享一篇从0到1搭建Spark集群的步骤，企业中大家亦可以参照次集群搭建自己的Spark集群。

03

基于ZooKeeper搭建Spark高可用集群

这里搭建一个 3 节点的 Spark 集群，其中三台主机上均部署 Worker 服务。同时为了保证高可用，除了在 hadoop001 上部署主 Master 服务外，还在 hadoop002 和 hadoop003 上分别部署备用的 Master 服务，Master 服务由 Zookeeper 集群进行协调管理，如果主 Master 不可用，则备用 Master 会成为新的主 Master。

02

ZooKeeper应用：kafka

kafka作为一个优秀的消息中间件，一个数据buffer的管道。除了它的高性能外，高课扩展性，也决定了它的优势。可以在不需要下线的情况下进行扩容这里只是简单说明，暂时没能力深入

02

Spark为什么比Hadoop快那么多？

在2014年11月5日举行的Daytona Gray Sort 100TB Benchmark竞赛中，Databricks 用构建于206个运算节点之上的spark运算框架在23分钟内完成100TB数据的排序，一举击败了该赛事2013年的冠军—Yahoo团队建立在2100个运算节点之上的Hadoop MapReduce集群，该集群耗时72分钟排序了102.5TB的数据。换句话说，Spark用了十分之一的资源在三分之一的时间里完成了Hadoop做的事情。 HadoopSpark被排序数据大小102.5 TB

0734-5.16.1-集群外客户端跨网段向Kerberos环境的Hadoop集群提交作业（续）

在前面的文章《如何在集群外节点跨网段向HDFS写数据》和《外部客户端跨网段访问Hadoop集群方式(续)》中介绍了如何在集群外的客户端节点上访问Hadoop集群，本篇文章在前面文章的基础上基于Kerberos环境的CDH集群介绍，如何在集群外客户端跨网段向Kerberos环境的Hadoop集群提交MapReduce和Spark作业。

01

spark 集群搭建

一. 集群规划 node01为master节点,node02,node03为worker节点

01

CentOS7下Spark集群的安装

从物理部署层面上来看，Spark主要分为两种类型的节点，Master节点和Worker节点，Master节点主要运行集群管理器的中心化部分，所承载的作用是分配Application到Worker节点，维护Worker节点，Driver，Application的状态。Worker节点负责具体的业务运行。

02

Spark安装之问题

SparkSQL context 在执行sql语句时，现在使用spark.sql()替换sqlContext.sal()

01

Spark 集群环境部署

本篇主要记录一下Spark 集群环境搭建过程以及在搭建过程中所遇到的问题及解决方案

05

Spark2.1集群安装（standalone模式）

上传spark-2.1.0-bin-hadoop2.6.tgz安装包到Linux(intsmaze-131)上

02

如何卸载CDH(附一键卸载github源码)

本文档将介绍Cloudera Manager与CDH的卸载，并基于CDH使用parcels安装且未配置安全（AD/LDAP, Kerberos, Data Encryption）的集群，以下是本次测试环境，但不是本操作手册的硬限制：

06

听GPT 讲Istio源代码--pilot(3)

在Istio项目中，generator.go文件实现了Istio授权模型的生成器。该文件定义了一系列结构体和函数，用于生成授权策略、主体和权限。

04

开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群

课件获取：关注公众号 “数栈研习社”，后台私信 “ChengYing” 获得直播课件

03

多套Kylin集群共享Hbase和Hadoop计算集群关键配置最佳实践

由于Kylin的本身架构（广播特性）和业务特点通常不适用于单套Kylin集群的节点过多，通常大家采用拆分Kylin集群但是共用底层的Hbase集群和计算集群的方式进行部署。本文主要根据目前咱们的实践经验对于此种场景集群配置进行分享，希望对大家有所帮助。

04

开源项目丨一文详解一站式大数据平台运维管家 ChengYing 如何部署 Hadoop 集群

ChengYing 开源项目地址：github 丨 gitee 喜欢我们的项目给我们点个__ STAR！STAR！！STAR！！！（重要的事情说三遍）__

01

TiDB 在特来电的实践

特来电新能源有限公司是创业板第一股特锐德（300001）的全资子公司，主要从事新能源汽车充电网的建设、运营及互联网的增值服务。特来电颠覆了传统充电桩的模式，世界首创了电动汽车群智能充电系统，获得 336 项技术专利，以“无桩充电、无电插头、群管群控、模块结构、主动防护、柔性充电”的特点引领世界新能源汽车充电的发展，系统的鉴定结论为：“产品世界首创、技术水平国际领先。主动柔性充电对电池寿命可以延长 30% 左右，电池充电的安全性可以提升 100 倍以上。”

05

从零到一spark进阶之路（二）

两种方式：①读取外部数据集② 在驱动器程序中对一个集合进行并行化 RDD可以从普通数组创建出来，也可以从文件系统或者HDFS中的文件创建出来。

02

0725-5.16.2-如何卸载CDH5.16.2

Fayson在两年前的文章中介绍过CDH的卸载，参考《0008-如何卸载CDH（附一键卸载github源码）V1.2》，《0609-6.1.0-如何卸载CDH6.1》和《0621-6.2.0-如何卸载CDH6.2》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH，否则并没有现成的一键卸载的脚本供使用。

01

0667-6.2.0-什么是Cloudera虚拟私有集群和SDX

以下视频时长55分钟，包含中英文字幕。详细分析了Cloudera为什么要做SDX，包括Cloudera推出这个功能的动机，它为什么是Cloudera企业版的核心竞争力，它可以解决什么问题，后面还有一个demo演示，不过是云上基于Altus的版本，SDX本地on-premise版本已经在最新的CDH6.2中支持，具体也可以参考后面的文字介绍，视频最后还分享了几个SDX的客户案例，以及回答了用户关心的一些问题比如：SDX和联邦的区别，SDX要怎么试用等。

05

0621-6.2.0-如何卸载CDH6.2

Fayson在两年前的文章中介绍过CDH的卸载，参考《0008-如何卸载CDH（附一键卸载github源码）V1.2》和《0609-6.1.0-如何卸载CDH6.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH，否则并没有现成的一键卸载的脚本供使用。

03

Spark生态系统的顶级项目

Spark开发了一个丰富的生态系统，包括le 官方和第三方工具。我们来看看5个以不同方式加强了Spark的第三方项目。

02

0609-6.1.0-如何卸载CDH6.1

Fayson在两年前的文章中介绍过CDH的卸载，参考《0008-如何卸载CDH（附一键卸载github源码）V1.2.1》。除非你是使用Cloudera官方提供的一键安装脚本安装的CDH，否则并没有现成的一键卸载的脚本供使用。

01

玩转集群配置中心，一文带你了解Taier控制台

原文地址：玩转集群配置中心，一文带你了解Taier控制台丨DTMO 03期直播回顾（内含视频+课件）

01

2021年大数据Spark（十）：环境搭建集群模式 Spark on YARN

Spark运行在YARN上是有2个模式的， 1个叫 Client模式一个叫Cluster模式

02

Ambari？自动部署Hadoop集群

Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如 Hive，Hbase，Sqoop，Zookeeper 等）。它帮助我们更好的去管理Hadoop集群相关的服务，也支持一些扩展，可以让我们去定制一些服务。你是不是为了配置hadoop集群伤透了脑筋？为了集群添加机器而头痛。如果你遇到了Ambari你就会发现，原来他就是你的救世主。 Ambari 自身也是一个分布式架构的软件，主要由两部分组成：Ambari Server 和 Ambari Agent。简单来说，用户通过 Ambari Server 通知 Ambari Agent 安装对应的软件；Agent 会定时地发送各个机器每个软件模块的状态给 Ambari Server，最终这些状态信息会呈现在 Ambari 的 GUI，方便用户了解到集群的各种状态，并进行相应的维护。 Ambari的详细介绍及相关信息可以浏览下面的网址，虽然他很NB，但是不是我们今天的重点！ Ambari——大数据平台的搭建利器

03

实时计算框架：Spark集群搭建与入门案例

Spark是专为大规模数据处理而设计的，基于内存快速通用,可扩展的集群计算引擎，实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流，运算速度相比于MapReduce得到了显著的提高。

02

Cloudera访问授权概述

授权是任何计算环境的基本安全要求之一。其目标是确保只有适当的人员或流程才能访问，查看，使用，控制或更改特定的资源，服务或数据。在使用各种CDH组件（Hive，HDFS，Impala等）部署来满足特定工作负载的任何集群中，不同的授权机制可以确保只有授权的用户或进程才能根据需要访问数据，系统和其他资源。理想情况下，授权机制可以利用身份验证机制，以便当用户登录系统（例如集群）时，将根据他们在系统中对应用程序，数据和其他资源的授权，对他们进行透明授权。。

01

spark 入门_新手入门

Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。项目是用Scala进行编写。

02

Kubernetes上的高性能计算 (HPC)

机器学习 (ML) 工程在过去几年已演变为一门学科和职业道路。软件工程师构建 Web、移动和嵌入式体验，而 ML 工程师提供模型版本、推理和整个 RAG 应用程序。

01

0818-7.1.1-如何卸载CDP

以上三种方法也可以只使用于关键数据，具体使用哪种方法，可以根据自己集群的规模和数据量大小具体选择。

03

Spark命令详解

之前我们使用提交任务都是使用spark-shell提交，spark-shell是Spark自带的交互式Shell程序，方便用户进行交互式编程，用户可以在该命令行下可以用scala编写spark程序，适合学习测试时使用！

04

CDH集群升级Python3异常问题分析

在CDH集群中所有节点/opt/cloudera/anaconda3部署了Python3的安装包，如下描述：

01

使用Wordbatch对Python分布式AI后端进行基准测试

在过去的几年里，Python已成为数据科学和人工智能的通用语言，所有使用Python作为主要界面语言的着名深度学习框架（Keras，Pytorch，MXNet）。与竞争语言相比，Python在DS和AI的几乎每个方面都可以与之竞争或超越：最新的机器学习算法及其高效实现（Scikit-Learn，LightGBM，XGBoost），数据处理和分析（Pandas，cuDF），高效的数值计算库（Numpy），PyPy，Numba），GPU计算（CuPY）和Web API编程（Flask，Celery）。

03

使用 PowerFlex 在 Kubernetes 平台上部署 Microsoft SQL Server 大数据集群

Microsoft SQL Server 2019通过SQL Server 2019大数据集群 (Big Data Clusters, BDC)推出了突破性的数据平台。Microsoft SQL Server大数据集群旨在解决当今大多数组织面临的大数据挑战。您可以使用SQL Server BDC来组织和分析大量的数据，也可以将高价值的关系型数据与大数据结合起来。本文描述了使用Dell PowerFlex软件定义存储在Kubernetes平台上部署SQL Server BDC的过程。

02

【kafka学习笔记】第三天--kafka的安装和使用

kafka是由scala语言写成的，后面用Java重构了，但是不管怎样，都要编译到jvm虚拟机中执行。

00

【rainbowzhou 面试9/101】技术提问--常见的大数据基准测试工具有哪些未命名文章

在【rainbowzhou 面试8/101】技术提问--如何进行大数据基准测试？中，我介绍了如何进行大数据基准测试。本篇来说说常见的一些大数据基准测试工具，希望对大家有所帮助。

03

数据安全新战场，EasyMR为企业筑起“安全防线”

作为全链路数字化技术与服务提供商，袋鼠云在数据安全方面有过多年的探索和实践。近日，袋鼠云依托其实践，在旗下产品大数据基础平台 EasyMR 上新增了一站式大数据应用安全防控以及数据权限管控能力。

03

Spark集群从搭建到任务提交-第N次记录

作为一名合格的计算机人士，百折不挠的瞎折腾精神是必备的。今天本想使用一下尘封已久的VMware虚拟机搭的集群，结果发现 Spark 有各种问题，应该是之前潦草搭集群时挖下的坑（前几天也用过，但并不是cluster mode，我现在才知道..），面对这些坑，果断的选择重装啊，所以叒叒叒开始愉快的搭环境了，，

02

使用Helm将应用程序部署到IBM Cloud上的Kubernetes

Helm是Kubernetes的包管理器。借助Helm，您可以非常方便地将应用程序，工具和数据库（如MongoDB，PostgreSQL，WordPress和Apache Spark）部署到您自己的Kubernetes集群中。以下简要介绍如何将Helm用于IBM Cloud Container服务。

09

Kudu1.7的新功能

前两天Fayson介绍过《CDH5.15和CM5.15的新功能》，与CDH5.15同时发布的还有CDSW1.4和Kudu1.7，CDSW1.4的新功能可以参考《CDSW1.4的新功能》，以下我们具体看看Kudu1.7的新功能。

02

搭建Spark高可用集群

从右侧最后一条新闻看，Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。

02

【推荐系统算法实战】 Spark ：大数据处理框架

http://spark.apache.org/ https://github.com/to-be-architect/spark

01

一看就懂！任务提交的资源判断在Taier中的实践

旨在降低ETL开发成本、提高大数据平台稳定性，大数据开发人员可以在 Taier 直接进行业务逻辑的开发，而不用关心任务错综复杂的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中。

02

Dolphin Scheduler 1.1.0升级1.2.0避坑指南

Apache Dolphin Scheduler是一个分布式易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系，使调度系统在数据处理流程中开箱即用。

04

用java程序完成从kafka队列读取消息到sparkstreaming再从sparkstreaming里把数据导入mysql中

有一段时间没好好写博客了，因为一直在做一个比较小型的工程项目，也常常用在企业里，就是将流式数据处理收集，再将这些流式数据进行一些计算以后再保存在mysql上，这是一套比较完整的流程，并且可以从数据库中的数据再导入到hadoop上，再在hadoop上进行离线较慢的mapreduce计算，这是我后面要进行的项目。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭