大数据共享

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

有两个很重要的文件
 第一个就是：canal.properties
 第二个就是：example目录下的instance.properties 文件

Canal 安装

canal是阿里巴巴旗下的一款开源项目，纯Java开发。基于数据库增量日志解析，提供增量数据订阅&消费，目前主要支持了MySQL（也支持mariaDB）。
 canal 就是一个同步增量数据的一个工具。

Canal 介绍

为了方便测试，单独把sparkSession 提出去，使用它 Junit的方式进行测试运行。

SparkSql之DataFrame

累加器：分布式共享只写变量。（Executor和Executor之间不能读数据）
 累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行merge。

Spark累加器（Accumulator）

SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。

SparkSql之编程方式

在spark中，有两种算子，Transformation转换算子和 Action行动算子。Transformation转换算子在整个job任务中，都是一个懒加载，只有真正执行了 Action行动算子的时候，整个job任务才会得到正在的运行。
 可以把Transformation转换算子理解成工厂中的流水线， Action行动算子相当于总闸，只有拉下总闸，整条流水线便开始了运行。

Action行动算子

Sequence文件
 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中，可以调用sequenceFile[keyClass, valueClass](path)。

数据读取与保存

所以主要了解HashPartitioner分区器，RangePartitioner分区器及自定义分区器。

键值对RDD数据分区

此时运行：会有问题吗？
 结果没有：其原因是因为x属于局部变量，可以直接进行序列化。而放到外部，那么就需要与SerializableRDD关联，序列化x变量前肯定要序列化SerializableRDD，否则就会报错。

RDD序列化

所谓的持久化，就是将数据进行保存，避免数据丢失。RDD持久化并非将数据落盘保存，而是用作缓存。
 了解RDD持久化前需要先了解什么是RDD？

RDD持久化

其中有一个就是 - A list of dependencies on other RDDs(依赖关系)

RDD依赖关系

intersection()交集
对源RDD和参数RDD求交集后返回一个新的RDD

image.png


交集：只有3
案例演示
  @Test
  def intersection(): Unit ={

    // 创建sc
    val conf =new SparkConf().setMaster("local[4]").setAppName("test")
    val sc=new SparkContext(conf)

    // 集合1
    val list1=List(1

Transformation转换算子之双Value类型交互

依样画葫芦娃
 我们也许不知道怎么自定义一个分区，那么可以看看spark 自带的是怎么写的；如HashPartitioner

Transformation转换算子之Key-Value类型

思考一个问题？map算子并没有指定分区，但是却是还是4个分区？
 首先 map的数据来源于rdd1;rdd1指定了分区。

Transformation转换算子之Value类型

https://blog.csdn.net/zym1117/article/details/79532458

SparkCore之RDD

Master和Worker是Spark的守护进程、集群资源管理者，即Spark在特定模式下正常运行所必须的进程。

spark入门之集群角色

注意在 scala中 == 类似于 java 中的 equals；所以 != 就相当于对  equals 取反
 打印

scala(二十二) 异常(Exception)

为了获取里面的数据，需要写成这样的形式e._2._2._2._1；开发时也许还知道各个._2 是什么，但是过一段时间，可能就忘了，此种方式出现的问题就是可读性极差。

scala(二十一) 模式匹配(match)

Set 特性
 不重复、无序
 
不可变set
创建Set&
apply方式创建
val set=Set[Int](1,2,3,4,5)
查看setApi
进入 scala
$ scala
Welcome to Scala 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_172).
Type in expressions for evaluation. Or try :help.

scala> val set=Set[Int](1,2,3,4

scala(十六) Set

Map 集合
 Scala中的Map和Java类似，也是一个散列表，它存储的内容也是键值对（key-value）映射，Scala中不可变的Map是有序的，可变的Map是无序的。
不可变Map
创建不可变Map
val map=Map("a"->1,"b"->2,"c"->3)
或者
val map=Map(("a",1),("b",2),("c",3))
更或者混合使用
val map=Map(("a",1),"b"->2,"c"->3)
只有是二元元组就可以。
支持的Api
scala> map.
+

scala(十八) Map

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据共享专栏，为你提供了大数据共享的相关文章，致力于帮助开发者快速成长与发展。

大数据共享

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐