腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
MCP广场
返回腾讯云官网
大数据共享
专栏成员
举报
71
文章
64680
阅读量
19
订阅数
订阅专栏
申请加入专栏
全部文章(71)
编程算法(17)
spark(15)
java(12)
scala(11)
数据库(9)
sql(9)
大数据(8)
神经网络(7)
深度学习(6)
文件存储(6)
pytorch(6)
node.js(5)
python(4)
javascript(4)
mapreduce(4)
网站(4)
http(4)
存储(4)
面向对象编程(4)
云数据库 SQL Server(3)
批量计算(3)
数据结构(3)
机器学习(2)
bash(2)
api(2)
linux(2)
bash 指令(2)
腾讯云测试服务(2)
人工智能(2)
缓存(2)
hadoop(2)
hive(2)
监督学习(2)
zookeeper(2)
kafka(2)
负载均衡(1)
自动驾驶(1)
ios(1)
c++(1)
bootstrap(1)
css(1)
html(1)
android(1)
sqlite(1)
oracle(1)
mvc(1)
搜索引擎(1)
unix(1)
负载均衡缓存(1)
apache(1)
TDSQL MySQL 版(1)
数据备份(1)
日志数据(1)
数据安全(1)
yarn(1)
jvm(1)
正则表达式(1)
推荐系统(1)
keras(1)
tcp/ip(1)
无监督学习(1)
数据分析(1)
数据处理(1)
https(1)
hbase(1)
虚拟化(1)
flutter(1)
mvcc(1)
flink(1)
curve(1)
intersection(1)
key(1)
partition(1)
roc(1)
union(1)
zip(1)
搜索文章
搜索
搜索
关闭
Canal 安装
面向对象编程
sql
数据库
云数据库 SQL Server
有两个很重要的文件 第一个就是:canal.properties 第二个就是:example目录下的instance.properties 文件
用户1483438
2022-07-26
660
0
Canal 介绍
云数据库 SQL Server
数据库
sql
kafka
spark
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。 canal 就是一个同步增量数据的一个工具。
用户1483438
2022-07-26
2K
0
SparkSql之DataFrame
python
编程算法
为了方便测试,单独把sparkSession 提出去,使用它 Junit的方式进行测试运行。
用户1483438
2022-07-26
759
0
Spark累加器(Accumulator)
编程算法
spark
累加器:分布式共享只写变量。(Executor和Executor之间不能读数据) 累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量,在Executor端的每个task都会得到这个变量的一份新的副本,每个task更新这些副本的值后,传回Driver端进行merge。
用户1483438
2022-07-26
1.8K
0
SparkSql之编程方式
python
编程算法
sql
spark
hive
SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。
用户1483438
2022-07-26
939
0
Action行动算子
mapreduce
css
python
在spark中,有两种算子,Transformation转换算子和 Action行动算子。Transformation转换算子在整个job任务中,都是一个懒加载,只有真正执行了 Action行动算子的时候,整个job任务才会得到正在的运行。 可以把Transformation转换算子理解成工厂中的流水线, Action行动算子相当于总闸,只有拉下总闸,整条流水线便开始了运行。
用户1483438
2022-05-09
930
0
数据读取与保存
spark
编程算法
文件存储
hadoop
数据库
Sequence文件 SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中,可以调用sequenceFile[keyClass, valueClass](path)。
用户1483438
2022-05-09
1.1K
0
键值对RDD数据分区
文件存储
spark
所以主要了解HashPartitioner分区器,RangePartitioner分区器及自定义分区器。
用户1483438
2022-05-06
2.3K
0
RDD序列化
文件存储
spark
java
此时运行:会有问题吗? 结果没有:其原因是因为x属于局部变量,可以直接进行序列化。而放到外部,那么就需要与SerializableRDD关联,序列化x变量前肯定要序列化SerializableRDD,否则就会报错。
用户1483438
2022-05-06
506
0
RDD持久化
缓存
文件存储
大数据
所谓的持久化,就是将数据进行保存,避免数据丢失。RDD持久化并非将数据落盘保存,而是用作缓存。 了解RDD持久化前需要先了解什么是RDD?
用户1483438
2022-04-28
689
0
RDD依赖关系
spark
编程算法
javascript
其中有一个就是 - A list of dependencies on other RDDs(依赖关系)
用户1483438
2022-04-28
880
0
Transformation转换算子之双Value类型交互
intersection
key
partition
union
zip
intersection()交集 对源RDD和参数RDD求交集后返回一个新的RDD image.png 交集:只有3 案例演示 @Test def intersection(): Unit ={ // 创建sc val conf =new SparkConf().setMaster("local[4]").setAppName("test") val sc=new SparkContext(conf) // 集合1 val list1=List(1
用户1483438
2022-04-27
226
0
Transformation转换算子之Key-Value类型
mapreduce
文件存储
spark
依样画葫芦娃 我们也许不知道怎么自定义一个分区,那么可以看看spark 自带的是怎么写的;如HashPartitioner
用户1483438
2022-04-27
745
0
Transformation转换算子之Value类型
java
数据库
sql
思考一个问题?map算子并没有指定分区,但是却是还是4个分区? 首先 map的数据来源于rdd1;rdd1指定了分区。
用户1483438
2022-04-27
600
0
SparkCore之RDD
spark
node.js
大数据
javascript
https://blog.csdn.net/zym1117/article/details/79532458
用户1483438
2022-04-26
683
0
spark入门之集群角色
spark
yarn
node.js
Master和Worker是Spark的守护进程、集群资源管理者,即Spark在特定模式下正常运行所必须的进程。
用户1483438
2022-04-26
640
0
scala(二十二) 异常(Exception)
scala
java
注意在 scala中 == 类似于 java 中的 equals;所以 != 就相当于对 equals 取反 打印
用户1483438
2022-04-22
676
0
scala(二十一) 模式匹配(match)
编程算法
为了获取里面的数据,需要写成这样的形式e._2._2._2._1;开发时也许还知道各个._2 是什么,但是过一段时间,可能就忘了,此种方式出现的问题就是可读性极差。
用户1483438
2022-04-22
833
0
scala(十六) Set
api
Set 特性 不重复、无序 不可变set 创建Set& apply方式创建 val set=Set[Int](1,2,3,4,5) 查看setApi 进入 scala $ scala Welcome to Scala 2.12.10 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_172). Type in expressions for evaluation. Or try :help. scala> val set=Set[Int](1,2,3,4
用户1483438
2022-04-20
357
0
scala(十八) Map
scala
http
Map 集合 Scala中的Map和Java类似,也是一个散列表,它存储的内容也是键值对(key-value)映射,Scala中不可变的Map是有序的,可变的Map是无序的。 不可变Map 创建不可变Map val map=Map("a"->1,"b"->2,"c"->3) 或者 val map=Map(("a",1),("b",2),("c",3)) 更或者混合使用 val map=Map(("a",1),"b"->2,"c"->3) 只有是二元元组就可以。 支持的Api scala> map. +
用户1483438
2022-04-20
286
0
点击加载更多
活动推荐
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档