暂无搜索历史
Join 操作是大数据分析领域必不可少的操作,本文将从原理层面介绍 SparkSQL 支持的五大连接策略及其应用场景。
CAP 定理是分布式架构设计的基本理论,本身并不复杂。 是由三个单词组成,分别是:
随着科技进步互联网的发展,各行各业产生的数据越来越多,由此催生了大量的数据处理需求。
都说 Flink 是有状态计算,那么什么是状态?状态有什么用?没有状态程序会怎么样?
https://blog.csdn.net/mynameisgt/article/details/124223193
在人类生存的地球上,存在着一种很神秘的东西:时间,它看不见摸不着,但速度恒定,单调递增且永无止境的往前推进,人类的历史被淹没在茫茫的时间长河中。
首先,ISR 的全称叫做:In-Sync Replicas (同步副本集), 我们可以理解为和 leader 保持同步的所有副本的集合。
举个例子,每天产生的日志可以建立分区表,每个分区在 hdfs 上就是一个目录,这个目录下包含了当天的所有日志记录。
早在 1992 年,在斯蒂芬森的科幻小说《雪崩》中就第一次提及了元宇宙。书中描述了一个名为 Metaverse 的虚拟世界,人们只要通过公共的入口连接,就能以虚...
好消息!Apache DolphinScheduler 2.0.1 版本今日正式发布!
喜大普奔,Redis 官方支持 JSON 操作了,当我看到这个消息时,我的脑海中立马闪过这些操作:
Apache Log4j2 是一款开源的 Java 日志记录工具,大量的业务框架都使用了该组件。
数据治理很火,在 DAMA 数据管理知识体系指南中,数据治理位于 “数据管理车轮图” 的正中央,如下图:
上一次阅读到 Master 调用 schedule() 方法,遍历 waitingApps,为每个程序决定启动多少 Executor,为每个 Executor ...
上一次阅读到了 SparkContext 初始化,继续往下之前,先温故一下之前的内容。
又开始更文了,前面一个多月忙了点别的事情,也给自己放了小假,修整修整,大家应该还没取关我吧,谢谢哈!
谈到 Spark Rpc ,不得不提到 Spark Rpc 的三剑客:RpcEnv,RpcEndpoint,RpcEndpointRef。
上回讲到,Master 的 main 方法中,创建了 RpcEnv 和 Master 的 Endpoint,紧接着就开始执行 Endpoint 的生命周期方法 ...
今天来看看 Worker 的启动流程,Worker 的启动是从 Shell 脚本开始的,Shell 脚本中就是从 Worker 类的 main 方法开始执行的,...
上次我们已经说完了 Spark Standalone 的 Master 和 Worker 的启动流程,本次我们从一个提交 Spark 作业的命令开始阅读 Spa...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市