腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
工具
TVP
腾讯云架构师技术同盟
返回腾讯云官网
后台技术底层理解
专栏成员
举报
257
文章
258920
阅读量
28
订阅数
订阅专栏
申请加入专栏
全部文章(257)
编程算法(95)
java(46)
spring(29)
python(27)
node.js(26)
数据库(24)
sql(20)
缓存(20)
spark(19)
大数据(19)
mapreduce(18)
文件存储(17)
linux(16)
容器(16)
存储(15)
hadoop(15)
网站(12)
数据结构(12)
hbase(12)
云数据库 SQL Server(11)
TDSQL MySQL 版(11)
网络安全(11)
xml(10)
面向对象编程(10)
javascript(9)
http(9)
jvm(9)
hashmap(9)
android(8)
云数据库 Redis®(8)
容器镜像服务(8)
hive(7)
二叉树(7)
tcp/ip(7)
kafka(7)
c++(6)
bash(6)
mvc(6)
bash 指令(6)
yarn(6)
zookeeper(6)
分布式(5)
aop(5)
html(4)
ide(4)
api(4)
lucene/solr(4)
数据处理(4)
windows(4)
https(4)
es(4)
flink(4)
机器学习(3)
php(3)
go(3)
servlet(3)
scala(3)
jar(3)
搜索引擎(3)
神经网络(3)
深度学习(3)
人工智能(3)
vr 视频解决方案(3)
ssh(3)
jdbc(3)
rpc(3)
socket编程(3)
object(3)
jsp(2)
单片机(2)
打包(2)
apache(2)
mongodb(2)
企业(2)
开源(2)
rabbitmq(2)
gradle(2)
数据分析(2)
微服务(2)
Elasticsearch Service(2)
cpu(2)
lock(2)
monitor(2)
遍历(2)
函数(2)
对象存储(1)
负载均衡(1)
其他(1)
NLP 服务(1)
自动驾驶(1)
ios(1)
c#(1)
.net(1)
css(1)
jquery(1)
json(1)
access(1)
svn(1)
maven(1)
全文检索(1)
unix(1)
centos(1)
负载均衡缓存(1)
nginx(1)
apt-get(1)
命令行工具(1)
云数据库 MongoDB(1)
消息队列 CMQ 版(1)
云推荐引擎(1)
数据备份(1)
数据安全(1)
express(1)
serverless(1)
游戏(1)
压力测试(1)
shell(1)
jdk(1)
gui(1)
mybatis(1)
yum(1)
numpy(1)
sql server(1)
决策树(1)
ftp(1)
dubbo(1)
udp(1)
gcc(1)
utf8(1)
groovy(1)
数据湖(1)
bi(1)
ci(1)
command(1)
count(1)
dp(1)
exit(1)
extend(1)
filter(1)
foreach(1)
hash(1)
hashset(1)
jobs(1)
key(1)
kill(1)
map(1)
ps(1)
sample(1)
set(1)
sleep(1)
synchronized(1)
table(1)
treemap(1)
wait(1)
定时器(1)
对象(1)
基础(1)
集合(1)
脚本(1)
开发(1)
连接(1)
排序(1)
苹果(1)
数据(1)
数组(1)
索引(1)
通信(1)
线程(1)
优化(1)
原型(1)
字符串(1)
搜索文章
搜索
搜索
关闭
[Delta][SQL] Delta开源付费功能,最全分析ZOrder的源码实现流程
spark
编程算法
通常为提高数据处理的效率,计算引擎要实现谓词的下推,而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还是Delta都实现了基于min-max索引的Data-skiping技术。它指的是在元数据中都记录这数据文件中的每一列的最小值和最大值,通过查询中列上的谓词来决定当前的数据文件是否可能包含满足谓词的任何records,是否可以跳过读取当前数据文件。
Tim在路上
2022-09-07
1.2K
0
[LakeHouse] Delta Lake全部开源,聊聊Delta的实现架构
json
对象存储
存储
开源
刚刚结束的Data + AI summit上,Databricks宣布将Delta Lake全部开源。
Tim在路上
2022-09-01
1.2K
0
[LakeHouse] 数据湖之Iceberg一种开放的表格式
hive
数据湖
大数据
spark
存储
Iceberg项目2017年由Netflix发起, 它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan Blue创建Tabular公司,发起以Apache Iceberg为核心构建一种新型数据平台。
Tim在路上
2022-06-19
1.4K
0
[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析
linux
hbase
TDSQL MySQL 版
vr 视频解决方案
数据处理
Spark 3.2为spark shuffle带来了重大的改变,其中新增了push-based shuffle机制。但其实在push-based shuffle 之前,业界也有人提出了remote shuffle service的实践,不过由于它们是依赖于外部组件实现的所以一直不被社区所接收。
Tim在路上
2022-06-15
1K
0
[SPARK][CORE] 面试问题之什么是 external shuffle service?
spark
linux
数据结构
yarn
node.js
在讨论external shuffle service的具体实现之前,我们先来回顾下spark shuffle的大概过程。
Tim在路上
2022-06-12
1.7K
0
[SPARK][CORE] 面试问题之谈一谈Push-based shuffle
vr 视频解决方案
spark
编程算法
mapreduce
linux
在Spark3.2中引入了领英设计的一种新的shuffle方案,今天我们先来了解下其大致的设计原理,之后会再分析其具体的代码实现。
Tim在路上
2022-06-12
1.8K
0
[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 (下)
java
vr 视频解决方案
linux
网站
mapreduce
在Spark中shuffleWriter有三种实现,分别是bypassMergeSortShuffleWriter, UnsafeShuffleWriter和SortShuffleWriter。但是shuffleReader却只有一种实现BlockStoreShuffleReader 。
Tim在路上
2022-06-08
524
0
[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析(下)
文件存储
编程算法
api
数据结构
Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上和SortShuffleWriter是类似的,但是其中维护和执行的数据结构是不一样的。
Tim在路上
2022-06-05
573
1
[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 (上)
spark
mapreduce
之前我们已经了解了shuffle writer的详细过程,那么生成文件后会发生什么呢?以及它们是如何被读取呢?读取是内存的操作吗?这些问题也随之产生,那么今天我们将先来了解了shuffle reader的细枝末节。
Tim在路上
2022-06-05
515
0
[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析(上)
hashmap
jvm
存储
java
node.js
在说UnsafeShuffleWriter 前,需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了以防内容过于冗长。
Tim在路上
2022-05-29
388
0
[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情
缓存
数据结构
java
编程算法
SortShuffleWriter 是最基础的ShuffleWriter, 当其他几个ShuffleWriter不满足条件,或存在mapSide的聚合时只能选择SortShuffleWriter,它是支持最全面的兜底ShuffleWriter。
Tim在路上
2022-05-27
379
0
[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节
mapreduce
BypassMergeSortShuffleWriter 就如其名,旁支的sort-baesd Shuffle, 他是采用Hash-style实现的Sort based Shuffle。在map阶段records会按分区写入不同的文件, 一个分区一个文件。然后链接这些分区文件形成一个output文件,并生成其index。reducer通过IndexShuffleBlockResolver 查找消费输出文件的不同分区。
Tim在路上
2022-05-23
312
0
[SPARK][CORE] 面试问题 之 Spark Shuffle概述
spark
linux
mapreduce
大数据
一提到shuffle, 我们犹如“谈虎色变”。shuffle是大数据中的性能杀手,其来源于大数据中的元老级的组件Hadoop。
Tim在路上
2022-05-20
652
0
Spark netty RPC 通信原理
spark
scala
android
rpc
通信是分布式程序的血液和神经,就好比大脑发出的执行需要通过神经和需要才能传递到手脚进行执行。可见好的通信能力是分布式系统的重重之中。
Tim在路上
2022-05-20
934
0
SparkConf 配置与传播
spark
hashmap
hadoop
面向对象编程
在spark分布式程序中,sparkConf 主要起着Spark程序进行资源配置,性能调优,功能开关,参数传递的能力。在Spark的Driver和Executor中都存在着SparkConf。
Tim在路上
2022-03-23
264
0
Spark RDD 分布式弹性数据集
大数据
node.js
分布式
rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述。它可以通过稳定的存储器或者从其他RDD生成,它并不需要急着进行转换,只需要在特定的rdd进行一次性的数据的迭代流转。rdd记录着自己的依赖关系,以防在数据丢失时可以通过“血缘”关系再次生成数据。用户也可以自己选择在经常重用的rdd进行数据落地,放置丢失后重做。
Tim在路上
2022-03-23
374
0
算法:二叉树遍历类题目
二叉树
编程算法
树的遍历顺序是依赖于 根 节点的位置,前序遍历的顺序为 根左右,中序遍历的顺序为 左根右,后序遍历的顺序为 左右根。除此以外还存在层次遍历。
Tim在路上
2022-03-23
249
0
Spark架构模式与Flink的对比
flink
大数据
spark
windows
缓存
Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架,通过流来模拟批,Spark属于批处理框架,通过批来模拟流。其分别属于Lambda架构和Dataflow架构。
Tim在路上
2022-03-23
834
0
Spark 存储行动算子源码解析
hadoop
存储
从源码可以看出saveAsHadoopFile的输入参数有path, key类型,value类型, 输出格式类型,hadoop配置,压缩类型。将输入的参数配置到JobConf中后,调用saveAsHadoopDataset。
Tim在路上
2022-03-23
360
1
Spark 行动算子源码分析
mapreduce
android
文件存储
action算子都是直接调用sc.runJob(this, func _), 在调用时将func传给分区执行,并在调用后,在Driver端对数据在执行自定义的函数。
Tim在路上
2022-03-23
260
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档