午午午

文章/答案/技术大牛

发布

LV0

我关注的人

再来说说sparksql中count(distinct)原理和优化手段吧~

元旦前一周到现在总共接到9个sparksql相关的优化咨询，这些案例中，有4个和count(distinct)有关。

数据仓库践行者 2024-01-162024-01-16 14:43:27

源码、count、distinct、优化、原理

Flink使用中遇到的问题

数据处理和 barrier 处理都由主线程处理，如果主线程处理太慢（比如使用 RocksDBBackend，state 操作慢导致整体处理慢），导致 barri...

神秘的寇先森 2020-02-192020-02-19 10:53:54

大数据

Spark Streaming vs. Kafka Stream 哪个更适合你？

译者注：本文介绍了两大常用的流式处理框架，Spark Streaming和Kafka Stream，并对他们各自的特点做了详细说明，以帮助读者在不同的场景下对框...

CSDN技术头条 2018-02-132018-02-13 09:39:32

spark

kafka中文文档

之前的版本：0.7.x，0.8.0，0.8.1.X，0.8.2.X，0.9.0.X，0.10.0.X。

gemron的空间 2019-11-042019-11-04 12:24:18

kafka、ide、api、SSL 证书、https

优秀的技术选型（摘选）

1. 优秀的技术选型（摘选） 1.1. 缓存 redis因为是单线程，不适合高耗时操作，对数据量比较大的缓存还是memcached比较合适 1.2. 分库分表 ...

老梁 2019-09-112019-09-11 17:28:35

云数据库 SQL Server、运维、zookeeper、Elasticsearch Service、git

Spark SQL从入门到精通

熟悉spark sql的都知道，spark sql是从shark发展而来。Shark为了实现Hive兼容，在HQL方面重用了Hive中HQL的解析、逻辑执行计划...

Spark学习技巧 2019-05-092019-05-09 17:02:01

hive、云数据库 SQL Server、sql、数据库、spark

Flink从入门到放弃-Flink重启策略

戳更多文章： 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布...

王知无-import_bigdata 2019-03-152019-03-15 17:15:45

大数据、api

关于海量数据处理分析的经验总结

笔者在实际工作中，有幸接触到海量的数据处理问题，对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面：一、数据量过大，数据中什么情况都可能存在。如果说有10...

机器学习AI算法工程 2018-03-122018-03-12 11:16:25

数据处理、数据库、oracle、sql server

个人简介

暂未填写公司和职称
极客无极限
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
上海
加入社区时间：2018-02-27

个人成就

TA 很懒，什么都没有留下╮（╯＿╰）╭

关注了：11关注者：0

午午午