腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
返回腾讯云官网
大数据技术栈
专栏成员
举报
67
文章
92628
阅读量
17
订阅数
订阅专栏
申请加入专栏
全部文章(67)
spark(16)
编程算法(13)
kafka(11)
sql(10)
大数据(9)
数据库(8)
node.js(6)
文件存储(5)
hive(5)
java(4)
javascript(4)
网络安全(4)
hadoop(4)
bash(3)
scala(3)
bash 指令(3)
http(3)
存储(3)
缓存(3)
推荐系统(3)
数据处理(3)
数据结构(3)
机器学习(2)
python(2)
云数据库 SQL Server(2)
打包(2)
linux(2)
unix(2)
神经网络(2)
深度学习(2)
mapreduce(2)
yum(2)
数据分析(2)
windows(2)
html(1)
云数据库 Redis®(1)
git(1)
api(1)
jar(1)
TDSQL MySQL 版(1)
人工智能(1)
企业(1)
yarn(1)
rollup.js(1)
shell(1)
jvm(1)
ssh(1)
正则表达式(1)
numpy(1)
zookeeper(1)
二叉树(1)
tcp/ip(1)
https(1)
hbase(1)
任务调度(1)
flink(1)
awk(1)
matplotlib(1)
text(1)
算法(1)
搜索文章
搜索
搜索
关闭
奇怪的知识
企业
机器学习
大数据
神经网络
深度学习
而数据中台则是将数据服务化之后提供给业务系统, 目标是将数据能力渗透到各个业务环节
solve
2022-03-30
832
0
Kafka 保证分区有序
kafka
Kafka能做到全局有序吗? Kafka只能保证分区有序, 如果只有一个分区, 那也是变向的全局有序 Kafka如何保证分区有序 通过配置 max.in.flight.requests.per.connection = 1 这个配置是 生产者 往 服务度 发送数据的请求数, 配置为1,则一次只能发送1个请求, 如果失败继续重试,知道成功, 才会进行下一个请求的发送, 这样就保证了消息的有序性, 但是相对性能就大大降低了。 通过生产者幂等特性 幂等的保证是需要给每条消息加一个 Seqnum的
solve
2021-01-26
740
0
Kafka 水位详解
node.js
kafka
kafka中用水位来描述, 一个分区中的可见数据的offset。 大概你需要知道这几点:
solve
2021-01-21
863
0
Flink系列——感性认识
flink
大数据
老板都是复制整个工厂的整体把控的, 一般不亲自动手,只需要管好 工厂的车间组长 就可以了。 JobManager 则是负责整个集群的资源管理与任务管理, 当然他不需要亲自管理,一般都是交给 TaskManager。
solve
2020-07-28
164
0
SparkSQL技巧——如何识别SQL语句 和 执行一个SQL文件
网络安全
sql
spark
数据库
SparkSQL好像没有提供相关的Api, 至少我是没有找到。 于是我自己写了一个.... 代码很简单, 如下:
solve
2020-07-15
2.7K
0
SparkStreaming On Kafka —— Offset 管理
kafka
我之前有写一篇kafka Consumer — offset的控制 如果你对于这方面的知识还不太清楚, 建议你去看一下, 毕竟理解了Kafka的消费者, 你才能更好的使用SparkStreaming结合Kafka。
solve
2020-03-24
1.2K
0
Crontab 设置的时间有时区差
bash
bash 指令
问题描述 crontab中设置每天12:00启动任务,结果发现每天20:00才启动。 问题分析 明显是时区不一致造成的, 所以需要从时区设置入手 解决方案 查看并修改 本地时区 查看 more /etc/localtime 备份: cp /etc/localtime /etc/localtime.bak 设置本地时区 设置本地时区为 Shanghai cp -pf /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 修改 Contab 时区 v
solve
2020-03-20
4.2K
0
大数据OLAP框架对比
sql
数据库
数据处理
hive
存储
以上是在大数据处理方面常用的四种技术原理, 上面这些处理数据的方式极大程度的提高了单位时间内数据处理的能力, 但是其还是没有摆脱数据量和查询时间的线性关系。 于是在OLAP处理方式上, 我们多了一种:
solve
2020-03-20
4K
0
架构杂记
spark
sql
api
hadoop
kafka
根据目前的情况看起来,国内普遍对于flink比较看好, 从实际情况来看,flink也是以后的发展方向, 但是目前Spark的活跃程度远高于Flink, 很难说Spark以后的底层不会也才有flink这种方式,
solve
2020-02-25
550
0
Redis 持久化方式——RDB
云数据库 Redis®
unix
Redis持久化数据的两种方式之一, 另外一种是AOF。 Redis会定期保存数据快照至一个rbd文件中, 并在启动时自动加载rdb文件, 恢复之前保存的数据。
solve
2020-02-13
426
0
Spark系列——从 cartesian 带你看点不一样的 Shuffle
spark
这只是一个人随意的一些分享, 你大概可以放宽心的当休闲的东西来看, 看完你大概也许会对Spark会有一些不一样的想法。
solve
2020-02-11
1.1K
0
Spark源码 —— 从 SparkSubmit 到 Driver启动
spark
本文主要是以笔记的整理方式写的, 仅以分享的方式供你阅读, 如有不对的地方欢迎指点错误。 读完本文可以学到: 当你用 shell 命令执行 spark-submit 之后, 到你的代码开始正式运行的一些列知识和细节, 恩...粗略的,要看的更细,可以按照流程自己撸源码哈~~~~
solve
2020-01-15
820
0
Spark VS MapReduce 浅谈
spark
缓存
计算的速度是取决于计算机本身的计算能力的。 并且目前来看,所有的计算机计算都是基于内存的(如果有不是的,请原谅我的孤陋寡闻...), 也就是说 MR 和 Spark 是没有区别的。
solve
2019-12-26
404
0
kafka Consumer — offset的控制
kafka
javascript
node.js
在N久之前,曾写过kafka 生产者使用详解, 今天补上关于 offset 相关的内容。 那么本文主要涉及:
solve
2019-12-16
3K
0
Kafka —— 如何保证消息不会丢失
kafka
当我们通过 send(msg, callback) 是不是就意味着消息一定不丢失了呢?
solve
2019-11-26
1.5K
0
Hive 多分组函数GROUPING SETS,GROUPING__ID,CUBE,ROLLUP
hive
javascript
打包
rollup.js
GROUPING SETS, GROUPING__ID, CUBE, ROLLUP 这几个分析函数通常用于OLAP中, 不能累加,而且需要根据不同维度上钻和下钻的指标统计, 比如,分小时、天、月的UV数。
solve
2019-11-10
1.9K
0
Hive 修复分区 MSCK REPAIR TABLE
hive
大数据
MSCK REPAIR TABLE命令主要是用来: 解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。
solve
2019-11-10
7.5K
0
Hadoop面试复习系列——HDFS(一)
node.js
大数据
编程算法
文件存储
存储
转载自: https://cloud.tencent.com/developer/article/1031641 https://my.oschina.net/freelili/blog/1853668
solve
2019-10-30
671
0
Kafka 重平衡 全流程解析
kafka
本文来自 极客时间 Kafka核心技术与实战 这段时间有看 极客时间的这个课程, 这里仅以分享的角度来做个笔记。 那么本文将涉及到以下几个知识点:
solve
2019-10-30
3.6K
0
Kafka 为什么快?
kafka
存储
缓存
本文只想从作者本身的认识来谈谈 kafka 为什么会这么快? 我们都知道 kafka 是基于磁盘的, 但是他的存储和读取速度确是非常的快的。 阅读本文前,你可能需要基本了解 kafka 使用 和 架构。
solve
2019-10-30
725
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档