首页
学习
活动
专区
工具
TVP
发布

大数据成长之路

专栏成员
382
文章
548785
阅读量
60
订阅数
数据中台OneID:详解ID-Mapping!
ID-Mapping是大数据分析中非常基本但又关键的环节,ID-Mapping通俗的说就是把几份不同来源的数据,通过各种技术手段识别为同一个对象或主题,例如同一台设备(直接),同一个用户(间接),同一家企业(间接)等等,可以形象地理解为用户画像的“拼图”过程。
大数据梦想家
2023-04-23
4.6K1
ChatGPT在工业领域的用法
近日,ChatGPT热度高居不下,强大的人机交互能力令人咋舌,在国内更是掀起一股讨论热潮。一时间,这场由ChatGPT引起的科技飓风,使得全球最顶尖科技力量聚光灯照向人工智能(AI),中外科技巨头之间的博弈较量也拉开帷幕。
大数据梦想家
2023-03-09
9230
开源 SPL 打破数据库计算的封闭性
我们知道,数据库的数据处理能力是封闭的。所谓封闭性,这里是指要被数据库计算和处理的数据,必须事先装入数据库之内,数据在数据库内部还是外部是很明确的。
大数据梦想家
2022-10-31
6450
ETL常用的三种工具介绍及对比 Datastage,Informatica 和 Kettle
ETL是数据仓库中的非常重要的一环,是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础 。
大数据梦想家
2022-10-28
6.1K0
多标签用户画像分析跑得快的关键在哪里?
用户画像分析需要使用众多标签来描述用户属性,通常有两类标签。一类用户标签的值可能有多个,比如用户学历是中学、大学、研究生、博士等,年龄段是children、juvenile、youth、middle age、old age,这类标签称为枚举标签。另一类用户标签的值只有两个,比如用户是否注册、是否活跃、是否白领、是否某种促销的目标用户等等,这类标签称为二值标签。
大数据梦想家
2022-10-27
9850
从 jsonpath 和 xpath 到 SPL
        XML和Json不仅是结构化文本,而且擅长表示多层数据,可承载足够通用和足够丰富的信息,因此常被用于各种数据交换和信息传递事务,比如WebService/Restful,微服务等。但多层数据要比传统的二维表结构复杂,取数后再处理的难度也大。
大数据梦想家
2022-09-09
2.1K0
Kafka 核心知识点灵魂 16 问
        大家好,我是梦想家Alex,今天为大家带来面试过程中关于 Kafka 核心知识灵魂 16 问 ~ 内容较丰富,建议转发收藏。
大数据梦想家
2022-05-26
5090
读万卷书为何无用?
        相信大家都听说过 “读万卷书不如行万里路,行万里路不如阅人无数;阅人无数不如名师指路 ” 这句话 。
大数据梦想家
2022-05-18
3310
大数据开发面试之26个Spark高频考点
        大家好,我是梦想家Alex ~ 今天为大家带来大数据开发面试中,关于 Spark 的 28 个高频考点 。
大数据梦想家
2022-05-14
9090
00后程序员摸爬滚打近一年,为学弟学妹们总结出了以下 7 条人生建议(建议收藏)
        各位学弟学妹们大家好,我是一名出生于千禧年的00后程序员,因为个人极特殊原因,现已毕业并在职场中摸爬滚打一年。在社会近一年的不断探索中,让我明白了很多人生哲理,看透了很多人间现实。借助这次分享,我梳理了以下几个方面的主题内容,希望对你们有所帮助,在前往优秀的道路上少走弯路。
大数据梦想家
2022-05-10
6870
一文带你了解 Spark 架构设计与原理思想
卷友们,大家好 ~ 我是 Alex 。之前已经陆续输出了 Hadoop三大核心组件 的 架构思想和原理 和 Hive架构设计和原理 ,每篇都受到了读者小伙伴们的一致好评 ~ 感谢大家的支持。大家可能已经猜到了,按照发展趋势,本篇将为大家介绍 关于 Spark 的架构设计和原理,希望大家受用!
大数据梦想家
2022-01-21
2.4K0
大数据必知必会 | Hive架构设计和原理
大家好,我是梦想家 Alex 。在上一篇文章 简单介绍 HDFS,MapReduce,Yarn 的 架构思想和原理,收获和反响还不错,那本篇内容,我们继续,本篇文章,我来为大家介绍 Hive 架构思想和设计原理。
大数据梦想家
2021-10-22
2K0
简单介绍 Hadoop三大核心组件 的 架构思想和原理
大家好,我是 梦想家Alex 。之前实际上我也写了不少关于大数据技术组件的文章,例如:
大数据梦想家
2021-10-22
1.7K0
程序员必备智力题集锦 (典藏版)
大家好,我是 梦想家 Alex 。在我技术群的小伙伴们都知道,我从今年 3月8日 开始,在技术群里发起了一个计划 。为了跟其他技术群有所区别,并且能调动得起大家的学习热情,我成立了一个出题组。每天早上,我会让管理员在技术群里的公告栏放上3道题目,分别是1道基础题,1道思考题和1道智力题,所有的答案均为群友讨论得出。后面为了让题目更加丰富,我们还添加过算法题,SQL题 。 一直积累到 8月份,这个日更计划暂时停止,但是我们的题库已经积攒了不少的题目。一开始我的想法是这个在线的知识库只对我们技术群的朋友开放,但是后面想到可以 精选出好的问题开放给更多的朋友,一起参与学习和思考 ,于是我便想到了用文章来记录的方式来打破壁垒。所以,我开设了“每日主题讨论”专栏,想用有限的文章,为大家带去更多的思考。本期文章,我为大家带来的是一点轻松愉快的内容,那便是 常见的智力题集锦
大数据梦想家
2021-10-22
1.8K0
大数据学习必备 | 推荐几个牛X 的 github 项目,助你事半功倍
大家好,我是 梦想家 Alex 。我们都知道 github 对于程序员们而言,就是一个巨大的“聚宝盆”,上面不仅有很多优质的开源项目,还有很多热爱开源分享的开发者。但如何从浩如烟海的宝藏中,筛选出适合自己的优质项目呢?本期内容,我就为大家推荐几个我认为还不错的大数据学习必备的 牛 X 项目,希望大家看完有所收获。
大数据梦想家
2021-10-22
2.2K0
MapReduce 的核心知识点,你都 get 到了吗 ?(干货文章,建议收藏!)
众所周知,Hadoop 中最核心的两大组件就是 HDFS 和 MapReduce。其中 HDFS 提供了承载海量数据存储的能力,而 MapReduce 则提供了海量数据高并行计算的能力。关于 HDFS 的介绍,之前已经写了两篇来分别介绍 HDFS 的架构 和 HDFS实现文件管理和容错的文章 。而本期文章,我将为大家介绍关于 MapReduce 的核心知识点。
大数据梦想家
2021-10-22
1.7K0
看完了108份面试题,我为你总结出了这 10 个【Hive】高频考点(建议收藏)
之前听 CSDN 头牌博主 @沉默王二 说过一句话,我觉得十分在理:处在互联网时代,是一种幸福,因为各式各样的信息非常容易触达,如果掌握了信息筛选的能力,就真的是“运筹帷幄之中,决胜千里之外”。就像现在各行业都内卷不断,我们要从中破圈,只有想办法提升自己的竞争力!例如备战面试,广泛无脑地刷题只会消耗完你最后一丝精力,而多刷别人总结复盘记录下来的面经,有利于我们为下一次的“跨越”做好准备!
大数据梦想家
2021-10-22
1.4K0
Kylin(麒麟)如何通过BI工具展示?
前言 我们在上一篇 Kylin 的入门级介绍(👉第一个“国产“Apache顶级项目——Kylin,了解一下!)中,就已经谈到了有很多可以与 Kylin 结合使用的可视化工具,例如 ODBC:与Tableau、Excel、Power BI等工具集成。 JDBC:与Saiku、BIRT等Java工具集成 REST API:与JavaScript、Web网页集成。 Kylin开发团队还贡献了 Zepplin 的插件,也可以使用Zepplin来访问Kylin服务 本期
大数据梦想家
2021-10-22
1.1K0
从 0 到 1 学习 Presto,这一篇就够了
Presto 作为现在在企业中流行使用的即席查询框架,已经在不同的领域得到了越来越多的应用。本期内容,我会从一个初学者的角度,带着大家从 0 到 1 学习 Presto,希望大家能够有所收获!
大数据梦想家
2021-10-22
7.5K1
干货 | HDFS是怎么做文件管理和容错的?
在 HDFS 中,NameNode 作为整个集群的管理中心,保存着整个 HDFS 中的元数据信息,而真正保存数据的是 DataNode。那么, Hadoop HDFS 是如何管理这些文件的呢?本期内容就来为大家解答:
大数据梦想家
2021-10-22
1.7K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档