大数据梦想家

大数据成长之路

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

ID-Mapping是大数据分析中非常基本但又关键的环节，ID-Mapping通俗的说就是把几份不同来源的数据，通过各种技术手段识别为同一个对象或主题，例如同一台设备（直接），同一个用户（间接），同一家企业（间接）等等，可以形象地理解为用户画像的“拼图”过程。

数据中台OneID：详解ID-Mapping！

近日，ChatGPT热度高居不下，强大的人机交互能力令人咋舌，在国内更是掀起一股讨论热潮。一时间，这场由ChatGPT引起的科技飓风，使得全球最顶尖科技力量聚光灯照向人工智能（AI），中外科技巨头之间的博弈较量也拉开帷幕。

ChatGPT在工业领域的用法

我们知道，数据库的数据处理能力是封闭的。所谓封闭性，这里是指要被数据库计算和处理的数据，必须事先装入数据库之内，数据在数据库内部还是外部是很明确的。

开源 SPL 打破数据库计算的封闭性

ETL是数据仓库中的非常重要的一环，是承前启后的必要的一步。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础 。

ETL常用的三种工具介绍及对比 Datastage，Informatica 和 Kettle

用户画像分析需要使用众多标签来描述用户属性，通常有两类标签。一类用户标签的值可能有多个，比如用户学历是中学、大学、研究生、博士等，年龄段是children、juvenile、youth、middle age、old age，这类标签称为枚举标签。另一类用户标签的值只有两个，比如用户是否注册、是否活跃、是否白领、是否某种促销的目标用户等等，这类标签称为二值标签。

多标签用户画像分析跑得快的关键在哪里？

        XML和Json不仅是结构化文本，而且擅长表示多层数据，可承载足够通用和足够丰富的信息，因此常被用于各种数据交换和信息传递事务，比如WebService/Restful，微服务等。但多层数据要比传统的二维表结构复杂，取数后再处理的难度也大。

从 jsonpath 和 xpath 到 SPL

        大家好，我是梦想家Alex，今天为大家带来面试过程中关于 Kafka 核心知识灵魂 16 问 ~ 内容较丰富，建议转发收藏。

Kafka 核心知识点灵魂 16 问

        相信大家都听说过 “读万卷书不如行万里路，行万里路不如阅人无数；阅人无数不如名师指路 ” 这句话 。

读万卷书为何无用？

        大家好，我是梦想家Alex ~ 今天为大家带来大数据开发面试中，关于 Spark 的 28 个高频考点 。
 

大数据开发面试之26个Spark高频考点

        各位学弟学妹们大家好，我是一名出生于千禧年的00后程序员，因为个人极特殊原因，现已毕业并在职场中摸爬滚打一年。在社会近一年的不断探索中，让我明白了很多人生哲理，看透了很多人间现实。借助这次分享，我梳理了以下几个方面的主题内容，希望对你们有所帮助，在前往优秀的道路上少走弯路。

00后程序员摸爬滚打近一年，为学弟学妹们总结出了以下 7 条人生建议（建议收藏）

        卷友们，大家好 ~ 我是 Alex 。之前已经陆续输出了 Hadoop三大核心组件 的 架构思想和原理 和 Hive架构设计和原理 ，每篇都受到了读者小伙伴们的一致好评 ~ 感谢大家的支持。大家可能已经猜到了，按照发展趋势，本篇将为大家介绍 关于 Spark 的架构设计和原理，希望大家受用！

一文带你了解 Spark 架构设计与原理思想

        大家好，我是梦想家 Alex 。在上一篇文章 简单介绍 HDFS，MapReduce，Yarn 的 架构思想和原理，收获和反响还不错，那本篇内容，我们继续，本篇文章，我来为大家介绍 Hive 架构思想和设计原理。
 

大数据必知必会 | Hive架构设计和原理

        大家好，我是 梦想家Alex 。之前实际上我也写了不少关于大数据技术组件的文章，例如：

简单介绍 Hadoop三大核心组件 的 架构思想和原理

        大家好，我是 梦想家 Alex 。在我技术群的小伙伴们都知道，我从今年 3月8日 开始，在技术群里发起了一个计划 。为了跟其他技术群有所区别，并且能调动得起大家的学习热情，我成立了一个出题组。每天早上，我会让管理员在技术群里的公告栏放上3道题目，分别是1道基础题，1道思考题和1道智力题，所有的答案均为群友讨论得出。后面为了让题目更加丰富，我们还添加过算法题，SQL题 。 一直积累到 8月份，这个日更计划暂时停止，但是我们的题库已经积攒了不少的题目。一开始我的想法是这个在线的知识库只对我们技术群的朋友开放，但是后面想到可以 精选出好的问题开放给更多的朋友，一起参与学习和思考 ，于是我便想到了用文章来记录的方式来打破壁垒。所以，我开设了“每日主题讨论”专栏，想用有限的文章，为大家带去更多的思考。本期文章，我为大家带来的是一点轻松愉快的内容，那便是 常见的智力题集锦

程序员必备智力题集锦 (典藏版)

        大家好，我是 梦想家 Alex 。我们都知道 github 对于程序员们而言，就是一个巨大的“聚宝盆”，上面不仅有很多优质的开源项目，还有很多热爱开源分享的开发者。但如何从浩如烟海的宝藏中，筛选出适合自己的优质项目呢？本期内容，我就为大家推荐几个我认为还不错的大数据学习必备的 牛 X 项目，希望大家看完有所收获。
 

大数据学习必备 | 推荐几个牛X 的 github 项目，助你事半功倍

        众所周知，Hadoop 中最核心的两大组件就是 HDFS 和 MapReduce。其中 HDFS 提供了承载海量数据存储的能力，而 MapReduce 则提供了海量数据高并行计算的能力。关于 HDFS 的介绍，之前已经写了两篇来分别介绍 HDFS 的架构 和 HDFS实现文件管理和容错的文章 。而本期文章，我将为大家介绍关于 MapReduce 的核心知识点。
 

MapReduce 的核心知识点，你都 get 到了吗 ?（干货文章，建议收藏！）

        之前听 CSDN 头牌博主 @沉默王二 说过一句话，我觉得十分在理：处在互联网时代，是一种幸福，因为各式各样的信息非常容易触达，如果掌握了信息筛选的能力，就真的是“运筹帷幄之中，决胜千里之外”。就像现在各行业都内卷不断，我们要从中破圈，只有想办法提升自己的竞争力！例如备战面试，广泛无脑地刷题只会消耗完你最后一丝精力，而多刷别人总结复盘记录下来的面经，有利于我们为下一次的“跨越”做好准备！

看完了108份面试题，我为你总结出了这 10 个【Hive】高频考点（建议收藏）

前言
        我们在上一篇 Kylin 的入门级介绍（👉第一个“国产“Apache顶级项目——Kylin，了解一下！）中，就已经谈到了有很多可以与 Kylin 结合使用的可视化工具，例如
ODBC：与Tableau、Excel、Power BI等工具集成。
JDBC：与Saiku、BIRT等Java工具集成
REST API：与JavaScript、Web网页集成。
        Kylin开发团队还贡献了 Zepplin 的插件，也可以使用Zepplin来访问Kylin服务
        本期

Kylin(麒麟)如何通过BI工具展示?

 Presto 作为现在在企业中流行使用的即席查询框架，已经在不同的领域得到了越来越多的应用。本期内容，我会从一个初学者的角度，带着大家从 0 到 1 学习 Presto，希望大家能够有所收获！
 

从 0 到 1 学习 Presto，这一篇就够了

        在 HDFS 中，NameNode 作为整个集群的管理中心，保存着整个 HDFS 中的元数据信息，而真正保存数据的是 DataNode。那么， Hadoop HDFS 是如何管理这些文件的呢？本期内容就来为大家解答：

干货 | HDFS是怎么做文件管理和容错的？

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了大数据成长之路专栏，为你提供了大数据成长之路的相关文章，致力于帮助开发者快速成长与发展。

大数据成长之路

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐