greenplum hadoop_hadoop与greenplum_greenplum - 腾讯云开发者社区

行为日志在这个大数据时代的作用日益重要，怎样更好的收集、存储、管理日志也是值得研究的一个问题，大型互联网公司一般都有成熟的日志聚合方案，但是每个公司尤其是中小型公司都要针对自己的应用场景来做技术选型，本文主要针对中小型公司如何以较小的成本快速构建一个行为日志聚合体系以及在建立日志聚合过程中要处理哪些问题。

您找到你想要的搜索结果了吗？

是的

没有找到

Greenplum迁移指南

一两个节点、一两条命令，轻松让 TiDB 分析场景无痛提速十倍

某天，老板让你分省统计口罩最近的订货数据，以快速决策需要向哪里调货。你发起查询，全部订单数据多达数亿甚至更多，TiDB 不得不花费一小段时间。由于存储节点在全力计算，你的集群波动的监控哔哔作响，主站的订单提交也一下子变得慢起来。倒了杯咖啡回来，你得到了结果。

Greenplum MPP 架构

Greenplum（以下简称GPDB）是一款开源数据仓库。基于开源的PostgreSQL改造，主要用来处理大规模数据分析任务，相比Hadoop，Greenplum更适合做大数据的存储、计算和分析引擎。

Why HTAP Matters

说到 Why HTAP Matters，其实包含两部分，一部分是说为什么我们叫 HTAP，另外一部分是说 TiDB 怎样在 HTAP 架构下发挥它的优势。

HAWQ技术解析（四） —— 启动停止

前面已经完成了HAWQ的安装部署，也了解了HAWQ的系统架构与主要组件，下面开始使用它。HAWQ作为Hadoop上的一个服务提供给用户，与其它所有服务一样，最基本的操作就是启动、停止、

010

偶数科技OushuDB数据库巡检脚本

Oushu Database（简称OushuDB）是新一代极速云数仓，让企业用户轻松构建核心数仓、数据集市、实时数仓以及湖仓一体数据平台。OushuDB由国人自主研发，符合国家信创标准；通过计算存储分离架构解决了传统数据仓库高成本、高门槛、难维护、难扩展的问题。同时支持各大公有云和私有云。

并行数据库技术分析与展望

本文以我个人的理解简单分析下并行数据库的技术要点以及对未来并行数据库的发展做下展望，理解有偏差的地方，欢迎各位指正。并行数据库的定义在维基百科上，并行数据库被定义为通过并行使用多个CPU和磁盘来将诸如装载数据、建立索引、执行查询等操作并行化以提升性能的数据库系统。其中最重要的关键词是并行，分布式。并行数据库的技术要点‍ ‍ 并行数据库主要由执行引擎、存储引擎和管理功能模块组成，它们的不同技术风格形成了各个有特色的并行数据库产品。随着Hadoop的兴起，目前MPP数据库主要分成两类

MPP DB 是大数据实时分析系统未来的选择吗？

大数据领域，实时分析系统（在线查询）是最常见的一种场景，前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE，如腾讯基于HIVE深度定制改造，改名为TDW，小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。当前在实时分析系统中，最难的是多维度复杂查询，目前没有一个很好的解决方案，这两天和人讨论到MPP DB（分布式数据库，以Greenplum为最典型代表）。如果从性能来讲，MPP

最通俗易懂的大数据术语，必知必会大数据基础知识大全

产品经理要不要懂技术的问题一直有很多的观点和讨论，一般来讲产品懂技术是有一定的优势，但不是充分必要条件。而数据产品是B端更偏底层的工种，有一定技术基础后，开展工作更顺利。找工作的经历里面，有被问到过你

[译] 实时股票预测的开源参考结构

关于转载授授权大数据文摘作品，欢迎个人转发朋友圈，自媒体、媒体、机构转载务必申请授权，后台留言“机构名称+文章标题+转载”，申请过授权的不必再次申请，只要按约定转载即可，但文末需放置大数据文摘二维码。作者：WilliamMarkito 翻译：姜咏耀, Helen 审校：Rebecca，Shawn 素材来源：https://blog.pivotal.io/big-data-pivotal/case-studies/an-open-source-reference-architecture-for-real

大数据OLAP系统（2）——开源组件篇

开源大数据OLAP组件，可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎：

tableau桌面版连接spark sql的测试

Tableau是一款优秀的数据可视化分析软件，这几天安装之后，感觉它不仅可以实现对各种数据的可视化绘制操作，并支持多个视图按照故事进行组织，同时具有强大的数据连接操作。支持各种数据源。当然最强大的肯定还是它的server版，可以实现与desktop版的无缝对接。

SQL on Hadoop 技术分析（二）

森哥大作，接上一篇：SQL on Hadoop技术分析（一） SQL on Hadoop 技术分析（二）本篇继续分析SQL on Hadoop的相关技术，本次分析的重点是查询优化器（技术上的名词叫SQL Parser），在SQL on Hadoop技术中有着非常重要的地位，一次查询SQL下来，SQL Parser分析SQL词法，语法，最终生成执行计划，下发给各个节点执行，SQL的执行的过程快慢，跟生成的执行计划的好坏，有直接的关系，下面以目前业界SQL onHadoop 使用的比较多的组件Impala、H

OushuDB 如何安装与升级

如果您用的是Oushu Lava公有云，或者私有云2.0+，您可以通过Lava UI自动部署OushuDB，详情请见： http://oushu.io/docs/ch/lava-...。

洞察|淘宝大数据之路：回顾这些年淘宝大数据所经历过的故事

2003年至今淘宝网从零开始飞速发展，走过了13个年头，支撑淘宝业务野蛮式生长背后是一套不断完善的技术平台，淘宝大数据平台，就是其中非常重要的一个组成部分，承担了数据采集、加工处理、数据应用的职责，淘

Snova架构篇（一）：Greenplum MPP核心架构

参考文章：https://doc.huodongjia.com/detail-3839.html Hashdata 简丽荣

史上最全企业数据产品选型对比（含数仓、报表、BI、中台、数据治理）

这个从上至下都在强调数字化转型的时代，越来越多公司重视数据，也越来越多的企业有数据建设的需求。

云数据库的本质是什么？

内容来源：2017 年 11 月 18 日，北京偶数科技创始人兼CEO常雷在“第七届数据技术嘉年华”进行《云数据库的本质》演讲分享。IT 大咖说（微信id：itdakashuo）作为独家视频合作方，经主办方和讲者审阅授权发布。

Greenplum资源队列初识

在Greenplum的4.x版本之后，加入了资源队列的概念，其主要作用就是限制用户或者单个SQL对资源的消耗。避免出现消耗过多资源，影响其他用户或者SQL计算。这里的资源限制主要是指系统内存资源。

016

新起点！大数据分布式可视化的 DAG 任务调度系统 Taier 正式发布1.4版本

我们很高兴向大家宣布，2023年4月14日，Taier 正式发布 1.4 版本。自2022年2月份 Taier 正式开源以来，收到了很多开发者和行业用户的积极评价，在诸多生产环境中已得到充分应用。Taier 1.4版本正是吸收了各类实践经验及大家的建议，进行了此次迭代优化。

关于数据仓库的架构及3大类组件工具选型

关于数据仓库的概念、原理、建设方法论，网上已经有很多内容了，也有很多的经典书籍，本文更想聊聊企业数据仓库项目上的架构和组件工具问题。

MPP(大规模并行处理)简介转

MPP (Massively Parallel Processing)，即大规模并行处理，在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

HAWQ技术解析（一） —— HAWQ简介

一、SQL on Hadoop 过去五年里，许多企业已慢慢开始接受Hadoop生态系统，将它用作其大数据分析堆栈的核心组件。尽管Hadoop生态系统的MapReduce组件是一个强大的典范，但随着时间的推移，MapReduce自身并不是连接存储在Hadoop生态系统中的数据的最简单途径，企业需要一种更简单的方式来连接要查询、分析、甚至要执行深度数据分析的数据，以便发掘存储在Hadoop中的所有数据的真正价值。SQL在帮助各类用户发掘数据的商业价值领域具有很长历史。 Hadoop上的SQL支持一开始是Apache Hive，一种类似于SQL的查询引擎，它将有限的SQL方言编译到MapReduce中。Hive对MapReduce的完全依赖会导致查询的很大延迟，其主要适用场景是批处理模式。另外，尽管Hive对于SQL的支持是好的开端，但对SQL的有限支持意味着精通SQL的用户忙于企业级使用案例时，将遇到严重的限制。它还暗示着庞大的基于标准SQL的工具生态系统无法利用Hive。值得庆幸的是，在为SQL on Hadoop提供更好的解决方案方面已取得长足进展。 1. 对一流的SQL on Hadoop方案应有什么期待下表显示了一流的SQL on Hadoop所需要的功能以及企业如何可以将这些功能转变为商业利润。从传统上意义上说，这些功能中的大部分在分析数据仓库都能找到。

数据智能之多维度分析系统的选型方法

##引言前文回顾：《数据智能时代来临：本质及技术体系要求》作为本系列的第一篇文章，概括性地阐述了对于数据智能的理解以及推出了对应的核心技术体系要求：

分久必合？数据库进入“超”融合时代 | 爱分析调研

上世纪60年代，网状和层状数据库揭开了数据库系统发展的帷幕；1970年，来自IBM实验室的Edgar F. Codd发表了《大型共享数据库数据的关系模型》论文，提出基于集合论和谓词逻辑的关系模型，为关系型数据库技术奠定了理论基础。之后关系型数据库快速发展，并为整个数据库生态培育了坚实肥沃的发展土壤。

玩转大数据，你需要了解这8种项目类型！

在过去的 12 个月里，笔者一直在大数据的战壕里挖掘。好吧，其实大部分时间我只是坐在比我更聪明的人旁边，看他们怎么在战壕里挖掘数据，再把所做的事情进行简化以上报给管理层。很少有真正独具一格的 IT 项目，那些听起来比较特别的项目最终也只是大同小异。不过你们今天有眼福了，因为我决定出来冒个泡儿，跟大家分享一下过去 12 个月里接触到的8大项目类型。 1 探索交易周期那些做电子商务的公司想当然地认为，装几个工具就能掌握网页访客从销售到付款的成交情况。但是很多公司处理的数据集远远不止网页成交率，而且这些数据集

激活数据价值，探究DataOps下的数据架构及其实践丨DTVision开发治理篇

据中国信通院发布，2012 年到 2021 年 10 年间，我国数字经济规模由 12 万亿元增长到 45.5 万亿元，在整个 GDP 中的比重由 21.6% 提升至 39.8%。顺应时代发展新趋势，“数据” 成为新的生产要素已是毋庸置疑的共识。

Redis的搭建和Redis的集群搭建

1、Redis的官网：https://redis.io/ Redis的测试网站：http://try.redis.io/

GreenPlum备份和恢复工具之gpbackup和gprestore

Greenplum数据库支持并行和非并行方法来备份和还原数据库。并行操作可扩展，而与系统中段的数量无关，因为段主机各自将数据同时写入本地磁盘存储中。对于非并行备份和还原操作，必须通过网络将数据从网段发送到主服务器，主服务器将所有数据写入其存储中。除了将I/O限制在一台主机之外，非并行备份还要求主服务器具有足够的本地磁盘存储空间来存储整个数据库。

greenplum gptransfer命令使用

https://gpdb.docs.pivotal.io/510/utility_guide/admin_utilities/gptransfer.html

一套数据，多种引擎

以前写过一篇文档讨论MPP DB的发展，《MPP DB 是大数据实时分析系统未来的选择吗？》，当时主要是想讨论下Greenplum数据库是否合适做数据存储，以及实时查询。文章我主要提的MPP DB短板是扩展性和对并发的支持，从目前Pivotal公司主推的HAWK，已经可以清楚的看到，业界主流的思路是SQL onhadoop，用传统引擎的高性能加上hadoop 存储的鲁棒性，来构建大数据实时分析。一、为什么SQL on hadoop会流行？ SQL其实也是一种DSL，将复杂的数据操作抽象成几个关键字（i

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐