首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >大数据与云计算技术周报(第128期)

大数据与云计算技术周报(第128期)

作者头像
大数据和云计算技术
发布2019-11-19 12:26:59
发布2019-11-19 12:26:59
7930
举报

导语

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。 本期会给大家奉献上精彩的:hive、Spark、Cassandra、MongoDB、数据仓库、OLAP、Redis、Hbase、Spark、。全是干货,希望大家喜欢!!!

1Hive

分布式数据仓库(TDW)是一个以hive + hadoop为基础的大规模分布式系统,它提供了一种类SQL语言(称为HQL)让用户可以方便在其上进行编程开发。

在数据分析领域,经常需要计算数据集不同元素的个数(Distinct值),也称为基数计算。精确的基数计算需要消耗过多的计算资源,当数据量非常大时,这种资源的消耗就更加严重。因此在大数据领域,采用估值算法降低基数计算的成本成为一种新的选择。目前已经出现了一些优秀的基数估值算法,例如HLLC(HyperLogLog Counting)等。

TDW引入了HLLC算法,用户可以写HQL简单的使用它。在能够容忍一定精度损失的前提下,HLLC算法往往拥有比精确计算高得多的计算效率。HLLC算法在TDW上已经取得了较多的应用并且收到了较好的效果。

本文不打算介绍HLLC算法的原理,有兴趣的读者可以参考Flajolet的论文《HyperLogLog: The analysis of a near-optimal cardinality estimation algorithm》。

https://data.qq.com/article?id=809

2数据仓库

大量用户的使用,驱动着在数据中台建设的路上不断前进。如何将新兴技术能力应用到数据仓库的建设,如何以有限的成本高效解决企业在数据建设中面临的问题,将是马蜂窝数仓建设一直的思考。

https://mp.weixin.qq.com/s/r-cg-aXhp14FWgHcMY6Vdw

3OLAP

本文讲解了小米集存储计算于一体的分布式数据分析型数据库服务的OLAP。

https://mp.weixin.qq.com/s/pE40rm9HOBe9b8f1tXxoog

4Redis

Redis是一种内存数据存储,可用作数据库,缓存和消息代理。它支持从简单到复杂的数据结构,包括哈希,字符串,排序集,位图,地理空间数据等。在本指南中,我们将演示如何使用一些不同的工具和方法对在Ubuntu 18.04上运行的Redis服务器的性能进行基准测试

https://www.digitalocean.com/community/tutorials/how-to-perform-redis-benchmark-tests

5Spark

本文作者 Raja Sekar 已经有三年多 Spark 的使用经验,他认为 Spark 的 DataFrame 非常优秀,可以解决大多数分析工作负载问题,但仍然有一些地方使用 RDD 会更方便。于是,他萌生出了一个使用原生语言重新实现 Spark 的想法,想看看重写后在性能和资源管理效率方面可以达到怎样的效果。最后他选择了最近很火的 Rust,重写后的 FastSpark 不仅在运行速度上比 Spark 更快,而且能够节省相当多的内存,作者接下来的目标也很简单:将其作为 Apache Spark 的替代方案

https://mp.weixin.qq.com/s/F9mGwxkpYjprx2DWD__nBQ

6Hbase

本文主要讲述了用HBase存放时空数据的缺陷及常用的时空索引技术。https://mp.weixin.qq.com/s/GEF3jdUvqRW00ArzLB08fg

7数据安全

大数据时代,数据是最重要的。从个人角度来看,衣食住行都会产生数据,包含着最基本的个人信息以及历史消费记录等等。如果被盗,就会造成财产损失甚至更严重的后果;从企业来看,数据是市场竞争的关键部分,而保护用户的数据安全是最基本的责任,事关企业发展与信誉等等。。

https://mp.weixin.qq.com/s/k5qCwa1bpw0QPfFlAwo2AQ

8mangoDB

本文讲述了MongoDB的一个工单分析服务,经常性发出操作超时问题分析,并通过防止索引seeks操作来解决此问题;

https://cloud.tencent.com/developer/article/1509697

9Redis

针对“附近的人”这一位置服务领域的应用场景,Redis结合其有序队列zset以及geohash编码,实现了空间搜索功能,且拥有极高的运行效率。本文将从源码角度对其算法原理进行解析,并推算查询时间复杂度。

https://mp.weixin.qq.com/s/72Ztx8eehxzA7T8fHy0D5Q

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-11-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据和云计算技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档