HyperLogLog 是用来做基数统计的算法,HyperLogLog 的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定 的、并且是很小的。
在移动互联网的业务场景中,数据量很大,系统需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计做一个报表给运营人员看。
翻译自 Why Did Grafana Labs Need to Add Adaptive Metrics? 。
Bitmaps 并不是实际的数据类型,而是定义在String类型上的一个面向字节操作的集合。因为字符串是二进制安全的块,他们的最大长度是512M,最适合设置成2^32个不同字节。 bitmaps的位操作分成两类:1.固定时间的单个位操作,比如把String的某个位设置为1或者0,或者获取某个位上的值 2.对于一组位的操作,对给定的bit范围内,统计设定值为1的数目(比如人口统计)。 bitmaps最大的优势是在存储数据时可以极大的节省空间,比如在一个项目中采用自增长的id来标识用户,就可以仅用512M的内存来记录40亿用户的信息(比如用户是否希望收到新的通知,用1和0标识)
现代计算机用二进制(位) 作为信息的基础单位, 1个字节等于8位, 例如“abc”字符串是由3个字节组成, 但实际在计算机存储时将其用二进制表示, “abc”分别对应的ASCII码分别是97、 98、 99, 对应的二进制分别是01100001、 01100010和01100011,如下图
命令大小写都可以,如果你只想单纯看 API,不想看例子,请移到最下面的 指令总结。
Redis 发布订阅 (pub/sub) 是一种消息通信模式:发送者 (pub) 发送消息,订阅者 (sub) 接收消息
redis 2.8.9版本就更新了Hyperloglog数据结构! Hyperloglog:基数统计算法!0.81%的错误率,不过统计大量数据可以忽略! 在 Redis 里面,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基 数。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。 但是,因为 HyperLogLog 只会根据输入元素来计算基数,而不会储存输入元素本身,所以 HyperLogLog 不能像集合那样,返回输入的各个元素。
项目中一直有计算DAU这类的需求,业务开发者往往埋个点,其他是事情就交给数据团队了。
时间序列是在特定时间点的一系列测量。例如温度、股票价格、汽车速度、流速、CPU 使用率等,通常在某个时间点观察,然后也在某个时间点存储。例如测量每天早上 8 点的温度,并把将其放在一些测量日志之中,这样每个数据点会对应特定的日期。将数据与时间联系在一起,例如将日期作为横轴,将数据点绘制成为曲线会展现出其他信息,例如温度变化的趋势。
pfmerge destkey sourcekey [sourcekey ...]
Redis 中除开最常用的 5 种数据类型之外,还有 3 种特殊的数据类型,他们是:
传统上,度量指标一般由批处理作业执行(每小时运行,每天运行等)。Redis 中的 Bitmap 可以允许我们实时计算指标,并且非常节省空间。在1.28亿用户场景中,经典度量指标(如’日活’)在 MacBook Pro上只需不到50毫秒,而且只需要16 MB内存。
在 SQL 中,基数(cardinality)的定义为一个数据列中独一无二数据的数量。
前面的文章已经介绍了redis的5种基本数据类型,redis6中另外还有3种特殊的数据类型,分别是 Bitmaps (位图)、HyperLogLogs(基数统计)和 geospatial (地理位置)。本文将继续探讨它们的特性、原理以及应用场景。
在《实例对比 Julia, R, Python,谁是狼语言?》我们简单介绍了 Julia 的背景,以及通过优化一个似然函数的参数 μ 和 σ,来对比 Julia、R、Python 三门语言,谁更快,谁的输出更舒适。
本文作者戴卓嘉,拥有 10 年开发经验的数据科学家,以下是他对 Julia、R、Python 分别在字符串排序速度上的示例与对比,Python 为何会被碾压?废话不多说,马上开讲。
上一篇博文我们已经介绍过,在没有采取任何优化措施的情况下,Kylin会对每一种维度的组合进行预计算,每种维度的组合的预计算结果被称为Cuboid。假设有4个维度,我们最终会有24 =16个Cuboid需要计算。 但在现实情况中,用户的维度数量一般远远大于4个。假设用户有10 个维度,那么没有经过任何优化的Cube就会存在210 =1024个Cuboid;而如果用户有20个维度,那么Cube中总共会存在220 =1048576个Cuboid。虽然每个Cuboid的大小存在很大的差异,但是单单想到Cuboid的数量就足以让人想象到这样的Cube对构建引擎、存储引擎来说压力有多么巨大。因此,在构建维度数量较多的Cube时,尤其要注意Cube的剪枝优化(即减少Cuboid的生成)。
“带你走进Apache Kylin的世界”
Redis HyperLogLog 是 Redis 2.8.9 版本新增的数据类型,是一种用于「统计基数」的数据集合类型,基数统计就是指统计一个集合中不重复的元素个数
Apache Kylin采用“预计算”的模式,用户只需要提前定义好查询维度,Kylin将帮助我们进行计算,并将结果存储到HBase中,为海量数据的查询和分析提供亚秒级返回,是一种典型的“空间换时间”的解决方案。
在移动互联网的业务场景中,数据量很大,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计。
Hyperloglog在数据了很大的时候,可接受误差!一般用于网站UV,就是用户数量统计!
对于bitmap,我们取值的时候,需要知道bit的位置,改值的时候,需要知道位置和修改结果。取值和修改的操作变得复杂了一些,但是节省了存储空间,属于时间换空间。其实redis并没有提供bitmap这种数据类型,只是提供了对string类型操作bit的接口
在开发中我们Redis数据类型用到最多的是Set命令,但是不仅于此,还有很多数据类型,这些可用户我们很多统计需求的场景,看看这些场景你遇到过,或者再次遇到的时候会做如何进行方案选择,一起看看!
博主简介👨🏼⚕️:国内某一线互联网公司Java工程师👨🏼💻,业余自媒体创作者💻,CSDN博客专家🏆,Java领域优质创作者📕,华为云享专家🥇,华为HDZ核心成员👨💼,曾发表并出版ISEAE信息科学国际论文,全网累计发表技术博客60余万字📒,公众号【码猿编程日记】作者,坚信每一次敲动键盘都能让生活变得更智能,世界变得更有趣! 课前答疑:很多小伙伴问我零基础或者根本没有使用过Redis,可以学习嘛?当然是可以的!充分考虑到小伙伴们的学习程度有所不同,所以本次课程的所有操作都是在Windows环境下进行
Redis HyperLogLog是一种使用随机化的算法,以少量内存提供集合中唯一元素数量的近似值。比如 {‘apple’, ‘banana’, ‘cherry’, ‘banana’, ‘apple’} 基数为3 优点:即使输入元素的数量或者体积非常非常大,计算基数所需的空间总是固定的12 KB 内存。这和计算基数时,元素越多耗费内存就越多的集合形成鲜明对比。 缺点:只会根据输入元素来计算基数,并且会有少许的误差。
往日,大量的指令让我们无法只靠脑袋来完全的记住,于是乎,编写一个日常的redis常用命令文档,以备不时之需.
现代数据库优化器主要依赖于其内部的代价估计系统,而代价估计最重要的依据就是查询算子的基数,即数据通过算子内查询条件过滤之后剩余的结果行数。因此基数估计技术是影响优化器产生的执行计划性能最关键的技术。学术界和工业界针对基数估计技术研究和发展了几十年,但是由于基数估计需要兼顾准确性和效率,到目前为止其依然是数据库中最难解决的课题之一,被称为是优化器的“Achilles heel”。
HyperLogLog 是一种概率数据结构,用来估算数据的基数。数据集可以是网站访客的 IP 地址,E-mail 邮箱或者用户 ID。
本篇文章介绍了统计计数的基本原理以及Presto的实现思路,精确统计和近似统计的细节及各种优缺点,并给出了统计计数在具体业务使用的建议。
未来一段时间开发的项目或者需求会大量使用到Redis,趁着这段时间业务并不太繁忙,抽点时间预习和复习Redis的相关内容。刚好看到博客下面的UV和PV统计,想到了最近看书里面提到的HyperLogLog数据类型,于是花点时间分析一下它的使用方式和使用场景(暂时不探究HyperLogLog的实现原理)。Redis中HyperLogLog数据类型是Redid 2.8.9引入的,使用的时候确保Redis版本>= 2.8.9。
在经历了,缓存、限流、布隆穿透等等一系列加强功能,十万博客基本算是成型,网站上线以后也加入了百度统计来见证十万+ 的整个过程。
以互联网行业来说,在移动互联网发展比较成熟的现在,流量见顶,红利消失,企业竞争日趋惨烈,获取新增用户的成本日益增高。很多企业开始意识到不能一味的通过补贴、价格战、广告投放这种简单粗暴的方式抢占市场,这样的运作模式很难长时间维系。而通过精细化和数据化运营来降低成本、提升效率、最大化单用户价值的理念逐渐被越来越多的企业所接受。精细化和数据化运营的前提是要建立起一套完善的数据指标体系,借助这个数据指标体系企业可以有多方面的用途:
如果您有机会阅读我们之前在 Google Analytics 4 (GA4) 上发布的指南,您可能知道它不像 Universal Analytics 那样是一款即插即用的分析工具。
HyperLogLog 是最早由 Flajolet 及其同事在 2007 年提出的一种 估算基数的近似最优算法。但跟原版论文不同的是,好像很多书包括 Redis 作者都把它称为一种 新的数据结构(new datastruct) (算法实现确实需要一种特定的数据结构来实现)。
现在我们想要实时统计有多少用户访问我们的网站,这是一个相当简单的任务,一般的做法是存储用户ID,然后计算任意时刻集合中不同ID的个数即为网站实时访问量,这是一种可行的做法,但是慢慢就会发现随着用户的不断增长,存储集合数据所需要的空间越来越大,所需要的统计成本也越来越高,因此我们需要另外一种算法来解决这个问题,即本次我们要介绍的hyperloglog概率数据结构。
在移动应用的业务场景中,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时还要对集合中的数据进行统计排序。
整型只包含整数,包括正数和负数,也就是没有小数点的数字。可采用十进制(基数10)、八进制(基数8)或十六进制(基数16)。预设基数是小数(10为基数)。八进制的整数可以声明为前导0,而十六进制的整数可以为前导0x。整型范围必须是在-2^31至2^31之间。
首先我们先明确一下uv这个名词代表的实际意义。uv代表的是通过网页访问浏览的人数,和文章的阅读量差不多,但是需要注意的是,一个人即使是多次访问,也只算一次。
机器之心报道 机器之心编辑部 刚刚,数据管理顶会 VLDB 公布了今年的 EA&B 最佳论文奖项,本次的获奖论文为西蒙弗雷泽大学和腾讯合作的《Are We Ready for Learned Cardinality Estimation(通过机器学习的基数估计技术成熟了吗?)》。 VLDB 是数据管理领域两大顶会之一,面向数据管理和数据库研究人员、供应商、从业人员、应用程序开发人员等群体。VLDB 2021 大会以线上、线下两种方式举行,于当地时间 8 月 16 日在丹麦哥本哈根开幕。EA&B(Exper
String 是 redis 最基本的数据类型,一个 key 对应一个 value。
Redis中得集合以无序得方式来存储多个各不相同得元素,用户可以快速得对集合执行添加,移除操作或者检查一个元素是否存在集合中。 Set集合命令操作 sadd:将一个元素或者多个元素插入到集合key中 已存在的集合元素会被忽略。 key不存在的情况下会创建一个集合。 时间复杂度是O(N),n是被添加的元素的数量。 sadd key member member scard: 返回集合中key的基数 时间复杂度是O(1). scard key sdiff: 返回一个集合的全部成员,该集合是所有的给定集合之间
InfluxDB 3.0 现在是当前和未来所有 InfluxDB 产品的基础,首次为 InfluxDB 平台带来了高性能、无限基数、SQL 支持和低成本对象存储。InfluxDB 3.0 在 Rust 中作为列式数据库开发,在单个数据存储中引入了对各种时间序列数据(指标、事件和跟踪)的支持,以支持依赖于高基数时间序列数据的可观测性、实时分析和 IoT/IIoT 用例。
在 Elasticsearch 中,cardinality 算法用来计算字段的基数(不重复的值的个数).
领取专属 10元无门槛券
手把手带您无忧上云