mysql 去重统计个数_linux 去重统计个数_mysql去重查询统计 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

redis数据类型HyperLogLog的使用

最近遇到一个业务需求，要统计一张mysql大表每天/每周/每月的记录量（该表每天产生的记录量在好几百万）。当然有朋友会说，select count(1) from xxx 不就完事了吗？

01

mysql slow log分析工具的比较

启用慢查询日志 mysql 中的 slow log 是用来记录执行时间较长(超过 long_query_time 秒)的 sql 的一种日志工具。启用 slow log 在 my.cnf 中设置 [mysqld] slow_query_log=on slow_query_log_file=mysql-slow 重启 MySQL 服务。 1.工具集五款常用工具 mysqldumpslow mysqlsla myprofi mysql-explain-slow-log

04

您找到你想要的搜索结果了吗？

是的

没有找到

PHP 中操作数组的知识点

数组的赋值: PHP中的数组既可以做数组,也可以做键值对字典,且不存在限制,非常灵活.

02

一个线上的排行榜SQL问题

今天上班的时候，要对一个数据库中的所有慢日志记录进行做一个统计，统计出数据库中所有慢日志用时最长的10条，这个需求乍一听比较简单，数据库中的满日志大概有5万多条吧，走个全表扫描也就不到半秒的时间。我第一反应是：

00

【MySQL】MySQL数据库的进阶使用

1. 之前我们所学的都是DDL语句，接下来所学的才是真正的DML语句。插入数据的sql语句就是insert into table_name (column1, column2, ……) values (data1, data2, ……)，values左边的括号不加时，默认代表对表的所有列进行插入，不忽略任何一列，加上括号时，可以自己指定某些列进行插入，但值得注意的是如果某些列没有default约束，你还将其忽略进行数据插入的话，则插入数据的操作一定会失败。values右边的括号个数表示向表中插入几行的数据，括号中用逗号分隔开来的数据分别一一对应表中的列字段。

02

mysql慢查询分析工具_mysql慢查询日志分析工具「建议收藏」

有两种启用方式:1, 在my.cnf 里通过 log-slow-queries[=file_name]

02

Hadoop离线数据分析平台实战——310新增会员和总会员分析Hadoop离线数据分析平台实战——310新增会员和总会员分析

Hadoop离线数据分析平台实战——310新增会员和总会员分析项目进度模块名称完成情况用户基本信息分析(MR)� 未完成浏览器信息分析(MR) 未完成地域信息分析(MR) 未完成外链信息分析(MR) 未完成用户浏览深度分析(Hive) 未完成订单分析(Hive) 未完成事件分析(Hive) 未完成模块介绍新增会员统计类似新增用户统计，也是统计新增u_mid的个数，在新增用户统计中，我们是统计launch事件中，uuid的唯一个数，那

Hadoop离线数据分析平台实战——370外链信息分析Hadoop离线数据分析平台实战——370外链信息分析

Hadoop离线数据分析平台实战——370外链信息分析项目进度模块名称完成情况用户基本信息分析(MR)� 完成浏览器信息分析(MR) 完成地域信息分析(MR) 完成外链信息分析(MR) 未完成用户浏览深度分析(Hive) 未完成订单分析(Hive) 未完成事件分析(Hive) 未完成外链信息分析规则和地域信息分析一样，在外链分析系统中，我们也只是统计活跃用户、总会话以及跳出会话这三个指标的数据。其中活跃用户和总会话个数和地域分析一样

Mysql-DQL语言常见函数

MySQL 是最流行的关系型数据库管理系统，在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System：关系数据库管理系统)应用软件之一。

04

Greenplum 简单性能测试与分析

通过TPC-H基准测试，可获得数据库单位时间内的性能处理能力，为评估数据库系统的现有性能服务水平提供有效依据。

leetcode-for-sql-排名和窗口函数

本文中带来的是LeetCode-SQL的第178题，讲解的是关于MySQL中的排名问题，非常重要和实用的一篇文章，真心建议搜藏保存：

02

MySQL索引的使用及注意事项

索引是存储引擎用于快速找到记录的一种数据结构。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高几个数量级，"最优"的索引有时比一个"好的"索引性能要好两个数量级。

01

MySQL操作之数据查询语言：(DQL)（四-1）（单表操作）

01

大型互联网公司使用的数据库设计规范

2、数据库命名规范，统一：hs_xxxx；表名不超过40个字符（即最大只能40个字符）

03

MySQL单标查询

查询数据的本质：mysql会到你本地的硬盘上找到对应的文件，然后打开文件，按照你的查询条件来找出你需要的数据。下面是完整的一个单表查询的语法 select * from，这个select * 指的是要查询所有字段的数据。 SELECT distinct 字段1,字段2... FROM 库名.表名 #from后面是说从库的某个表中去找数据，mysql会去找到这个库对应的文件夹下去找到你表名对应的那个数据文件，找不到就直接报错了，找到了就继续后面的操作 WHERE 条件 #从表中找符合条件的数据记录，where后面跟的是你的查询条件 GROUP BY field（字段） #分组 HAVING 筛选 #过滤，过滤之后执行select后面的字段筛选，就是说我要确定一下需要哪个字段的数据，你查询的字段数据进行去重，然后在进行下面的操作 ORDER BY field（字段） #将结果按照后面的字段进行排序 LIMIT 限制条数 #将最后的结果加一个限制条数，就是说我要过滤或者说限制查询出来的数据记录的条数关于上面这些内容，我们在下面一个一个的来详细解释

02

点赞功能，用 MySQL？还是 Redis！

mysql方案, 随着nosql的流行，大数据的持续热点，但是mysql仍然不可替代，对于大多数的中小项目，低于千万级的数据量，采用mysql分表+cache，是完全可以胜任的，而且稳定性是其他方案无可比拟的：

02

面试突击63：MySQL 中如何去重？

在 MySQL 中，最常见的去重方法有两个：使用 distinct 或使用 group by，那它们有什么区别呢？接下来我们一起来看。

02

面试官：如何实现10亿数据判重？

例如，使用 MySQL 数据库判重，或使用 List.contains() 或 Set.contains() 判重就不可行，因为 MySQL 在数据量大时查询就会非常慢，而数据库又是及其珍贵的全局数据库资源。

01

点赞功能，用 MySQL 还是 Redis ？

mysql方案, 随着nosql的流行，大数据的持续热点，但是mysql仍然不可替代，对于大多数的中小项目，低于千万级的数据量，采用mysql分表+cache，是完全可以胜任的，而且稳定性是其他方案无可比拟的：

03

大数据开发和java开发有什么不同？

最近发现有些同学并不太了解大数据开发工程师这个职位，所以想简单介绍一下什么是大数据开发工程师，当前互联网公司的数据开发到底是什么样子的？和一般的Java或者PHP工程师在工作上有什么区别？

01

Elasticsearch6.X 去重详解

1、题记 Elasticsearch有没有类似mysql的distinct的去重功能呢？ 1）如何去重计数？类似mysql: select distinct(count(1)) from my_table; 2）如何获取去重结果。类似mysql：SELECT DISTINCT name,age FROM users; 2、需求 1）对ES的检索结果进行去重统计计数。 2）对ES的检索结果去重后显示。 3、分析 1）统计计数需要借助ES聚合功能结合cardinality实现。 2）去重显示结果有两种方式：

07

Serverless：云函数 + 小马BI，将报表极速搬上云

本文作者：sevenyjluo ，腾讯 CSIG 前端开发工程师很多业务都需要进行运营数据统计，如统计用户数、调用量等等。相较于传统方式，在拥抱云计算的大潮下，如何借助腾讯云上 PAAS 产品无服务云函数 SCF(Serverless CloudFunction)，云数据库(MySQL)，以及结合报表可视化工具"小马 BI"(https://xiaoma.tencent.com/#/)，来快速开发我们的运营报表呢？效果展示、架构介绍运营日报的整体架构如下：简单概括下，就是通过云函数的定时触

00

点赞功能，你用 MySQL 还是 Redis ？

mysql方案, 随着nosql的流行，大数据的持续热点，但是mysql仍然不可替代，对于大多数的中小项目，低于千万级的数据量，采用mysql分表+cache，是完全可以胜任的，而且稳定性是其他方案无可比拟的：

04

Mysql慢查询和慢查询日志分析

Mysql慢查询和慢查询日志分析众所周知，大访问量的情况下，可添加节点或改变架构可有效的缓解数据库压力，不过一切的原点，都是从单台mysql开始的。下面总结一些使用过或者研究过的经验，从配置以及调节索引的方面入手，对mysql进行一些优化。第一步应该做的就是排查问题，找出瓶颈，所以，先从日志入手开启慢查询日志 mysql>show variables like “%slow%”; 查看慢查询配置，没有则在my.cnf中添加，如下 log-slow-queries = /data/mysqldata/

01

「mysql优化专题」什么是慢查询？如何通过慢查询日志优化？（10）

日志就跟人们写的日记一样，记录着过往的事情。但是人的日记是主观的（记自己想记的内容），而数据库的日志是客观的，根据记录内容分为以下好几种日志：

03

大数据技术之_18_大数据离线平台_05_离线平台项目模块小结

1、将项目软件工具包导入 2、项目思路： 2.1、读取 HDFS 数据进行 ETL 清洗操作，并将最终结果写入到 HBase 中。 2.2、从 HBase 中读取数据，进行新增用户统计分析操作，并将结果写入到 Mysql。 3、细节实现数据清洗： 3.1、LoggerUtil.java 3.1.1、主要作用：将字符串数据解析成 HashMap 键值对集合。 3.1.2、重要细节：字符串的截取不合法数据的过滤字符串的解码（就是将%相关的字符串编码转换成可读类型的数据）错误数据的 Logger

03

日活跃数千万,10亿级APP大数据统计分析平台的架构演进

美图拥有十亿级用户，每天有数千万用户在使用美图的各个产品，从而积累了大量的用户数据。随着 APP 的不断迭代与用户的快速膨胀，产品、运营、市场等越来越依赖于数据来优化产品功能、跟踪运营效果，分析用户

07

mongoDB的安装及基本使用1.mongoDB简介2.MySQL的安装3.Mongodb下载安装3.安装pymongo4.Mongodb基本使用5.

MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。

03

如何快速编辑17G的数据库sql文件内容

上周有位粉丝给我发了一个这样的问题：怎么处理17G的sql数据库文件。这个问题的其实有些大数据的处理的方向，当然肯定是把这些数据放在mysql数据库里或者Hive里查询操作比较方便。毕竟像Hadoop全家桶就是为了解决大数据而生的。

03

MYSQL 从PS说起，但不止于PS , IS 中innodb buffer 分析（5)

这已经是这个系列的第五期了，从PS到SYS，基本上这两个可以获取整体的MYSQL8的性能信息（目前学到的需要整体在8.022版本才有之前介绍的所有的功能，8.018可以有90%的功能）。所以选择MYSQL 从高可用的角度以及监控的角度来看，版本至少应该在8.022以上。

03

日活跃数千万，10亿级APP大数据统计分析平台的架构演进

美图拥有十亿级用户，每天有数千万用户在使用美图的各个产品，从而积累了大量的用户数据。

02

日活跃数千万，10亿级APP大数据统计分析平台的架构演进

美图拥有十亿级用户，每天有数千万用户在使用美图的各个产品，从而积累了大量的用户数据。

02

Redis 实战篇：巧用数据类型实现亿级数据统计

在移动应用的业务场景中，我们需要保存这样的信息：一个 key 关联了一个数据集合，同时还要对集合中的数据进行统计排序。

01

Redis HyperLogLog 是什么？这些场景使用它，让我枪出如龙，一笑破苍穹

在移动互联网的业务场景中，数据量很大，我们需要保存这样的信息：一个 key 关联了一个数据集合，同时对这个数据集合做统计。

02

实战 MySQL 锁等待问题的定位与排查

在 MySQL 的实际使用中，常常会遇到一条 SQL 执行非常慢的情况，此前我们总结了一系列博客来排查相关的问题：

02

MongoDB 数组在mongodb 中存在的意义

在MOGNODB 的文档设计和存储中，存在两个部分 1 嵌套 2 数组，所以如果想设计好一个MONGODB 在理解业务，读写比例，查询方式后，就需要介入到更深层次的理解嵌套的查询方式，嵌套多层后的性能问题，数组其实比嵌套带来更多的问题，所以今天我们的从数组开始。

02

MySQL数据库：第六章：分组函数\u002F聚合函数

本质上就是一种函数，调用语法：select 函数名(实参列表); 函数：单行函数（常见函数）：有几行，最终有几个结果分组函数（聚合函数）：一组中有多行，但最终一个结果，一般用作统计分组函数： sum(参数）:求和 avg(参数):平均 max(参数)：求最大值 min(参数)：求最小值 count(参数)：统计个数

03

SDCC 2017 深圳站应用架构及大数据双峰会

前言 6月10-11日，2017年SDCC峰会在深圳举行。为期两天的会议邀请业内顶尖的架构师和数据技术专家分享干货实料。来自腾讯TEG架构平台部的Jerome以及数据平台部的Boyce作为演讲嘉宾，分别发表主题为“基于空闲资源的弹性计算实践”以及“StreamSQL实时计算平台的挑战及解决方案”的演讲。本文为演讲者现场PPT及演讲稿整理编辑。大会介绍 SDCC 2017·深圳站，拥有互联网应用架构实战峰会、大数据技术实战峰会两大峰会，秉承干货实料的内容原则，邀请业内顶尖的架构师和数据技术专家，共话高可用

05

mongoDB的安装及基本使用

mongoDB简介 1、NoSQL数据库数据库：进行高效的、有规则的进行数据持久化存储的软件 NoSQL数据库：Not only sql，指代非关系型数据库优点：高可扩展性、分布式计算、低成本、灵活架构、半结构化数据、简化关联关系缺点：没有标准化、有限查询、不直观常见NoSQL（http://www.runoob.com/mongodb/nosql.html）数据库列存储：Hbase、Cassandra、Hypertable 文档存储：MongoDB、CouchDB k-v存储：TokyoC

08

MySQL最常用分组聚合函数

1）当使用组函数的select语句中没有group by子句时，中间结果集中的所有行自动形成一组，然后计算组函数；

01

MySQL最常用分组聚合函数

1）当使用组函数的select语句中没有group by子句时，中间结果集中的所有行自动形成一组，然后计算组函数；

02

SQL进阶-3-排序与窗口函数

在使用数据库制作各种统计数据的时候，需要对数据进行排序，比如按照分数、销量、人数等数值进行排序，通常排序的方法有两种：

02

基于Storm的实时计算应用实践

有赞使用storm已经有将近3年时间，稳定支撑着实时统计、数据同步、对账、监控、风控等业务。订单实时统计是其中一个典型的业务，对数据准确性、性能等方面都有较高要求，也是上线时间最久的一个实时计算应用。通过订单实时统计，描述使用storm时，遇到的准确性、性能、可靠性等方面的问题。订单实时统计的演进第一版：流程走通在使用storm之前，显示实时统计数据一般有两种方案：在数据库里执行count、sum等聚合查询，是简单快速的实现方案，但容易出现慢查询。在业务代码里对统计指标做累加，可以满足指标的快速查

08

第35次文章：数据库简单查询

本周学习的数据库，有一种明显的感觉，语法简单，基本上不会有大段大段的代码出现，简简单单的几行代码就可以完成我们需要实现的任务，或许是因为我们的任务比较初级吧！嘻嘻！

02

ClickHouse在大数据领域应用实践

ClickHouse应用于OLAP（在线分析处理）领域，具体来说满足如下特点使用此技术比较合适：

08

大数据开发平台-数据同步服务

服务框架的功能侧重点往往不尽相同，因而大家也会用各种大同小异的名称来称呼这类服务，比如数据传输服务，数据采集服务，数据交换服务等等

04

如何优化MySQL千万级大表，我写了6000字的解读

千万级大表如何优化，这是一个很有技术含量的问题，通常我们的直觉思维都会跳转到拆分或者数据分区，在此我想做一些补充和梳理，想和大家做一些这方面的经验总结，也欢迎大家提出建议。

05

【学习】百万级别数据，数据库Mysql，Mongodb，Hbase如何选择？

情况说明：现在需要做一个数据存储，500w左右的数据，日后每天大约产生5w条左右的数据。想把这些数据存储起来，供日后的数据分析用？使用上面说的三种数据库中的哪中比较好？是否有必要建立集群？个人看法是：从长远角度看，由于单台机器的性能瓶颈，后期肯定要做集群，单纯的做复制最终也无法缓解单台master上读的负担。因此，使用mysql的话会使用cluser。但是了解到mysql的cluser要用好的化还要做负载均衡，而mysql的均衡器是第三方的，无法很好的与mysql整合。使用mongodb的自动分片集

08

划分：全局问题和局部问题一致

一、在2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数. 首先再2.5亿数字中进行去重，我们想和再0100内去重的做法是一致的，同时只要0100,101~200，...区域内都进行了去重后，那么整个2.5亿数字也就完成了去重。首先将2.5数字进行分区，即把0-100,101-200...内的数值丢到对应的容器内，当然具体分割时容器可以很大，然后使用判断一个数字是否在容器内的常用算法bitmap进行判断。局部去重完成，那么整体的去重也就完成了。二、有5亿个int类型的数字，找它

01

百万级别数据，数据库Mysql，Mongodb，Hbase如何选择？

情况说明：现在需要做一个数据存储，500w左右的数据，日后每天大约产生5w条左右的数据。想把这些数据存储起来，供日后的数据分析用？使用上面说的三种数据库中的哪中比较好？是否有必要建立集群？个人看法是：从长远角度看，由于单台机器的性能瓶颈，后期肯定要做集群，单纯的做复制最终也无法缓解单台master上读的负担。因此，使用mysql的话会使用cluser。但是了解到mysql的cluser要用好的化还要做负载均衡，而mysql的均衡器是第三方的，无法很好的与mysql整合。使用mongodb的自动分片集群能

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭