腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >大型数据集:使用innodb的mysql_unbuffered_query？

问大型数据集:使用innodb的mysql_unbuffered_query？
EN

Stack Overflow用户

提问于 2012-04-21 16:24:43

回答 1查看 488关注 0票数 4

基本上，我需要对大数据集进行操作，所以我开始考虑可以使用mysql_unbuffered_query来避免将所有结果加载到内存中。

但是我读到，当我读取行时，我不能在同一个表上运行任何其他查询。我想知道，如果桌子是清白的，这仍然是正确的吗？

Innodb在执行mysql_unbuffered_query时是否使用行级锁定？

伪代码是：

$q = mysql_unbuffered_query("SELECT * FROM largeTable");
while($r = fetch($q)) {
 if (some condition)
   mysql_query("UPDATE largeTable SET field = somevalue WHERE id = someid");
}

php

mysql

innodb

myisam

媒体处理1元起

智能、强大、全面的多媒体数据处理服务，助您提升媒体质量、降低成本，媒体处理套餐低至1元

回答 1

Stack Overflow用户

发布于 2012-04-21 18:08:08

不能运行另一个查询的原因是查询的结果没有被预取，而您正在处理游标。不过，您可以打开另一个连接来处理其他查询。

请记住，MySQL中有几个设置会影响查询执行后连接保持打开的时间，如果数据集很大，则服务器可以在您处理查询之前关闭连接(请参见wait_timeout和net_write_timeout)

一个好的选择是在循环中执行查询，限制行数，并使用WHERE pk > value ORDER BY pk ASC，其中pk是主键，value是从前一个查询中检索到的最后一个值(就像您实现的只是limit，offset，如果偏移量很大，性能将会下降)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/10260819

复制

大型数据集的MySQL优化

云数据库 SQL Server 数据库

诸多知名大公司都在使用MySQL，其中包括Google、Yahoo、NASA和Walmart。此外，其中部分公司的表囊括数十亿行，却又性能极佳。虽然很难保持MySQL数据库高速运行，但面对数据堆积，可以通过一些性能调整，来使其继续工作。本文则将围绕这一问题展开讨论。导论设计数据库之前，有必要先了解一下表的使用方法。例如，对于需要频繁更新的数据，最好将其存入一个独立表中，而通过这样的分表，更新操作将更加快捷。同时，表的连接操作也会消耗时间，所以若要深入分析复杂数据，则最好选用大表。惯有认知下，归一化可通过

CSDN技术头条

2018/02/12

1.2K0

多快好省地使用pandas分析大型数据集

数据分析

pandas虽然是个非常流行的数据分析利器，但很多朋友在使用pandas处理较大规模的数据集的时候经常会反映pandas运算“慢”，且内存开销“大”。

朱卫军 AI Python

2022/04/03

1.4K0

R语言之处理大型数据集的策略

数据分析变量对象函数数据

在实际的问题中，数据分析者面对的可能是有几十万条记录、几百个变量的数据集。处理这种大型的数据集需要消耗计算机比较大的内存空间，所以尽可能使用 64 位的操作系统和内存比较大的设备。否则，数据分析可能要花太长时间甚至无法进行。此外，处理数据的有效策略可以在很大程度上提高分析效率。

timerring

2023/10/13

3530

Java处理大型数据集，解决方案有哪些？

java 解决方案框架内存数据

以上是 Java 处理大型数据集的一些解决方案，每种解决方案都有适合的场景和使用范围。具体情况需要结合实际的业务需求来选择合适的方案。

用户1289394

2023/08/22

3660

Digital | 大型二代测序重分析数据集

数据库 sql

对于公共测序数据的分析，好多二代测序的数据都储存在 [[GEO数据库介绍]] 以及 SRA 这样的平台。之前介绍过的 [[ARCHS4-公共二代测序数据下载数据库]] 就是把 GEO 的很多 [[RNA-seq]] 的数据进行了统一重新分析最后组合成一个大型数据集。除了 ARCHS4 之外还有其他的大型数据集比如今天要介绍的这个：Digital Expression Explorer 2(DEE2): http://dee2.io/index.html

医学数据库百科

2022/02/08

6610

GENIE | 大型肿瘤基因组测序数据集

数据库 sql https 网络安全

对于大型的肿瘤公共测序数据集而言，其中最出名的肯定还是 TCGA 数据了。对于 TCGA 数据我们之前也做过基本的介绍。

医学数据库百科

2022/04/01

1.6K0

JCIM｜药物发现的超大型化合物数据集概述

数据库 sql linux 自动化

2022年4月14日，美国国家癌症研究所 (NCI) 计算机辅助药物设计研究课题组的Wendy等人在JCIM杂志上发表综述，整理了当前用于药物研发的超大型数据库以及检索技术的情况。

智药邦

2022/06/08

1.2K0

Echarts中数据集的使用

default echarts product 数据数学

https://echarts.apache.org/handbook/zh/concepts/dataset

码客说

2023/10/19

3420

数据集 | 共享单车使用量数据集

background event progress

自行车共享系统是传统自行车的新一代租赁方式，从会员资格，租赁和返还的整个过程已实现自动化。通过这些系统，用户可以轻松地从特定位置租借自行车，然后返回另一个位置。目前，全球约有500多个自行车共享计划，其中包括50万多辆自行车。如今，由于它们在交通，环境和健康问题中的重要作用，人们对这些系统引起了极大的兴趣。除了自行车共享系统在现实世界中的有趣应用之外，这些系统生成的数据的特性使它们对研究具有吸引力。与其他运输服务（例如公共汽车或地铁）相反，在这些系统中明确记录了旅行的持续时间，出发和到达的位置。此功能将自行车共享系统转变为虚拟传感器网络，可用于感测城市中的机动性。因此，期望通过监视这些数据可以检测到城市中的大多数重要事件。数据集中包括了美国共享单车公司Capital Bikeshare在华盛顿地区2011年和2012年的使用量历史记录，以及每天对应的天气信息。

数据科学人工智能

2022/03/30

1.6K0

奥迪推出大型自动驾驶数据集A2D2

自动驾驶无人驾驶图像处理 https 网络安全

6 个摄像头和 5 个Velodyne VLP-16 LiDAR 传感器，对车辆周围环境360覆盖。

CV君

2020/04/20

8840

数据集查找神器！100个大型机器学习数据集都汇总在这了 | 资源

机器学习神经网络深度学习人工智能开源

网上各种数据集鱼龙混杂，质量也参差不齐，简直让人挑花了眼。想要获取大型数据集，还要挨个跑到各数据集的网站，两个字：麻烦。

量子位

2019/04/23

9110

打击换脸技术滥用，谷歌发布大型数据集对抗deepfake

开源 https 网络安全

deepfake 出现以来引发了大量争议，也带来了诸多伦理和社会问题。最近，Facebook、微软等巨头已开始着手打击 deepfake 滥用，斥资 1000 多万美元举办 deepfake 检测挑战赛。谷歌也不甘落后，近日，这家科技巨头宣布开源大型 deepfake 视频数据集，以支持社区对 deepfake 检测的研究。

机器之心

2019/10/12

5900

使用innodb_ruby 分析innodb物理文件

ruby github git 开源

yum install zlib-devel curl-devel openssl-devel httpd-devel apr-devel apr-util-devel

保持热爱奔赴山海

2019/09/17

6720

WenetSpeech数据集的处理和使用

语音识别监督学习 python

WenetSpeech数据集包含了10000+小时的普通话语音数据集，所有数据均来自 YouTube 和 Podcast。采用光学字符识别(OCR)和自动语音识别(ASR)技术分别标记每个YouTube和Podcast录音。为了提高语料库的质量，WenetSpeech使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

夜雨飘零

2021/12/07

2.2K0

MySQL InnoDB 是怎么使用 B+ 树存数据的？

存储 innodb mysql 数据索引

从根节点作为起始检索点，逐层向下检索，直至找到目标数据。检索的路径复杂度度跟树的高度成正比。

WindWant

2023/09/02

1970

关于mysql数据库使用innoDB引擎产生的死锁

云数据库 SQL Server 数据库 sql

在继我上一次一条select语句导致数据库飙升，到这一次一条select 语句导致数据库直接挂掉（当然这一次并不是我做的，绩效自动降一级）一直想了解到底是怎么回事，这几天开始看mysql内幕，个人感觉很不错的一本书。在此我大概描述一下innoDB 中的锁：标准的行级锁 1. X锁（排他锁）允许事物读一行数据 2. S锁（共享锁）允许事物更改或更新一行数据当有一条数据事T1 读取会加上一个S锁，当另一个事物也想获取S锁进行读取是允许的，因为读取是对数据没有改变的。但是如果有一个事物T3要对数据进行UPdate 这个时候他需要一个S锁，由于他要更改这个数据所以说他需要等待X锁释放掉也就是说等查询事物走完了才可以执行X锁的这个事物在innoDB 中还有一个表级锁那就是intention lock，意向锁 IX （意向排他锁）：当有一个事物想要获取行级锁的X锁的时候，那你就必须要先获取一个IX锁表明你接下来想要去获取X锁。 IS （意向共享锁）：同上当你需要获取行级别的S锁，那么你就得先去表级别获取IS锁关于锁之间的兼容关系

袁新栋-jeff.yuan

2020/08/26

1.1K0

数据集 | 温哥华的犯罪数据集

kaggle

数据来自“温哥华开放数据目录”。它于2017年7月18日提取，包含2003年1月1日至2017年7月13日的530,652条记录。原始数据集包含UTM区域10中的坐标（X和Y列）。

数据科学人工智能

2022/03/30

8130

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

大数据 spark hive hbase TDSQL MySQL 版

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

用户1410343

2020/01/14

5.1K0

InnoDB bugs found during research on InnoDB data storage（10.在研究InnoDB数据存储时发现的InnoDB bug）

云数据库 SQL Server 编程算法

在研究InnoDB的存储格式和构建innodb_ruby和innodb_diagrams项目的过程中，我和Davi Arnaut发现了很多InnoDB的bug。我想我应该提几个，因为它们相当有趣。由于innodb_space实用程序使重要的内部信息以一种以前从未有过的方式可见，所以这些漏洞在很大程度上可以被发现。使用它来检查生产表提供了许多信息，可以继续寻找导致错误的原因。当我们最初查看由innodb_space数据生成的按页空闲空间的图形图时，我们非常惊讶地看到许多页面不到一半的填充(包括许多几乎为空的页面)。经过大量研究，我们找到了所有我们发现的异常现象的原因。

冬天里的懒猫

2020/09/01

6090

神秘的Waymo一反常态，CVPR现场发布大型自动驾驶数据集

图像处理自动驾驶无人驾驶

目前，自动驾驶领域已经出现很多数据集，例如 KITTI、Oxford、Cityscape、nuScenes、BDD100K 等。

机器之心

2019/06/20

8870

相似问题

使用大型骨干数据集

使用大型数据集的原则

大型数据集的

大型INNODB表锁定

使用ActiveJDBC加载大型数据集

活动推荐

国内短信福利大放送，不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例