Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >微信 SQLite 数据库修复实践

微信 SQLite 数据库修复实践

原创
作者头像
微信终端开发团队
修改于 2017-08-07 03:40:37
修改于 2017-08-07 03:40:37
9.4K0
举报

作者:guoling

1、前言

众所周知,微信在后台服务器不保存聊天记录,微信在移动客户端所有的聊天记录都存储在一个 SQLite 数据库中,一旦这个数据库损坏,将会丢失用户多年的聊天记录。而我们监控到现网的损坏率是0.02%,也就是每 1w 个用户就有 2 个会遇到数据库损坏。考虑到微信这么庞大的用户基数,这个损坏率就很严重了。更严重的是我们用的官方修复算法,修复成功率只有 30%。损坏率高,修复率低,这两个问题都需要我们着手解决。

2、SQLite 损坏原因及其优化

我们首先来看 SQLite 损坏的原因,SQLite官网上列出以下几点:

  • 文件错写
  • 文件锁 bug
  • 文件 sync 失败
  • 设备损坏
  • 内存覆盖
  • 操作系统 bug
  • SQLite bug

但是我们通过收集到的大量案例和日志,分析出实际上移动端数据库损坏的真正原因其实就3个:

  • 空间不足
  • 设备断电
  • 文件 sync 失败

我们需要针对这些原因一一进行优化。

2.1、优化空间占用

首先我们来优化微信的空间占用问题。在这之前微信的部分业务也做了空间清理,例如朋友圈会自动删除7天前缓存的图片。但是总的来说对文件空间的使用缺乏一个全局把控,全靠各个业务自觉。我们需要做得更积极主动,要让开发人员意识到用户的存储空间是宝贵的。我们采取以下措施:

  • 业务文件先申请后使用,如果某个文件没有申请就使用了,会被自动扫描出来并删除;
  • 每个业务文件都要申明有效期,是一天、一个星期、一个月还是永久存储;
  • 过期文件会被自动清理。

对于微信之外的空间占用,例如相册、视频、其他App的空间占用,微信本身是做不了什么事情的,我们可以提示用户进行空间清理:

2.2、优化文件 sync

2.2.1、synchronous = FULL

设置SQLite的文件同步机制为全同步,亦即要求每个事物的写操作是真的flush到文件里去。

2.2.1、fullfsync = 1

通过与苹果工程师的交流,我们发现在 iOS 平台下还有 fullfsync 这个选项,可以严格保证写入顺序跟提交顺序一致。设备开发商为了测评数据好看,往往会对提交的数据进行重排,再统一写入,亦即写入顺序跟App提交的顺序不一致。在某些情况下,例如断电,就可能导致写入文件不一致的情况,导致文件损坏。

2.3、优化效果

多管齐下之后,我们成功将损坏率降低了一半多;DB损坏还是无法完全避免,我们还是得提高修复成功率。

3、SQLite 修复逻辑优化

3.1、master 表

首先我们来看 SQLite 的架构。SQLite 使用 B+树 存储一个表,整个 SQLite 数据库就是这些 B+树 组成的森林。对于每个表的元数据(表名、根节点地址、表 scheme 等),都记录在一个叫 sql_master 的表中。这个 sql_master 表(下简称 master 表) 本身也是一个 B+树 存储的普通表。

3.2、官方修复算法率低下原因

官方修复算法是这样一个流程:从 master 表中读出一个个表的信息,根据根节点地址和创表语句来 select 出表里的数据,能 select 多少是多少,然后插入到一个新 DB 中。要注意的是 master 表他本身也是一个 B+树 形式的普通表,DB 第0页就是他的根节点。那么只要 master 表某个节点损坏,这个节点下面记录的表就都恢复不了。更坏的情况是 DB 第0页损坏,那么整个 master 表都读不出来,就导致整个DB都恢复失败。这就是官方修复算法成功率这么低的原因,太依赖 master 表了。

3.3、备份 master 表

那么最自然的想法,自然是另外备份一份 master 表了,也不需要用B+树,直接用数组序列化存储就好。我们只需要每隔一段时间轮询 master 表,看看最近有没有增删 table,有的话就全量备份。

3.3.1、备份时机

这里有个担忧,就是普通数据表的插入会不会导致表的根节点发生变化,也就是说 master 表会不会频繁变化,如果变化很频繁的话,我们就不能简单地进行轮询方案了。通过分析源码,我们发现 SQLite 里面 B+树 算法的实现是 向下分裂 的,也就是说当一个叶子页满了需要分裂时,原来的叶子页会成为内部节点,然后新申请两个页作为他的叶子页。这就保证了根节点一旦定下来,是再也不会变动的。实际的代码调试也证实了我们这个推论。所以说 master 表只会在新创建表或者删除一个表时才会发生变化,我们完全可以采用定时轮询方案。

3.3.2、备份文件有效性

接下来的难题是既然 DB 可以损坏,那么这个备份文件也会损坏,怎么办呢?我们采用了 双备份 的机制。具体来说就是会有新旧两个备份文件,每个文件头都加上 CRC 校验;每次备份时,从两个备份文件中选出一个进行覆盖。具体怎么选呢?优先选损坏那个备份文件,如果两个都有效,那么就选相对较旧的。这就保证了即使本次写入导致文件损坏,还有另外一份备份可以用。这个做法跟 Realm 标榜的 MVCC(多版本并发控制)的做法有异曲同工之妙,相当于确认新写入的文件有效之后,才使用新写入的文件,否则还是继续用旧的有效的文件。

前面提到 DB 损坏的一个常见场景是空间不足,这种情况下还要分配文件空间给备份文件也是会失败的。为了解决这个问题,我们采取 预先分配空间 的做法,初始值是 32K,大约可存 750 个表的元信息,后续则按照32K的倍数进行增长。

3.4、优化效果

通过备份 master 表,我们成功将修复成功率提高了一倍多。

4、其他

通过这些优化,我们提高了微信聊天记录存储的可靠性。这些优化实践,会同之前在并发性能方面的优化实践(微信iOS SQLite源码优化实践),将会合并到微信即将开源的 WCDB(WeChat Database)组件中。我们正在进行紧张的代码整理工作,争取在 2017 年年中开源 WCDB。

本文来源于:WeMobileDev 微信公众号

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
微信移动端数据库组件 WCDB 系列:数据库修复三板斧(二)
微信终端开发团队
2017/07/21
4.4K0
微信移动端数据库组件 WCDB 系列:数据库修复三板斧(二)
微信移动端数据库组件WCDB系列(二) — 数据库修复三板斧
本文来自:微信移动客户端开发团队公众号(WeMobileDev) 前言 长久以来SQLite DB都有损坏问题,从Android、iOS等移动系统,到Windows、Linux 等桌面系统都会出现。由于微信所有消息都保存在DB,服务端不保留备份,一旦损坏将导致用户消息被清空,显然不能接受。 我们即将开源的移动数据库组件 WCDB (WeChat Database),致力于解决 DB 损坏导致数据丢失的问题。 之前一篇文章《微信 SQLite 数据库修复实践》介绍了微信对SQLite数据库修复以及降低损坏率的
腾讯Bugly
2023/04/23
1.9K0
微信移动端数据库组件WCDB系列(二) — 数据库修复三板斧
五年沉淀,微信全平台终端数据库WCDB迎来重大升级!
WCDB 是微信团队开源的一款基于 SQLite 的终端数据库。自 2017 年 6 月开源以来,它在业界得到了广泛认可并被大量应用,迄今已经推出了十多个版本。在这个过程中,WCDB 一直保持良好的向后兼容性,不断完善原有接口的细节并添加新功能。
微信终端开发团队
2024/04/09
1.7K1
五年沉淀,微信全平台终端数据库WCDB迎来重大升级!
微信团队开源的终端数据库WCDB有什么优势?
今天看到微信团队的一篇文章,说是自家的开源的终端数据库WCDB进行了重大升级 原文章在这里,感兴趣的朋友们可以围观一下:《五年沉淀,微信全平台终端数据库WCDB迎来重大升级》
小小鱼儿小小林
2024/05/25
4170
微信团队开源的终端数据库WCDB有什么优势?
微信 WCDB 进化之路 - 开源与开始
本文来自:微信移动客户端开发团队公众号(WeMobileDev) 我们来了 ---- 今天,WCDB(WeChat Database)通过了公司的最终审核,作为腾讯微信的一个开源组件分享给大家。 从WCDB初建,到不断摸索、优化,再到整理代码、文档,最终看着她在 GitHub 上静静等待着“Make Public”被按下,心情犹如看着女儿出嫁的父亲。趁此机会,正好回顾一下 WCDB 这个“微信的数据库”的成长,分享我们的心路历程,也希望以此让大家更了解WCDB。 各自探索 ---- 最早期的微信,各个平台
腾讯Bugly
2023/04/23
1.7K0
微信 WCDB 进化之路 - 开源与开始
微信 WCDB 进化之路:开源与开始
微信终端开发团队
2017/07/26
5.9K0
微信 WCDB 进化之路:开源与开始
Windows微信:消息数据库架构演进
作者:Jon,来自微信客户端团队 前言 本文基于微信用户日常使用场景 & 数据分析,「通过分离重要 / 非重要数据、采用可靠的分库策略等」,对微信数据库架构进行优化 & 改造,并最终得到一个具备实践良好效果的改造方案。 背景说明 微信 for Windows自2014年上线以来,用户数稳步增长。随着时间的不断推移,用户积攒的消息量越来越大。最初的数据库设计秉着「遵循简单易用,方便管理」的原则,把用户收到的所有消息都统一存放在用户当前客户端本地的「同一个数据文件中。」 (注:微信不会保存聊天记录,聊天内容只
微信终端开发团队
2022/08/31
1.8K0
Windows微信:消息数据库架构演进
微信ANDROID客户端-会话速度提升70%的背后
image.png 背景 打开会话速度慢 在同一个会话有较多的历史消息下,各种查询,更新,删除等操作,速度明显下降。 在会话内有较大量历史消息情况下,进入速度/刷新速度明显降低。 分析阶段 整个优化我们分2个阶段进行: 第一阶段,针对历史记录较小的会话 通过Android自带的trace工具分析,我们发现较大的耗时分布在进入会话的几个关键点: 在打开会话过程中涉及的磁盘读写操作 加载会话UI所执行的inflate操作(inflate指的是创建View对象) 退出会话后,列表控件的数据适配器被重置,触发
微信终端开发团队
2018/01/29
3.9K0
微信ANDROID客户端-会话速度提升70%的背后
【Dev Club 分享】微信 iOS SQLite 源码优化实践
Dev Club 是一个交流移动开发技术,结交朋友,扩展人脉的社群,成员都是经过审核的移动开发工程师。每周都会举行嘉宾分享,话题讨论等活动。 本期,我们邀请了腾讯 WXG iOS 开发工程师——张三华,为大家分享《微信 iOS SQLite 源码优化实践》。 分享内容简介: SQLite是微信iOS选用的数据库,随着微信iOS客户端业务的增长,在重度用户的场景下,性能瓶颈逐渐显现。靠单纯地修改SQLite的参数配置,已经不能彻底解决问题,因此我们尝试从源码开始做深入的优化。 内容大体框架: SQLite对于
腾讯Bugly
2018/03/23
1.5K0
WCDB 的 WAL 模式和异步 Checkpoint
通过 A/B Test,最终相比传统 Rollback 模式写耗时减少 70% 以上,还稍稍降低了 DB 损坏率。
微信终端开发团队
2018/01/29
4.7K1
WCDB 的 WAL 模式和异步 Checkpoint
一篇文章get微信开源移动端数据库组件WCDB的一切!
微信团队已于2017年06月09日正式开源了微信自用的移动端数据库组件 WCDB(WeChat Database),详见《[资讯] 微信正式开源移动端数据库组件WCDB!》。
JackJiang
2018/08/23
1.7K1
一篇文章get微信开源移动端数据库组件WCDB的一切!
最全的ios系统导出微信聊天记录&生成词云教程
首先放一张我的iPhone手机导出微信聊天记录生成的词云效果图(个别敏感词汇请大家自行忽略hhh):
全栈程序员站长
2022/07/23
3.7K0
最全的ios系统导出微信聊天记录&生成词云教程
微信 iOS SQLite 源码优化实践
微信终端开发团队
2017/07/27
4K0
微信 iOS SQLite 源码优化实践
LLDB实战之导出Mac微信备份聊天记录的SQLite密码(SQLCipher加密)
于是查看SQLCipher的API,看到用的是sqlite3_key()和sqlite3_key_v2()这2个函数,在源码里搜索,找到调用,一共有两处,在WCTDatabase+Database.mm文件里
xferris
2019/12/30
6.4K1
只看这一篇,你能够完全 get 微信移动端数据库 WCDB 的一切!
该文介绍了微信移动端数据库WCDB的代码开源、特性、性能优化、移动端数据库方案、SQLite、WCDB原理、版本变更等信息。
腾讯开源
2017/08/31
2.7K0
Java面试中常问的数据库方面问题
B+树是一个平衡的多叉树,从根节点到每个叶子节点的高度差值不超过1,而且同层级的节点间有指针相互链接,是有序的
Spark学习技巧
2018/08/01
8390
Java面试中常问的数据库方面问题
Java面试中常问的数据库方面问题
B+树是一个平衡的多叉树,从根节点到每个叶子节点的高度差值不超过1,而且同层级的节点间有指针相互链接,是有序的
lyb-geek
2018/07/26
7780
Java面试中常问的数据库方面问题
数据库-面试
共享锁也称为读锁,相互不阻塞,多个客户在同一时刻可以同时读取同一个资源而不相互干扰。
知识浅谈
2022/02/25
1.1K0
微信客户端性能监控和优化简述
今天主题,产品数量级上去了之后很多人都会去关心性能问题。这里是Info对微信性能优化上的一些探寻,值得参考。
Anymarvel
2018/10/22
2.3K0
微信客户端性能监控和优化简述
iOS微信全文搜索技术优化
一、iOS微信全文搜索技术的现状 全文搜索是使用倒排索引进行搜索的一种搜索方式。倒排索引也称为反向索引,是指对输入的内容中的每个Token建立一个索引,索引中保存了这个Token在内容中的具体位置。全文搜索技术主要应用在对大量文本内容进行搜索的场景。 微信终端涉及到大量文本搜索的业务场景主要包括联系人、聊天记录、收藏的搜索。这些搜索功能从2014年上线至今,已经多年没有更新底层搜索技术,聊天记录使用的全文搜索引擎还是SQLite FTS3,而现在已经有SQLite FTS5,收藏首页的搜索还是使用简单的Li
微信终端开发团队
2022/02/23
2.5K0
推荐阅读
相关推荐
微信移动端数据库组件 WCDB 系列:数据库修复三板斧(二)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档