Redis 持久化机制

Redis 是一个内存数据库,数据保存在内存中,但是我们都知道内存的数据变化是很快的,也容易发生丢失。幸好 Redis 还为我们提供了持久化的机制,分别是 RDB(Redis DataBase) 和 AOF(Append Only File)。

持久化流程

Redis 的数据持久化就是可以将数据保存在磁盘上,主要有下面五个过程:

(1)客户端向服务端发送写操作(数据在客户端的内存中)。

(2)数据库服务端接收到写请求的数据(数据在服务端的内存中)。

(3)服务端调用 write 这个系统调用,将数据往磁盘上写(数据在系统内存的缓冲区中)。

(4)操作系统将缓冲区中的数据转移到磁盘控制器上(数据在磁盘缓存中)。

(5)磁盘控制器将数据写到磁盘的物理介质中(数据真正落到磁盘上)。

这 5 个过程是在理想条件下一个正常的保存流程,但是在大多数情况下,我们的机器等等都会有各种各样的故障,这里划分了两种情况:

(1)Redis 数据库发生故障,只要在上面的第三步执行完毕,那么就可以持久化保存,剩下的两步由操作系统替我们完成。

(2)操作系统发生故障,必须上面 5 步都完成才可以。

在这里只考虑了保存的过程可能发生的故障,其实保存的数据也有可能发生损坏,需要一定的恢复机制,不过在这里就不再延伸了。现在主要考虑的是 Redis 如何来实现上面 5 个保存磁盘的步骤。它提供了两种策略机制,也就是 RDB 和 AOF。

RDB 机制

RDB 其实就是把数据以快照的形式保存在磁盘上。什么是快照呢? 你可以理解成把当前时刻的数据拍成一张照片保存下来。

RDB 持久化是指在指定的时间间隔内将内存中的数据集快照写入磁盘。也是默认的持久化方式,这种方式是就是将内存中数据以快照的方式写入到二进制文件中,默认的文件名为 dump.rdb。

在安装了 Redis 之后,所有的配置都是在 redis.conf 文件中,里面保存了 RDB 和 AOF 两种持久化机制的各种配置

既然 RDB 机制是通过把某个时刻的所有数据生成一个快照来保存,那么就应该有一种触发机制,是实现这个过程。对于 RDB 来说,提供了三种机制:save、bgsave、自动化。

save 触发方式

该命令会阻塞当前 Redis 服务器,执行 save 命令期间,Redis 不能处理其他命令,直到 RDB 过程完成为止。具体流程如下:

image

执行完成时候如果存在老的 RDB 文件,就把新的替代掉旧的。我们的客户端可能都是几万或者是几十万,这种方式显然不可取。

bgsave 触发方式

执行该命令时,Redis 会在后台异步进行快照操作,快照同时还可以响应客户端请求。具体流程如下:

image

具体操作是 Redis 进程执行 fork 操作创建子进程,RDB 持久化过程由子进程负责,完成后自动结束。阻塞只发生在 fork 阶段,一般时间很短。基本上 Redis 内部所有的 RDB 操作都是采用 bgsave 命令。

自动触发

自动触发是由配置文件来完成的。在 redis.conf 配置文件中,有如下配置可以设置:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
> 1、save:这里是用来配置触发 Redis的 RDB 持久化条件,也就是什么时候将内存中的数据保存到硬盘。比如“save m n”。表示m秒内数据集存在n次修改时,自动触发bgsave。
默认如下配置:

'#' 表示900 秒内如果至少有1个key的值发生变化,则保存save 900
'1#' 表示300 秒内如果至少有10个key的值变化,则保存save 300
'10#' 表示60 秒内如果至少有10000个key的值变化,则保存save 60 10000

不需要持久化,那么你可以注释掉所有的 save 行来停用保存功能。
>
> 2、'stop-writes-on-bgsave-error':默认值为yes。当启用了RDB且最后一次后台保存数据失败时,Redis是否停止接收数据,这会让用户意识到数据没有正确持久化到磁盘上,否则没有人会注意到灾难(disaster)发生了。如果Redis重启了,那么又可以重新开始接收数据了
>
> 3、'rdbcompression':默认值是yes。对于存储到磁盘中的快照,可以设置是否进行压缩存储。
>
> 4、'rdbchecksum':默认值是yes。在存储快照后,我们还可以让redis使用CRC64算法来进行数据校验,但是这样做会增加大约10%的性能消耗,如果希望获取到最大的性能提升,可以关闭此功能。
>
> 5、'dbfilename':设置快照的文件名,默认是 dump.rdb
>
> 6、'dir':设置快照文件的存放路径,这个配置项一定是个目录,而不能是文件名。

可以修改这些配置来实现我们想要的效果。因为第三种方式是配置的,所以对前两种进行一个对比:

命令 save bgsave
IO 类型 同步 异步
是否阻塞 是(阻塞发生在 fork 时)
复杂度 O(n) O(n)
优点 不会消耗额外内存 不阻塞客户端命令
缺点 阻塞客户端命令 需要 fork ,消耗内存

RDB 的优势和劣势

优势

(1)RDB文件紧凑,全量备份,非常适合用于进行备份和灾难恢复。

(2)生成RDB文件的时候,redis主进程会fork()一个子进程来处理所有保存工作,主进程不需要进行任何磁盘IO操作。

(3)RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。

劣势

RDB 快照是一次全量备份,存储的是内存数据的二进制序列化形式,存储上非常紧凑。当进行快照持久化时,会开启一个子进程专门负责快照持久化,子进程会拥有父进程的内存数据,父进程修改内存子进程不会反应出来,所以在快照持久化期间修改的数据不会被保存,可能丢失数据。

AOF 机制

全量备份总是耗时的,提供一种更加高效的方式 AOF,工作机制很简单,Redis 会将每一个收到的写命令都通过 write 函数追加到文件中。通俗的理解就是日志记录。

持久化原理

image

每当有一个写命令过来时,就直接保存在我们的 AOF 文件中。

文件重写原理

AOF 的方式也同时带来了另一个问题。持久化文件会变的越来越大。为了压缩 aof 的持久化文件。Redis提供了 bgrewriteaof 命令。将内存中的数据以命令的方式保存到临时文件中,同时会 fork 出一条新进程来将文件重写。

image

重写 aof 文件的操作,并没有读取旧的 aof 文件,而是将整个内存中的数据库内容用命令的方式重写了一个新的 aof 文件,这点和快照有点类似。

触发机制

AOF 也有三种触发机制,always、everysec、和 no。

(1)每修改同步 always:同步持久化 每次发生数据变更会被立即记录到磁盘 性能较差但数据完整性比较好

(2)每秒同步 everysec:异步操作,每秒记录 如果一秒内宕机,有数据丢失

(3)不同 no:从不同步

三种触发机制对比:

命令 always everysec no
优点 不丢失数据 每秒一次 fsync
最大丢一秒数据
不用运维
缺点 IO 开销较大
一般的 SATA 盘只有几百 TPS
丢一秒数据 不可控
AOF 的优势和劣势

优势

(1)AOF 可以更好的保护数据不丢失,一般 AOF 会每隔 1 秒通过一个后台线程执行一次 fsync 操作,最多丢失 1 秒钟的数据。

(2)AOF 日志文件没有任何磁盘寻址的开销,写入性能非常高,文件不容易破损。

(3)AOF 日志文件即使过大的时候,出现后台重写操作,也不会影响客户端的读写。

(4)AOF 日志文件的命令通过非常可读的方式进行记录,这个特性非常适合做灾难性的误删除的紧急恢复。比如不小心用 flushall 命令清空了所有数据,只要这个时候后台 rewrite 还没有发生,那么就可以立即拷贝 AOF 文件,将最后一条 flushall 命令给删了,然后再将该 AOF 文件放回去,就可以通过恢复机制,自动恢复所有数据。

劣势

(1)对于同一份数据来说,AOF 日志文件通常比 RDB 数据快照文件更大。

(2)AOF 开启后,支持的写 QPS 会比 RDB 支持的低,因为 AOF 一般会配置成每秒 fsync 一次日志文件,当然,每秒一次 fsync,性能也还是很高的

(3)AOF 发生过 bug,就是通过 AOF 记录的日志,进行数据恢复的时候,没有恢复一模一样的数据出来。

RDB和AOF到底该如何选择

一般根据需求不同选择的也不通,但是通常都是结合使用。总结:

命令 RDB AOF
启动优先级
体积
恢复速度
数据安全性 宕机容易丢数据 根据策略决定
轻重
----------本文结束感谢您的阅读----------
xiaolong wechat
一只程序猿对世界的不完全理解