[CMU15445]:恢复算法

利用语义的恢复和隔离算法(Algorithms for Recovery and Isolation Exploiting Semantics ,ARIES)，最早在90年代初由IBM提出，是一种基于WAL的故障恢复机制，ARIES的核心思想可以总结为三点：

Write-Ahead Logging(WAL)
- 在数据输出到磁盘之前，所有的更新日志必须首先输出到磁盘
- 必须使用Steal + No-Force的buffer Pool Policy
Repeating History During Redo

当从崩溃中恢复时，使用redo操作将数据库完全恢复成崩溃之前的样子
Logging Changes During Undo

在undo使同样要把undo操作本身记录到日志当中，以避免undo操作时再次崩溃进而发生重复undo的情况

将缓存在内存中的日志记录称为WAL Records, 与此同时，使用**日志序列号(Log Sequence Number, LSN)**来标识每个日志记录，除此之外还有一些特殊的LSN, 下面是其中的一部分

LSN

LSN本质上是日志文件 + 文件偏移量所组合成的一个编号，是单调递增的
flushedLSN

基于WAL机制，当page x想要被刷新到磁盘时，那么就必须得确保：

当日志记录从内存刷新到磁盘时，flushedLSN就会被更新为最新的LSN
pageLSN

当一个page被更新时，该页的pageLSN就得被更新为该更新操作对应的LSN

基本的日志布局大概如图所示

首先讨论以下在普通执行过程中ARIES是怎么运作的，为了保持简单，首先给出一些前提条件

正常提交过程如下：

在事务回滚过程中，需要引入一个新的LSN变量prevLSN，每个日志记录都会包含该字段，该字段保存着该日志记录的同一个事务的前一条日志记录，事务的首条日志记录的该字段设置为nil

事务发生回滚的流程如下：

接下来介绍几种不同的checkpoint机制

之前所讨论过的checkpoint就是这种方法，该方法具体会分为几个步骤

该方法会在第二个步骤中产生较长的间断，在该间断时间内数据库是不会有任何更新的，这是不能接受的

可以使用一些优化策略来对上面的checkpoint机制进行改进，改进后的方法如下

这样做就不会产生间断，但是需要系统额外的维护一些信息，具体就是两个table

活跃事务表(Active Transaction Table, ATT)

当DBMS执行checkpoint时，会将此事系统中所有处于活跃的事务都记录在该表中，具体包含以下字段

在checkpoint执行完之后，每当事务提交或中止，就会将事务从该表中移除

脏页表(dirty page table, DPT)

该表的作用是跟踪buffer pool中那些正处于dirty状态的page,具体包含以下字段

下面是一个该机制下checkpoint的例子

Fuzzy CheckPoint是ARIES协议中使用的checkPoint机制，该机制允许任何事务在checkPoint线程在进行dirty page刷盘时同时进行自己的更新操作，其将checkPoint表示成了一个区间

<CHECKPOINT-BEGIN>: 表示系统开始刷盘
<CHECKPOINT-END>：表示checkPoint刷盘结束，此时会将<CHECKPOINT-BEGIN>对应的LSN刷新到磁盘的masterRecord当中

注意，在<CHECK-BEGIN>与<CHECK-END>之间的任何新开始的事务都不会被添加到ATT,而DPT则正常

ARIES的恢复算法分为三步：

下面是整个的流程框图