[CMU15445]:缓冲池

DBMS的职责就是管理数据在磁盘和内存之间的传输，因为对数据的修改必须在内存中进行

磁盘，内存以及执行引擎之间的交互关系大概如图

注意到当一个Page被拷贝到内存时，它的内容与磁盘中是完全一样的

最终的实现效果可以从两个角度来评判

空间控制(spatial control)

从空间角度来看，对于那些在查询中需要连续访问的page, 理想的效果是将这些连续查询的page放置在从磁盘的连续空间中，这样就可以做到依序I/O，避免随机访问，减少I/O时间
时序控制

时序控制的目的主要是减少从磁盘读取的次数

首先要区分一下Lock 和 Latch的区别

Lock

Lock是一种高级的逻辑原语，它保护数据库的内容(例如元组、表、数据库)不受其他事务的影响, 事务将在整个期间持有一个锁, 数据库系统可以向用户公开在运行查询时持有哪些锁。Lock需要能够回滚更改
Latch

Latch是DBMS用于其内部数据结构(例如，哈希表，内存区域)的关键部分的一种低级保护原语。Latch仅在操作期间保持。

Latch不需要能够回滚更改

简单地说，Lock是一种高层次的保护，和事务相关，属于应用层面，Latch则比较底层，是属于mutex那一类数据内部的锁

Buffer Pool manager负责管理缓冲池，当数据库上的程序需要磁盘上的块的时候，它就会向Buffer Pool manager发出请求，

如果当前的Buffer Pool中存放着所需要的page, 那么就直接将该数据块传递给程序，否则就从磁盘中拷贝一份

page, block, frame

这三者其实意思差不多，只不过在数据库中，我们将硬盘上的block称为page, 将Buffer Pool中的block称为frame
page table

page table的作用是记录当前的Buffer Pool中存有哪些page, 即page table与Buffer Pool是一对一的

page table维护着page id–>frame id的映射关系，具体是page id —-> frame 指针的哈希表

如上图所示，page table除了page id 到frame id的映射，还维护了一些其它的元数据
1. 脏位(Dirty Flag) 用于判断缓冲池中的内容与磁盘是否同步
2. Pin/Reference Counter
  
  在这里介绍一下Pin的概念，当线程访问Buffer Pool中的Page的时候，必须得对缓冲池中的page进行Pin操作，通常就是对该
  
  page的Pin Counter + 1, 当一个page的Pin Counter大于1的时候，如果想要对page进行操作就必须得等待，其实就是互斥量的概念
缓冲池分配策略

通常有两种策略
- global policies
  
  指所有的查询都是用同一个缓冲池的替换策略
- local policies
  
  指针对不同的查询可以使用不同的替换策略
实际上，现在大多数系统都混合使用这两中策略

在Q1查询完毕之后，Q2已经遍历了page3 page4 page5，所以Q2需要回到首部继续查询

scan sharing的思想就是一个查询使用另一个查询的中间过程值，即使这两个查询并不完全相同

顺便解释一下result cashing的概念

result cashing

将查询的结果缓存下来，仅当再一次进行相同的查询时才有用

大多数磁盘操作都通过OS API进行。除非有明确的说明，否则操作系统维护自己的文件系统缓存。

大多数DBMS使用direct I/O,这是操作系统的I/O选项，绕过操作系统的缓存，直接将文件复制进数据库缓冲，而不用首先将文件复制

进文件缓冲

但有些厂商，如PostgreSQL,他们就采用了文件缓存，因为这样当发生page fault的时候，就可以直接从文件缓冲区中读取，而不用从磁盘进行I/O

这两种算法都有一个缺点，就是当进行大量顺序访问时效率很低

因为进行顺序访问时，刚刚访问完的page往往是之后就不在需要的page

当缓存中存在Dirty Page，而此时缓冲区已满，需要进行替换时，此时有两种选择

实际上，这两种做法非常难以权衡，所以，数据库的底层通常会有一个专门的线程，用以将这些dirty page定时刷新到磁盘

数据库

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！