[CMU15445]:查询优化1

查询优化是数据库中最难的部分，由于SQL是声明式语言，用户只需要给出SQL语句，DBMS负责给出最优的查询方案

这里有两种查询优化的策略: 启发式方法(heuristic)/静态规则、基于代价的优化

下面是一个查询

最终，会得到一个实际的物理查询计划，数据库使用此查询计划进行查询

Logical Plan Vs. Physical Plan

逻辑计划是从高层次上来说的，如一个查询计划的树，逻辑计划规定了各个运算之间是以怎样的关系被组织的

物理计划则是具体化的逻辑计划，如一个join是使用hash join还是sort-merge join, 该计划也是最终会执行的计划

如果两个关系代表达式在每个合法的数据库实例上都会产生相同的tuple集合，那么就称它们为等价的

这种将关系代数使用等价规则进行转换的技术也被称为查询重写，在上图中的tree rewriter步骤中就使用了该技术

实际上，有一套通用的等价规则，这些规则建立在数学基础之上，下面是教材中给出的一些规则

DBMS优化器会使用内部的成本模型来评估一个特定查询计划的执行成本，这使得它们不用真实的去执行查询来获取这个查询的执行成本

各个数据库内部的成本模型不一样，但是总的来说是基于以下几点来考虑的

在数据库的内部，会维护一些统计数据，不同的系统会在不同时刻更新这些数据，如每当表中的数据有20%发生改变时触发更新操作，或者是每天定时触发更新操作

接下来使用数学关系分析成本，首先定义一些变量

NR: 关系R所拥有的的tuple数量
V(A, R): 表R在A属性上中非重复值的数量
**选择基数SC(A, R)**：关系R中的A属性上平均每个非重复值对应的元组数量, 即NR / V(A, R)

使用该基数即意味着假设所有非重复值都是均匀分布的，那么必然就会产生不准确的结果

直方图

如果想要获取精确的数据，那么一种方法就是为表中的每一列维护一个哈希表，建立值–>出现次数的映射，这样做被称为heavy-hitter

但这样做的弊端也十分明显，就是空间消耗太大，因为需要为表中的每一列都维护一个哈希表，在现实中是不可取的

不过，可以对上面这种做法稍微做一点改进，将几个值合并在一个形成一个bucket

如当查询2的时候，就会找到bucket1 , 然后将12 / 5 = 2.4, 得到一个估计值，这样做当然也是不准确的，但是空间消耗会减少很多

另一种改进方案是每个bucket的值的数目不固定，但是保持每个bucket的数值个数总和大致相等，这样做会取到更为精确的结果

样本

现代的DBMS也使用抽样的方法来计算每个谓词的选择率，所谓抽样即从整个表中取出部分数据作为样品表，然后计算这个样品表中谓词的选择率

高端的数据库会同时采用这两种方式

对于不同类型的查询计划，有着不同的优化方法