思考⼀下为什么AVL树是⾼度平衡搜索⼆叉树,要求⾼度差不超过1,⽽不是⾼度差是0呢?0不是更好的平衡吗?画画图分析我们发现,不是不想这样设计,⽽是有些情况是做不到⾼度差是0的。

⽐如⼀棵树是2个结点,4个结点等情况下,⾼度差最好就是1,⽆法做到⾼度差是0。
AVL树整体结点数量和分布 和完全⼆叉树类似 ,⾼度可以控制在log N ,那么增删查改的效率也可以控制在 O(log N) ,相⽐⼆叉搜索树有了本质的提升。
AVL树实现这⾥我们引⼊⼀个 平衡因⼦(balance factor) 的概念,每个结点都有⼀个平衡因⼦,任何结点的平衡因⼦等于 右⼦树的⾼度减去左⼦树的⾼度 (默认右减左,也可以是左减右) ,也就是说任何结点的平衡因⼦等于 0/1/-1 。

AVL树并 不是必须要平衡因 ⼦,但是有了平衡因⼦可以更⽅便我们去进⾏观察和控制树是否平衡,有的AVL树实现的时候并没有引入。
如果我现在在这棵树的基础上插入一个节点,如下。

此时平衡就会被破坏,因为这个10节点的平衡因子变成了2,这棵树就不是AVL树了。这棵树不平衡了怎么办?通过旋转,让他变平衡。
创建一个.h文件,起名为AVLTree.h,再创建一个源文件,起名为test.cpp。
AVL树的实现是在搜索二叉树的基础上完成的,实现详解在:【C++】二叉搜索树(搜索二叉树)
相比之前实现的搜索二叉树,AVL树的结构会多一个parent指针,以及控制平衡的平衡因子。
在AVLTree.h中实现AVL树的结构,整体框架如下。
template<class K, class V>
struct AVLTreeNode
{
pair<K, V> _kv;
AVLTreeNode<K, V>* _left; //左子树
AVLTreeNode<K, V>* _right; //右子树
AVLTreeNode<K, V>* _parent;//当前节点的父节点
int _bf;//平衡因子
AVLTreeNode(const pair<K, V>& kv)
:_kv(kv)
,_left(nullptr)
, _right(nullptr)
, _parent(nullptr)
, _bf(0)
{ }
};
template<class K, class V>
class AVLTree
{
typedef AVLTreeNode<K, V> Node;
public:
//...
private:
Node* _root = nullptr;
};AVL树插⼊⼀个值的⼤概过程如下:
先把二叉搜索树中的插入逻辑拿过来,改动一下。
bool insert(const pair<K, V>& kv)
{
if (_root == nullptr)
{
_root = new Node(kv);
return true;
}
Node* cur = _root;
Node* parent = nullptr;
while (cur)
{
if (cur->_kv.first > kv.first)
{
parent = cur;
cur = cur->_left;
}
else if (cur->_kv.first < kv.first)
{
parent = cur;
cur = cur->_right;
}
else //不允许值冗余
{
return false;
}
}
cur = new Node(kv);
if (parent->_kv.first > kv.first)
{
parent->_left = cur;
}
else
{
parent->_right = cur;
}
cur->_parent = parent; //链接_parent
//下面是更新平衡因子的逻辑
// ...
return true;
}
可以看出插入后影响的是祖先节点的高度,以及祖先节点的平衡因子。
平衡因子更新原则:
更新停⽌条件:

bool insert(const pair<K, V>& kv)
{
//...
//上面是插入逻辑
//更新平衡因子
while (parent) //parent为空时证明更新到根节点了
{
if (cur == parent->_left) //链接在左边
{
parent->_bf--;
}
else //链接在右边
{
parent->_bf++;
}
if (parent->_bf == 0)
{
break;
}
else if(parent->_bf == 1 || parent->_bf == -1)
{
cur = parent;
parent = parent->_parent;
}
else if (parent->_bf == 2 || parent->_bf == -2)
{
//旋转,旋转后直接退出
//...
break;
}
else
{
assert(false);
}
}
return true;
}插入的逻辑大框架就实现好了,我们前面一直提到的旋转到底是什么?接下来我们来说说旋转。
旋转总共分为四种,左单旋 / 右单旋 / 左右双旋 / 右左双旋。
在a⼦树中插⼊⼀个新结点,导致a⼦树的⾼度从h变成h+1,不断向上更新平衡因⼦,导致10的平 衡因⼦从-1变成 -2 ,10为根的树左右⾼度差超过1, 违反平衡规则 。

10为根的树左边太⾼了,需要 往右边旋转 ,控制两棵树的平衡,这就是 右单旋 。
本图展⽰的是10为根的树,有a/b/c抽象为三棵⾼度为h的⼦树(h>=0),a/b/c均符合AVL树的要求。
10可能是整棵树的根,也可能是⼀个整棵树中局部的⼦树的根。
这⾥a/b/c是⾼度为h的⼦树,是⼀种概括抽象表⽰,他代表了所有右单旋的场景,实际右单旋形态有很多种,后面会详细介绍。

如果插⼊之前10整棵树的⼀个局部⼦树,旋转后不会再影响上⼀层,插⼊结束了。
上面是抽象地概括子树高度为h,现在我们来详细看看这些情况。
插入前a/b/c子树的高度h为0,a子树新增,高度h从0->1,然后更新节点5和节点10的平衡因子。

更新完后节点10的平衡因子变为-2,这棵树不平衡,左边高,要进行右旋。按照旋转的规则,把5的右边给10的左边,10变成5的右边,5成了这棵树的新根。

插入前a/b/c子树的高度h为1,a子树新增,高度h从0->1,然后更新节点1,5和10的平衡因子。

更新完后节点10的平衡因子变为-2,这棵树不平衡,左边高,要进行右旋。按照旋转的规则,将5的右边给10的左边,10变成5的右边,5成了新的根。

插入前a/b/c子树时高度h为2AVL子树,情况就特别多了,下面3种就是高度为2的子树,a/b/c可以是以下x/y/z的任意一种。

如果我们插入后想要引发10节点不平衡,a这棵树只能是x的样子,b/c可以随意。

此时不平衡了,要进行旋转,还是和前面一样的。

a/b/c的高度h为2的情况计算的话有 3*3*4 = 36 种。h更高情况会更多,这里就不细说了,反正都是一样的。
我们来代码实现一下这个右旋。(图中黄色的往回指的箭头代表连接的相应父节点)

首先把这个parent的左子树记为subL,把这个subL的右子树记为subLR。
void rotateR(Node* parent) //右旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
}先让这个b变成10的左边。但是subLR的parent还是指向5的,我们还要改变b的_parent。

void rotateR(Node* parent) //右旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
parent->_left = subLR; //改变指向
subLR->_parent = parent;//更新b的_parent
}然后让10变成5的右边。
void rotateR(Node* parent) //右旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
parent->_left = subLR;
subLR->_parent = parent;
subL->_right = parent; //改变指向
parent->_parent = subL;//更新10的_parent
}
5的_parent需要分情况讨论:
旋转后5为整棵树的根节点时,直接让他的_parent置空。

如果旋转后节点5不是整棵树的根,证明节点10有_parent连接着,更新后这个parent的_parent要链接节点5,节点5的_parent要链接这个parent的_parent。

所以在改变parent的指向之前,我们要先把parent的_parent记录下来。
void rotateR(Node* parent) //右旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
parent->_left = subLR;
subLR->_parent = parent;
Node* pParent = parent->_parent; //先记录旋转前parent的父节点
subL->_right = parent;
parent->_parent = subL;
if (pParent == nullptr) //旋转前parent为根节点
{
_root = subL;
subL->_parent = nullptr;
}
else //旋转前parent不为根节点
{
}
}节点10如果是这棵树的子树,又要分情况讨论:节点10为他的父亲的左节点,或者节点10为他的父亲的右节点。



void rotateR(Node* parent) //右旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
parent->_left = subLR;
subLR->_parent = parent;
Node* pParent = parent->_parent; //先记录旋转前parent的父节点
subL->_right = parent;
parent->_parent = subL;
if (pParent == nullptr) //旋转前parent为根节点
{
_root = subL;
subL->_parent = nullptr;
}
else //旋转前parent不为根节点
{
subL->_parent = pParent;
if (pParent->_left == parent)
{
pParent->_left = subL;
}
else
{
pParent->_right = subL;
}
}
}还有一种情况就是这个b/c子树为空,如果为空的话是不可以对其解引用的,所以我们要加个判断。
void rotateR(Node* parent) //右旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
parent->_left = subLR;
if(subLR) //防止对空指针解引用
subLR->_parent = parent;
Node* pParent = parent->_parent; //先记录旋转前parent的父节点
subL->_right = parent;
parent->_parent = subL;
if (pParent == nullptr) //旋转前parent为根节点
{
_root = subL;
subL->_parent = nullptr;
}
else //旋转前parent不为根节点
{
subL->_parent = pParent;
if (pParent->_left == parent)
{
pParent->_left = subL;
}
else
{
pParent->_right = subL;
}
}
}旋转完成后还要更新平衡因子。 只有高度变化才会影响平衡因子,子树a/b/c整体的高度并没有发生改变,所以平衡因子也不需要变,需要变得就是节点10和节点5,也就是parent和subL,更新成0就可以了。
void rotateR(Node* parent) //右旋
{
//旋转逻辑
//...
//更新平衡因子
subL->_bf = 0;
parent->_bf = 0;
}这个右旋就写好了。细节比较多,要仔细。
左单旋其实和右单旋差不多,如下图,a新增子树,高度h变为h+1,更新15和10的平衡因子,更新之后10的平衡因子变为2,这棵树变得不平衡,右边高,要往左旋。

因为 10 < b⼦树的值 < 15,以10为旋转点进行左旋,将b变成10的右⼦树,10变成15的左⼦树,15变成这棵树新的根,符合搜索树的规则。

上图就是旋转后的样子,和右单旋是差不多的。我们就不做详细分析,直接写代码。
首先把这个parent的右子树记为subR,把这个subR的左子树记为subRL。
void rotateL(Node* parent) //左旋
{
Node* subR = parent->_right;
Node* subRL = subR->_left;
}先让b变成10的左树,不要忘了更新b的_parent。b可能为空树,在解引用之前要判断一下。
void rotateL(Node* parent) //左旋
{
Node* subR = parent->_right;
Node* subRL = subR->_left;
parent->_right = subRL;
if(subRL)
subRL->_parent = parent;
}然后让10变成15的右子树,在更新parent的指向之前要先记录parent的_parent。
void rotateL(Node* parent) //左旋
{
Node* subR = parent->_right;
Node* subRL = subR->_left;
parent->_right = subRL;
if(subRL)
subRL->_parent = parent;
Node* pParent = parent->_parent; //记录parent的_parent
subR->_left = parent;
parent->_parent = subR;
}然后要新的根节点与前面的树连接起来,这里分情况讨论,如果parent就是整棵树的根,直接置空_parent,如果不是整棵树的根,还要分parent是他父节点的左子树还是右子树。
void rotateL(Node* parent) //左旋
{
Node* subR = parent->_right;
Node* subRL = subR->_left;
parent->_right = subRL;
if(subRL)
subRL->_parent = parent;
Node* pParent = parent->_parent; //记录parent的_parent
subR->_left = parent;
parent->_parent = subR;
if (pParent == nullptr)//更新前的parent是整棵树根节点
{
_root = subR;
subR->_parent = nullptr;
}
else
{
if (pParent->_left == parent)
pParent->_left = subR;
else
pParent->_right = subR;
subR->_parent = pParent;
}
subR->_bf = 0; //更新平衡因子
parent->_bf = 0;
}最后更新平衡因子。左单旋就写好了。

在 b子树 新增节点,导致这棵树变得不平衡,10的平衡因子变成了-2,10的左边高,如果进行右旋,5的右边给10的左边,10变成5的右边,变完后就像下面这样毫无作用。

这种情况下就不能进行简单的右旋,10为跟的⼦树不再是单纯的左边⾼,对于10是左边⾼,但是对于5是右边⾼,需要⽤两次旋转才能解决。
先以5为旋转点进行左旋,让8的左边给5的右边,5变成8的左边。

旋转好后这棵树就变成了单纯的左边高,再以10为旋转点进行右旋,把8的右边给10的左边,10变成8的右边。

这样就旋转好了,旋转部分的代码也是特别简单,复杂的是平衡因子的更新。
void rotateLR(Node* parent) //左右双旋
{
rotateL(parent->_left); //先左旋
rotateR(parent); //再右旋
}平衡因子的更新情况有很多种。上面我们是插入一个节点9在节点8的右边,如果我们插入一个6,插入在8的左边,也是会触发双旋的情况的。
先以5为旋转点进行左旋,把8的左边给5的右边,把5给8的左边。

然后以10为旋转点进行右旋,先把8的右边给10的左边,把10给8的右边。

我们对比一下插入在8的左边和右边旋转后的结果图。


从结果图可以看出,左右双旋就是 把圈1给8的左边,圈2给8的右边,而如果是8的左子树,就分给圈1的右边,如果是8的右子树,就分给圈2的左边。

在这样的情况下,8的平衡因子是0,这是确定的,不确定的就是5和10的平衡因子。

我们从抽象图来分析一下。

对子树b进行展开,有3种情况。
情况一:h >= 1时,新增结点插⼊在e⼦树,e⼦树⾼度从h-1并为h并不断更新8->5->10平衡因⼦,
引发旋转,其中8的平衡因⼦为-1,旋转后8和5平衡因⼦为0,10平衡因⼦为1。

从这个抽象图看,就是以5为旋转点先进行左单旋,再以10为旋转点进行右单旋,e变成5的右边,f变成10的左边,8成这棵树的新根。

这种情况下subLR和subL的平衡因子是0,parent是1。
情况二:h >= 1时,新增结点插⼊在f⼦树,f⼦树⾼度从h-1变为h并不断更新8->5->10平衡因⼦,引发旋转,其中8的平衡因⼦为1,旋转后8和10平衡因⼦为0,5平衡因⼦为-1。

这种情况下subLR和parent的平衡因子是0,subL是-1。
情况三:h == 0时,a/b/c都是空树,b⾃⼰就是⼀个新增结点,不断更新5->10平衡因⼦,引发旋
转,其中8的平衡因⼦为0,旋转后8和10和5平衡因⼦均为0。

这种情况下subLR、subL和parent的平衡因子都是0。
来进行代码实现。
先记录一下subL和subLR,以及旋转前subLR的平衡因子。
void rotateLR(Node* parent) //左右双旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
int bf = subLR->_bf;
rotateL(parent->_left); //先左旋
rotateR(parent); //再右旋
}然后分类讨论就行了。
void rotateLR(Node* parent) //左右双旋
{
Node* subL = parent->_left;
Node* subLR = subL->_right;
int bf = subLR->_bf;
rotateL(parent->_left); //先左旋
rotateR(parent); //再右旋
if (bf == -1)
{
subL->_bf = subLR->_bf = 0;
parent->_bf = 1;
}
else if (bf == 1)
{
subLR->_bf = parent->_bf = 0;
subL->_bf = -1;
}
else if (bf == 0)
{
subLR->_bf = parent->_bf = subL->_bf = 0;
}
else
assert(false);
}这个左右双旋就实现好了。
跟左右双旋类似,下⾯我们将a/b/c⼦树抽象为⾼度h的AVL⼦树进⾏分析。

另外我们需要把b⼦树的细节进⼀步展开为12和左⼦树⾼度为h-1的e和f⼦树,因为我们要对b的⽗亲15为旋转点进⾏右旋,右单旋需要动b树中的右⼦树。

b⼦树中新增结点的位置不同,平衡因⼦更新的细节也不同,通过观察12的平衡因⼦不同,这⾥我们要分三个场景讨论。
情况一: h >= 1时,新增结点插⼊在e⼦树,e⼦树⾼度从h-1变为h并不断更新12->15->10平衡因 ⼦,引发旋转,其中12的平衡因⼦为-1,旋转后10和12平衡因⼦为0,15平衡因⼦为1。

情况二:h >= 1时,新增结点插⼊在f⼦树,f⼦树⾼度从h-1变为h并不断更新12->15->10平衡因⼦,引发旋转,其中12的平衡因⼦为1,旋转后15和12平衡因⼦为0,10平衡因⼦为-1。

情况三: h == 0时,a/b/c都是空树,b⾃⼰就是⼀个新增结点,不断更新15->10平衡因⼦,引发旋
转,其中12的平衡因⼦为0,旋转后10和12和15平衡因⼦均为0。

代码实现如下。
void rotateRL(Node* parent)
{
Node* subR = parent->_right;
Node* subRL = subR->_left;
int bf = subRL->_bf;
rotateR(parent->_right); //先右旋
rotateL(parent); //再左旋
if (bf == 1)
{
subR->_bf = subRL->_bf = 0;
parent->_bf = -1;
}
else if (bf == -1)
{
subRL->_bf = parent->_bf = 0;
subR->_bf = 1;
}
else if (bf == 0)
{
subRL->_bf = parent->_bf = subR->_bf = 0;
}
else
assert(false);
}旋转的代码写完后,就可以把插入的逻辑完善起来了。
bool insert(const pair<K, V>& kv)
{
//...
//上面是插入逻辑
//更新平衡因子
while (parent) //parent为空时证明更新到根节点了
{
if (cur == parent->_left) //链接在左边
{
parent->_bf--;
}
else //链接在右边
{
parent->_bf++;
}
if (parent->_bf == 0)
{
break;
}
else if(parent->_bf == 1 || parent->_bf == -1)
{
cur = parent;
parent = parent->_parent;
}
else if (parent->_bf == 2 || parent->_bf == -2)
{
//旋转逻辑
if (parent->_bf == -2 && cur->_bf == -1) //右旋
rotateR(parent);
else if (parent->_bf == 2 && cur->_bf == 1)//左旋
rotateL(parent);
else if (parent->_bf == -2 && cur->_bf == 1)//左右双旋
rotateLR(parent);
else if (parent->_bf == 2 && cur->_bf == -1)//右左双旋
rotateRL(parent);
else
assert(false);
break;
}
else
{
assert(false);
}
}
return true;
}按照⼆叉搜索树逻辑实现即可,搜索效率为 O(logN) 。
Node* Find(const K& key)
{
Node* cur = _root;
while (cur)
{
if (cur->_kv.first < key)
{
cur = cur->_right;
}
else if (cur->_kv.first > key)
{
cur = cur->_left;
}
else
{
return cur;
}
}
return nullptr;
}首先我们把中序遍历写出来,这里中序的实现方式和二叉搜索树中的实现方式一样的。在AVLTree类里private实现,代码如下。
void _Inorder(const Node* root)
{
if (root == nullptr)
return;
_Inorder(root->_left);
cout << root->_kv.first << ":" << root->_kv.second << ' ';
_Inorder(root->_right);
}由于根节点_root是私有的,在类外不能访问,但是在类内可以,所以我们在AVLTree类里public实现下面这个函数。
void Inoder() //中序遍历
{
_Inorder(_root);
cout << endl;
}我们通过检查左右⼦树⾼度差的的程序进⾏反向验证,同时检查⼀下结点的平衡因⼦更新是否出现了问题。下面有一段检测代码可供检测。
在AVLTree类里private实现如下三个函数。
int _Height(Node* root)
{
if (root == nullptr)
return 0;
int leftHeight = _Height(root->_left);
int rightHeight = _Height(root->_right);
return leftHeight > rightHeight ? leftHeight + 1 : rightHeight + 1;
}bool _IsBalanceTree(Node* root)
{
// 空树也是AVL树
if (nullptr == root)
return true;
// 计算pRoot结点的平衡因⼦:即pRoot左右⼦树的⾼度差
int leftHeight = _Height(root->_left);
int rightHeight = _Height(root->_right);
int diff = rightHeight - leftHeight;
// 如果计算出的平衡因⼦与pRoot的平衡因⼦不相等,或者
// pRoot平衡因⼦的绝对值超过1,则⼀定不是AVL树
if (abs(diff) >= 2)
{
cout << root->_kv.first << "高度差异常" << endl;
return false;
}
if (root->_bf != diff)
{
cout << root->_kv.first << "平衡因子异常" << endl;
return false;
}
// pRoot的左和右如果都是AVL树,则该树⼀定是AVL树
return _IsBalanceTree(root->_left) && _IsBalanceTree(root->_right);
}int _Size(Node* root)
{
if (root == nullptr)
return 0;
//左节点个数+右节点个数+自己(1)
return _Size(root->_left) + _Size(root->_right) + 1;
}在AVLTree类里public实现如下三个函数。
int Height()
{
return _Height(_root);
}bool IsBalanceTree()
{
return _IsBalanceTree(_root);
}int Size()
{
return _Size(_root);
}这样做的原因前面已经说过了。
在test.cpp中进行检测。这个样例有两组数据,我们先测常规的。
#include "AVLTree.h" //包含头文件
void TestAVLTree1()
{
AVLTree<int, int> t;
// 常规的测试⽤例
int a[] = { 16, 3, 7, 11, 9, 26, 18, 14, 15 };
// 特殊的带有双旋场景的测试⽤例
//int a[] = { 4, 2, 6, 1, 3, 5, 15, 7, 16, 14 };
for (auto e : a)
{
t.insert({ e, e });
}
t.Inoder();
cout << t.IsBalanceTree() << endl;
}
int main()
{
TestAVLTree1();
return 0;
}
这里测试结果没问题,初步说明我们的AVL树写对了,来测第二组特殊的值,进一步验证。

结果也是没问题。
这个测试样例可以检测当我们插入一大堆随机值时,AVL树的插入和查找的效率,以及数的高度。
#include "AVLTree.h"
#include <vector>
void TestAVLTree2()
{
const int N = 100000;
vector<int> v;
v.reserve(N);
srand(time(0));
for (size_t i = 0; i < N; i++)
{
v.push_back(rand() + i);
}
size_t begin2 = clock();
AVLTree<int, int> t;
for (auto e : v)
{
t.insert(make_pair(e, e));
}
size_t end2 = clock();
cout << "Insert:" << end2 - begin2 << endl;
cout << t.IsBalanceTree() << endl;
cout << "Height:" << t.Height() << endl;
cout << "Size:" << t.Size() << endl;
size_t begin1 = clock();
for (size_t i = 0; i < N; i++)
{
t.Find((rand() + i));
}
size_t end1 = clock();
cout << "Find:" << end1 - begin1 << endl;
}
int main()
{
TestAVLTree2();
return 0;
}
这个结果就是说,我们插入66531个数,用了25ms,查找数的时间为16ms,这棵树的高度为19。
如果把N改成百万级别的数,看下结果。
const int N = 1000000;
我们插入635680个数,用了206ms,查找数的时间为202ms,这棵树的高度为22。 这个测试样例每次的结果都不一样,因为插入的是随机数,查找的也是随机值。
AVL树到这里就结束了,AVL树的删除不做讲解,有兴趣的可参考:《殷⼈昆 数据结构:⽤⾯向对象⽅法与C++语⾔描述》中讲解。
本次分享就到这里了,我们下篇再见~