红黑树为什么有序_红黑树是平衡二叉树吗

2024年 9月 2日下午5:10 • 激活谷笔记

红黑树为什么有序_红黑树是平衡二叉树吗面试常考数据结构：红黑树、B树、B+树各自适用的场景1. 磁盘基础知识分页：现代操作系统都使用虚拟内存来印射到物理内存，内存大小有限且价格昂贵，所以数据的持久化是在磁盘上。虚拟内存、物理内存、磁盘都使用页作为内存读取的最小单位。一般一页为4KB（8个扇区，每个扇区512B，8*512B

面试常考数据结构：红黑树、B树、B+树各自适用的场景　　1. 磁盘基础知识　　分页：　　现代操作系统都使用虚拟内存来印射到物理内存，内存大小有限且价格昂贵，所以数据的持久化是在磁盘上。虚拟内存、物理内存、磁盘都使用页作为内存读取的最小单位。一般一页为4KB（8个扇区，每个扇区512B，8*512B=4KB）。局部性原理：当一个数据被用到时，其附近的数据也通常会马上被使用。程序运行期间所需要的数据通常比较集中。磁盘预读原理：　　磁盘读取依靠的是机械运动，分为寻道时间、旋转延迟、传输时间三个部分，这三个部分耗时相加就是一次磁盘IO的时间，大概 9ms 左右。这个成本是访问内存的十万倍左右；　　磁盘读取的速度远小于内存，所以尽量减少 I/O 次数是提高效率的关键。　　根据局部性原理，且由于磁盘顺序读取的效率很高（不需要寻道时间，只需很少的旋转时间），所以即使只需要读取一个字节，磁盘也会读取一页的数据。即磁盘预读时通常会读取页的整倍数。　　2. 树基础知识回顾　　排序二叉树：左 < 跟 < 右B 树：有序数组 + 多叉平衡树，节点存储关键字、数据、指针；B+ 树：有序数组链表 + 多叉平衡树，非叶子节点存储指针、关键字，不存储数据；红黑树：红黑树是一种不大严格的平衡树（平衡树要求太高）平衡树是为了防止二叉查找树退化为链表，而红黑树在维持平衡以确保 O(log2(n)) 的同时，不需要频繁着调整树的结构；　　二叉树的存储结构顺序存储（适用于完全二叉树）

　　index 之间的对应关系：

　　注意：二叉树的顺序存储只适合存储完全二叉树，否则 index 无法和节点对应起来，会有点恶心：

链式存储

这里要好好理解一下，不然会影响后面的理解。　　相关视频推荐　　4种红黑树的使用场景，从linux内核到应用开发（epoll、sk_buff、虚拟内存管理、nginx流量监控）　　90分钟搞定红黑树应用　　后端开发必学4种层式结构：B+/B-树、时间轮、跳表、LSM-Tree 　　免费学习地址：c/c++ linux服务器开发/后台架构师　　需要C/C++ Linux服务器架构师学习资料加qun（资料包括C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等），免费分享

　　3. 为什么不能使用二叉树来存储数据库索引　　先说结论：平衡二叉树进行插入/删除时，大概率需要通过左旋/右旋来维持平衡；旋转需要加载整个树，频繁旋转效率低；二叉树的 I/O 次数近似为 O(log2(n))；范围查询时，二叉树的时间复杂度会退化成 O(n)；二叉树退化成链表时，时间复杂度也近似退化成了 O(n)；二叉树无法使用磁盘预读功能；　　其实单论范围查询，在关系型数据库中就基本没有使用二叉树的可能了。但是为了加深对知识的了解，来看看其他的原因。　　先剔除掉范围查询的情况，原因 1、2、6 可以通过红黑树来解决，那么其实就剩下 2 个原因：I/O 次数对比；磁盘预读功能的利用；　　4. 二叉树的 I/O 次数分析　　先说 I/O 次数：　　其实相比于二叉树，B 树、B+树， CPU 的运算次数并没有变化，甚至增多。但是 CPU 运算次数相比于 I/O 的消耗而言，可以忽略不计，所以 I/O 次数是评价一个数据库索引的效率高低的关键指标。　　对于红黑树而言，其 I/O 次数近似为 log2(n)，为什么是近似呢？　　首先，索引是存储在磁盘上的，磁盘上的数据大部分情况下是连续的，但是随着增删改查的发生，有可能产生很多碎片，也就是说：索引在磁盘上的存储也不一定是连续的；　　这里，严谨起见，我们来分两种情况：索引节点，即树的节点在磁盘上存储是连续；　　假设一个页能存储 5 个节点，假设二叉树如下：

注意，序号只代表在磁盘中存储的顺序，不代表对应节点的关键字的值；　　二叉树可能是链式存储，也可能是顺序存储。但是这里假设节点在磁盘上的存储是连续的，所以这里可以近似理解成顺序存储。即使是链式存储，无非就是 pNext 指针指向下一个连续的内存地址而已。　　现在假设搜索的结果是最左边的叶子节点 16，因为磁盘预读的特性，加上一个页能存储 5 个节点，第一次 I/O ：

　　如上，第一次 I/O 就读取了 5 个节点，不仅把根节点读取进内存了，还把节点 2 和 4 都读取进去了，看上去还节约了两次 I/O ？好厉害的样子…… 　　此时，会根据二分法查找，对比 1 号节点然后去找节点 2，紧接着找节点 4，因为这两个节点都在内存中了，所以不需要进行 I/O这里再说一次，序号不代表节点的关键字，而是单纯的表示节点在磁盘中的排列顺序；　　紧接着，会需要 8 号节点，而 8 不再内存中，所以进行第二次 I/O 同样是读取一页，即 5 个节点：

　　这次虽然也是读取了 5 个节点，但是实际上只有 8 号节点有实际作用，其他节点并没什么卵用（这是二叉树无法使用预读功能的本质），但是现在还没体现出劣势，现在对比之后需要 16 号节点，继续第三次读取：

　　此时找到了 16，并将结果返回。　　这是高度为 4 的情况，且只有 31 个数据。但是实际使用中，怎么可能就 31 个数据？假设要找的是 32 号节点，因为 16 号节点之后的 17-20 虽然被加载进内存了，但是完全没用。那么就需要再进行一次 I/O 来加载 32 号节点所在的页，同时也会将 33-36 加载进内存，但是这些节点并无卵用。　　如果要找的是 1000 ，10000？　　所以，随着层级的深入，会出现：一个页中只有一个节点有用（二分法查找要的是子节点而不是兄弟节点）；I/O 次数近似等于log2(n)；　　即：第一次 I/O 可能的优势在层级加深之后就没有了；就算是红黑树，也只能将时间复杂度维持在 log2(n)；　　上述讨论的是索引树在磁盘上的存储是连续的，如果不是连续的，那么按页读取到的脏数据会更多，上述的情况中，前几次 I/O 读取到有用的数据的概率会变低，所以 I/O 的次数只会增多而不会减少,即仍然是近似于 log2(n)。　　5. B/B+树　　B 树即：多路平衡查找树；　　B 树的巧妙之处在于：将一个节点的大小设置为一页的大小；一个节点可以存放多个关键字（多叉树）；自平衡；　　这 3 点结合起来就可以做到：一个节点大小为一页，被加载进内存时，这些关键字在进行对比，找出需要 leftChild 还是 rightChild 时，都是有用的（如最右侧时需要对比所有节点）；一个节点可以存储多个关键字，有效降低了树的高度；　　B+ 树的巧妙之处在于：非叶子节点不存储数据，进一步增大了一页中存储关键字的数量；叶子节点中存储数据且存在指向下一页的链表指针，可以使用顺序查询（支持范围查询）；　　6. B/B+树的索引数量　　B 树的节点中存储：指针、关键字(主键)、数据B+ 树的非叶子节点：指针、关键字B+树的叶子节点：指针(链表)、关键字、数据注意，这里不是绝对的，比如有的 B+ 树中叶子节点存储的不是数据，而是指向数据的指针。查询到指针之后再去对应地址取出数据，但是这样应该会增加一次 I/O 吧，应该也是在数据量和 I/O 次数之间做了取舍，具体先不讨论。　　以 Sqlite3.12 之后为例，page_size = 16k，假设指针为 8 byte，假设关键字类型占 8 byte，假设数据占 1 KB；　　B 树的一个节点：

　　一页能存储的数据量为：16kb / (1KB+8byte+8byte) ≈ 16；　　高度为 3 的 B 树能存储 16 x16 x16 = 4096 条数据　　相比于二叉树的 1 个而言，确实有效降低了树的层级。而且上述是假设数据为 1KB，如果数据没那么大，高度为 3 的 B 树能存储更多的数据，但是如果用在大型数据库索引上还是不够。　　B+ 树：

　　如上图，B+树的核心在于非叶子节点不存储数据。　　这样做可以减少非叶子结点占用的空间，增大一页所能存储的数据量，最大程度减少树的层级。　　仍然是以上假设，假如树的高度为 3 ，那么就有两层存储关键字+指针，一层叶子节点来存储实际数据。　　一页能存储的关键字为：16 * 1024 / (8 + 8) = 1024一页能存储的数据量为：16KB / (1KB + 8byte + 8byte) = 16（这里计算不完全准确，实际情况应该是1页数据中只有一个链表指针指向下一页）能存储的关键字为：1024 * 1024 = ；　　因为端节点又有 1024 个指针，这些指针可以指向一个页，页中存储数据，也就是叶子节点，一页能存储 16 个叶子节点，所以总共能索引的数据量为 * 16 ≈ 1600万；如果高度为 4 ，则再乘以 1024 约为 17亿….. 　　上述推理中，理解终端节点的指针指向一个页，页中存储着关键字 + 数据 + 链表指针是关键。page 标记如下，有助理解：

虽然叶子节点很多，一个 page 对应一个叶子节点甚至是多个 page 才能存下一个叶子节点，但是这些是存在磁盘上的，找到对应的 page 之后才去加载对应的 page。索引超大数据量的同时，不会对 I/O 次数产生影响，这就是这个设计的牛逼之处。　　但是这样也是有缺点的：　　无论查询结果如何，都必须走到叶子节点才结束，也就是 I/O 次数固定为 O(h) 或者说是 log(n)（底数为节点子分支个数），这个 h 一般为 2-3，排除掉根节点常驻内存，高度为 3 的 B+ 树进行两次 I/O 就可以索引千万级别的数据,高度为 4 的 B+ 树，进行 3 次 I/O 就能索引十亿级别的数据量，这个效果还是很好的。　　所以，这个缺点也可以说成是优点：稳定（稳如一条老狗）　　7. 实际应用　　红黑树优点　　红黑树常用于存储内存中的有序数据，增删很快，内存存储不涉及 I/O 操作。B/B+树的优点　　更适合磁盘存储，减少了树的层级，进而减少 I/O 次数；B 树和 B+ 树对比　　都是 B 树，但是 B+树更适合范围查询，比如 Mysql，且查询次数很稳定，为 logn。而 B 树更适合键值对型的聚合数据库，比如 MongoDB，查询次数最优为 O(1)；红黑树更适合内存存储，B 树更适合键值对存储，B+ 树适合范围查询；

cpu测试软件哪个好_性能测试软件

上一篇 2024年 9月 2日下午5:08

arm linux内核_arm Linux

下一篇 2024年 9月 2日下午5:12

激活谷笔记

PyCharm激活2022.1.4(pycharm pro最新安装包2022.1.4 pycharm永久版 Mac Python开发)

PyCharm激活2022.1.4(pycharm pro最新安装包2022.1.4 pycharm永久版 Mac Python开发)

2024年 7月 30日
激活谷笔记

WebStorm2024.1.2激活码(WebStorm 2024.1最新版免费激活激活成功教程安装教程（附激活工具+激活码）-永久更新维护)

WebStorm2024.1.2激活码(WebStorm 2024.1最新版免费激活激活成功教程安装教程（附激活工具+激活码）-永久更新维护)

2024年 7月 5日
激活谷笔记

Rider激活2023.3.5(【2024最新版】BurpSuite安装和基础使用教程(已激活成功教程)，三分钟手把手教会，非常简单！)

Rider激活2023.3.5(【2024最新版】BurpSuite安装和基础使用教程(已激活成功教程)，三分钟手把手教会，非常简单！)

2024年 6月 7日
激活谷笔记

b+树索引结构_B+树索引结构的根结点

b+树索引结构_B+树索引结构的根结点B+树看这一篇就够了（B+树查找、插入、删除全上）基本概念为了实现动态多层索引，通常采用 B-树和 B+树。但是，用于索引的 B-树存在缺陷，它的所有中间结点均存储的是数据指针（指向包含键值的磁盘文件块的指针），与该键值一起存储

2024年 8月 30日
RubyMine激活2023.3.4(Ruby开发工具JetBrains RubyMine 激活成功教程版 v2023.3.2 中文免费版)

RubyMine激活2023.3.4(Ruby开发工具JetBrains RubyMine 激活成功教程版 v2023.3.2 中文免费版)

激活谷笔记 2024年 6月 21日
Navicat Premium 15.0.36激活(NaVicat Premium 15 V15.0.3绿色版下载)

Navicat Premium 15.0.36激活(NaVicat Premium 15 V15.0.3绿色版下载)

激活谷笔记 2024年 8月 18日
Navicat Premium 16.1.7激活(Navicat最新162、163激活激活成功教程)

Navicat Premium 16.1.7激活(Navicat最新162、163激活激活成功教程)

激活谷笔记 2024年 8月 23日
激活谷笔记

FastGithub手机版_手机访问github加速

FastGithub手机版_手机访问github加速2023 | github无法访问或速度慢的问题几个解决方案总结github无法访问或速度慢的问题解决方案前言: 最近经常遇到无法访问, 或者访问特别慢的问题, 在搜索了一圈解决方案后, 有些不再有效了, 但是其

2024年 5月 12日
super play啥意思_autoplay盒子

super play啥意思_autoplay盒子视频预览软件哪个好？推荐几款靠谱工具原标题：视频预览软件哪个好？推荐几款靠谱工具随着视频内容的不断增加，视频预览软件也变得越来越重要。这些软件可以帮助你快速地浏览视频文件并找到感兴趣的部分。在本篇文章中，我将介绍几款值

激活谷笔记 2024年 8月 3日
cpu性能指标是_电脑cpu性能天梯图

cpu性能指标是_电脑cpu性能天梯图衡量CPU性能的两个指标1、衡量cpu性能的两个指标李军湖北1996-05-17 前，衡量cpu的性能主要有两个指标，即icomp指数和p-rating指数，下面简单介绍一下这两个指标。一、icomp 指数1993年，为评价386、486sx、486dx、486dx2等各种cpu的性能 ,inte

激活谷笔记 2024年 9月 2日
Navicat Premium 16.2.5激活(Navicat最新162、163激活激活成功教程)

Navicat Premium 16.2.5激活(Navicat最新162、163激活激活成功教程)

激活谷笔记 2024年 8月 25日
激活谷笔记

Clion2024.1.1激活码(CLion2024(C和C ++ IDE跨平台IDE) v2024.1.3中文永久使用)

Clion2024.1.1激活码(CLion2024(C和C ++ IDE跨平台IDE) v2024.1.3中文永久使用)

2024年 7月 7日

红黑树为什么有序_红黑树是平衡二叉树吗

相关推荐