红黑树和b树区别_红黑树有什么实际作用

2024年 8月 8日上午10:06 • 激活谷笔记

红黑树和b树区别_红黑树有什么实际作用面试常考数据结构：红黑树、B树、B+树各自适用的场景1. 磁盘基础知识分页：现代操作系统都使用虚拟内存来印射到物理内存，内存大小有限且价格昂贵，所以数据的持久化是在磁盘上。虚拟内存、物理内存、磁盘都使用页作为内存读取的最小单位。一般一页为4KB（8个扇区，每个扇区

面试常考数据结构：红黑树、B树、B+树各自适用的场景　　1. 磁盘基础知识　　分页：　　现代操作系统都使用虚拟内存来印射到物理内存，内存大小有限且价格昂贵，所以数据的持久化是在磁盘上。虚拟内存、物理内存、磁盘都使用页作为内存读取的最小单位。一般一页为4KB（8个扇区，每个扇区512B，8*512B=4KB）。局部性原理：当一个数据被用到时，其附近的数据也通常会马上被使用。程序运行期间所需要的数据通常比较集中。磁盘预读原理：　　磁盘读取依靠的是机械运动，分为寻道时间、旋转延迟、传输时间三个部分，这三个部分耗时相加就是一次磁盘IO的时间，大概 9ms 左右。这个成本是访问内存的十万倍左右；　　磁盘读取的速度远小于内存，所以尽量减少 I/O 次数是提高效率的关键。　　根据局部性原理，且由于磁盘顺序读取的效率很高（不需要寻道时间，只需很少的旋转时间），所以即使只需要读取一个字节，磁盘也会读取一页的数据。即磁盘预读时通常会读取页的整倍数。　　2. 树基础知识回顾　　排序二叉树：左 < 跟 < 右B 树：有序数组 + 多叉平衡树，节点存储关键字、数据、指针；B+ 树：有序数组链表 + 多叉平衡树，非叶子节点存储指针、关键字，不存储数据；红黑树：红黑树是一种不大严格的平衡树（平衡树要求太高）平衡树是为了防止二叉查找树退化为链表，而红黑树在维持平衡以确保 O(log2(n)) 的同时，不需要频繁着调整树的结构；　　二叉树的存储结构顺序存储（适用于完全二叉树）

　　index 之间的对应关系：

　　注意：二叉树的顺序存储只适合存储完全二叉树，否则 index 无法和节点对应起来，会有点恶心：

链式存储

这里要好好理解一下，不然会影响后面的理解。　　相关视频推荐　　4种红黑树的使用场景，从linux内核到应用开发（epoll、sk_buff、虚拟内存管理、nginx流量监控）　　90分钟搞定红黑树应用　　后端开发必学4种层式结构：B+/B-树、时间轮、跳表、LSM-Tree 　　免费学习地址：c/c++ linux服务器开发/后台架构师　　需要C/C++ Linux服务器架构师学习资料加qun（资料包括C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等），免费分享

　　3. 为什么不能使用二叉树来存储数据库索引　　先说结论：平衡二叉树进行插入/删除时，大概率需要通过左旋/右旋来维持平衡；旋转需要加载整个树，频繁旋转效率低；二叉树的 I/O 次数近似为 O(log2(n))；范围查询时，二叉树的时间复杂度会退化成 O(n)；二叉树退化成链表时，时间复杂度也近似退化成了 O(n)；二叉树无法使用磁盘预读功能；　　其实单论范围查询，在关系型数据库中就基本没有使用二叉树的可能了。但是为了加深对知识的了解，来看看其他的原因。　　先剔除掉范围查询的情况，原因 1、2、6 可以通过红黑树来解决，那么其实就剩下 2 个原因：I/O 次数对比；磁盘预读功能的利用；　　4. 二叉树的 I/O 次数分析　　先说 I/O 次数：　　其实相比于二叉树，B 树、B+树， CPU 的运算次数并没有变化，甚至增多。但是 CPU 运算次数相比于 I/O 的消耗而言，可以忽略不计，所以 I/O 次数是评价一个数据库索引的效率高低的关键指标。　　对于红黑树而言，其 I/O 次数近似为 log2(n)，为什么是近似呢？　　首先，索引是存储在磁盘上的，磁盘上的数据大部分情况下是连续的，但是随着增删改查的发生，有可能产生很多碎片，也就是说：索引在磁盘上的存储也不一定是连续的；　　这里，严谨起见，我们来分两种情况：索引节点，即树的节点在磁盘上存储是连续；　　假设一个页能存储 5 个节点，假设二叉树如下：

注意，序号只代表在磁盘中存储的顺序，不代表对应节点的关键字的值；　　二叉树可能是链式存储，也可能是顺序存储。但是这里假设节点在磁盘上的存储是连续的，所以这里可以近似理解成顺序存储。即使是链式存储，无非就是 pNext 指针指向下一个连续的内存地址而已。　　现在假设搜索的结果是最左边的叶子节点 16，因为磁盘预读的特性，加上一个页能存储 5 个节点，第一次 I/O ：

　　如上，第一次 I/O 就读取了 5 个节点，不仅把根节点读取进内存了，还把节点 2 和 4 都读取进去了，看上去还节约了两次 I/O ？好厉害的样子…… 　　此时，会根据二分法查找，对比 1 号节点然后去找节点 2，紧接着找节点 4，因为这两个节点都在内存中了，所以不需要进行 I/O这里再说一次，序号不代表节点的关键字，而是单纯的表示节点在磁盘中的排列顺序；　　紧接着，会需要 8 号节点，而 8 不再内存中，所以进行第二次 I/O 同样是读取一页，即 5 个节点：

　　这次虽然也是读取了 5 个节点，但是实际上只有 8 号节点有实际作用，其他节点并没什么卵用（这是二叉树无法使用预读功能的本质），但是现在还没体现出劣势，现在对比之后需要 16 号节点，继续第三次读取：

　　此时找到了 16，并将结果返回。　　这是高度为 4 的情况，且只有 31 个数据。但是实际使用中，怎么可能就 31 个数据？假设要找的是 32 号节点，因为 16 号节点之后的 17-20 虽然被加载进内存了，但是完全没用。那么就需要再进行一次 I/O 来加载 32 号节点所在的页，同时也会将 33-36 加载进内存，但是这些节点并无卵用。　　如果要找的是 1000 ，10000？　　所以，随着层级的深入，会出现：一个页中只有一个节点有用（二分法查找要的是子节点而不是兄弟节点）；I/O 次数近似等于log2(n)；　　即：第一次 I/O 可能的优势在层级加深之后就没有了；就算是红黑树，也只能将时间复杂度维持在 log2(n)；　　上述讨论的是索引树在磁盘上的存储是连续的，如果不是连续的，那么按页读取到的脏数据会更多，上述的情况中，前几次 I/O 读取到有用的数据的概率会变低，所以 I/O 的次数只会增多而不会减少,即仍然是近似于 log2(n)。　　5. B/B+树　　B 树即：多路平衡查找树；　　B 树的巧妙之处在于：将一个节点的大小设置为一页的大小；一个节点可以存放多个关键字（多叉树）；自平衡；　　这 3 点结合起来就可以做到：一个节点大小为一页，被加载进内存时，这些关键字在进行对比，找出需要 leftChild 还是 rightChild 时，都是有用的（如最右侧时需要对比所有节点）；一个节点可以存储多个关键字，有效降低了树的高度；　　B+ 树的巧妙之处在于：非叶子节点不存储数据，进一步增大了一页中存储关键字的数量；叶子节点中存储数据且存在指向下一页的链表指针，可以使用顺序查询（支持范围查询）；　　6. B/B+树的索引数量　　B 树的节点中存储：指针、关键字(主键)、数据B+ 树的非叶子节点：指针、关键字B+树的叶子节点：指针(链表)、关键字、数据注意，这里不是绝对的，比如有的 B+ 树中叶子节点存储的不是数据，而是指向数据的指针。查询到指针之后再去对应地址取出数据，但是这样应该会增加一次 I/O 吧，应该也是在数据量和 I/O 次数之间做了取舍，具体先不讨论。　　以 Sqlite3.12 之后为例，page_size = 16k，假设指针为 8 byte，假设关键字类型占 8 byte，假设数据占 1 KB；　　B 树的一个节点：

　　一页能存储的数据量为：16kb / (1KB+8byte+8byte) ≈ 16；　　高度为 3 的 B 树能存储 16 x16 x16 = 4096 条数据　　相比于二叉树的 1 个而言，确实有效降低了树的层级。而且上述是假设数据为 1KB，如果数据没那么大，高度为 3 的 B 树能存储更多的数据，但是如果用在大型数据库索引上还是不够。　　B+ 树：

　　如上图，B+树的核心在于非叶子节点不存储数据。　　这样做可以减少非叶子结点占用的空间，增大一页所能存储的数据量，最大程度减少树的层级。　　仍然是以上假设，假如树的高度为 3 ，那么就有两层存储关键字+指针，一层叶子节点来存储实际数据。　　一页能存储的关键字为：16 * 1024 / (8 + 8) = 1024一页能存储的数据量为：16KB / (1KB + 8byte + 8byte) = 16（这里计算不完全准确，实际情况应该是1页数据中只有一个链表指针指向下一页）能存储的关键字为：1024 * 1024 = ；　　因为端节点又有 1024 个指针，这些指针可以指向一个页，页中存储数据，也就是叶子节点，一页能存储 16 个叶子节点，所以总共能索引的数据量为 * 16 ≈ 1600万；如果高度为 4 ，则再乘以 1024 约为 17亿….. 　　上述推理中，理解终端节点的指针指向一个页，页中存储着关键字 + 数据 + 链表指针是关键。page 标记如下，有助理解：

虽然叶子节点很多，一个 page 对应一个叶子节点甚至是多个 page 才能存下一个叶子节点，但是这些是存在磁盘上的，找到对应的 page 之后才去加载对应的 page。索引超大数据量的同时，不会对 I/O 次数产生影响，这就是这个设计的牛逼之处。　　但是这样也是有缺点的：　　无论查询结果如何，都必须走到叶子节点才结束，也就是 I/O 次数固定为 O(h) 或者说是 log(n)（底数为节点子分支个数），这个 h 一般为 2-3，排除掉根节点常驻内存，高度为 3 的 B+ 树进行两次 I/O 就可以索引千万级别的数据,高度为 4 的 B+ 树，进行 3 次 I/O 就能索引十亿级别的数据量，这个效果还是很好的。　　所以，这个缺点也可以说成是优点：稳定（稳如一条老狗）　　7. 实际应用　　红黑树优点　　红黑树常用于存储内存中的有序数据，增删很快，内存存储不涉及 I/O 操作。B/B+树的优点　　更适合磁盘存储，减少了树的层级，进而减少 I/O 次数；B 树和 B+ 树对比　　都是 B 树，但是 B+树更适合范围查询，比如 Mysql，且查询次数很稳定，为 logn。而 B 树更适合键值对型的聚合数据库，比如 MongoDB，查询次数最优为 O(1)；红黑树更适合内存存储，B 树更适合键值对存储，B+ 树适合范围查询；

积分电路输入方波输出什么_积分电路的公式

上一篇 2024年 8月 8日上午10:04

l298n电机驱动模块接线图原理图_电机怎么接线

下一篇 2024年 8月 8日上午10:08

Idea激活2024.1.4(IntelliJ IDEA 2023.3 最新版如何试用？IntelliJ IDEA 2023.3 最新版试用方法)

Idea激活2024.1.4(IntelliJ IDEA 2023.3 最新版如何试用？IntelliJ IDEA 2023.3 最新版试用方法)

激活谷笔记 2024年 6月 30日
Navicat Premium 16.2.7激活(Navicat 16中文版附安装教程)

Navicat Premium 16.2.7激活(Navicat 16中文版附安装教程)

激活谷笔记 2024年 8月 16日
激活谷笔记

二叉排序树成功查找的时间复杂度_二叉排序树的查找的时间复杂度

二叉排序树成功查找的时间复杂度_二叉排序树的查找的时间复杂度计算机/软工408考研数据结构总览如果觉得对你有帮助，欢迎点赞！408相关内容欢迎专栏：计算机/软工408考研知飞翀：408算法大题这样刷~0. 前言本篇文章旨在分析408中数据结构的考察内容、形式和重难点，帮助你打好有准备的仗。1. 数据结构在4

2024年 5月 22日
激活谷笔记

Navicat Premium 15.0.36激活(avicat premium15官方版 v15.0.13)

Navicat Premium 15.0.36激活(avicat premium15官方版 v15.0.13)

2024年 8月 10日
Rider2024.1.4激活码(PhpStorm 2024.1 版本永久激活激活成功教程教程，附最新PhpStorm注册码（亲测好用）)

Rider2024.1.4激活码(PhpStorm 2024.1 版本永久激活激活成功教程教程，附最新PhpStorm注册码（亲测好用）)

激活谷笔记 2024年 7月 3日
激活谷笔记

Rider2024.1.5激活码(Rider2024年最新免费激活码教程)

Rider2024.1.5激活码(Rider2024年最新免费激活码教程)

2024年 8月 16日
激活谷笔记

Rider激活2023.1.7(最新webstorm激活码2023至2024都有效！)

Rider激活2023.1.7(最新webstorm激活码2023至2024都有效！)

2024年 7月 10日
Rider激活2024.1.2(JRebel最新版（2024.1.2）在线激活)

Rider激活2024.1.2(JRebel最新版（2024.1.2）在线激活)

激活谷笔记 2024年 6月 13日
激活谷笔记

哈夫曼树出现权值相等_哈夫曼树只有度为0和度为2

哈夫曼树出现权值相等_哈夫曼树只有度为0和度为2数据结构——哈夫曼树（Huffman Tree）什么是哈夫曼树给定N个权值作为N个叶子结点，构造一棵二叉树，若该树的带权路径长度达到最小，称这样的二叉树为最优二叉树，也称为哈夫曼树(Huffman Tree

2024年 8月 3日
激活谷笔记

检测文章相似度的软件_检测文章相似度的软件免费

检测文章相似度的软件_检测文章相似度的软件免费文章抄袭检测app哪个好文章查重软件排行榜无论是对于大学生还是上班族来说，文章查重其实都是很有用处的，我们有的时候也会在网上借鉴一些内容，但是又怕重复率太高，那么文章抄袭检测app哪个好呢？小编也将给大家推荐几个比较好用的文章查重软件，我们可以使用这些软件快速检测自己的文

2024年 6月 21日
Navicat Premium 16.3.9激活(Window下navicat primum激活成功教程30天试用期)

Navicat Premium 16.3.9激活(Window下navicat primum激活成功教程30天试用期)

激活谷笔记 2024年 8月 20日
激活谷笔记

7zip如何压缩文件到最小_7zip压缩所需内存如何设置

7zip如何压缩文件到最小_7zip压缩所需内存如何设置7zip如何设置极限压缩的参数？压缩等级选LZMA2，别的默认即可。LZMA2最大好处是CPU线程数能占满。速度比PPMd 快很多。并且LZMA2 对各种文件的压缩率比别的好。PPMd只能单线程，优势是对纯文字的压缩算法加成。字典大小对压缩率没

2024年 5月 12日

红黑树和b树区别_红黑树有什么实际作用

相关推荐