红黑树实际应用_红黑树实现

2024年 8月 7日下午10:20 • 激活谷笔记

红黑树实际应用_红黑树实现面试常考数据结构：红黑树、B树、B+树各自适用的场景1. 磁盘基础知识分页：现代操作系统都使用虚拟内存来印射到物理内存，内存大小有限且价格昂贵，所以数据的持久化是在磁盘上。虚拟内存、物理内存、磁盘都使用页作为内存读取的最小单位。一般一页为4KB（8个扇区，每个扇区512B，8*512

面试常考数据结构：红黑树、B树、B+树各自适用的场景　　1. 磁盘基础知识　　分页：　　现代操作系统都使用虚拟内存来印射到物理内存，内存大小有限且价格昂贵，所以数据的持久化是在磁盘上。虚拟内存、物理内存、磁盘都使用页作为内存读取的最小单位。一般一页为4KB（8个扇区，每个扇区512B，8*512B=4KB）。局部性原理：当一个数据被用到时，其附近的数据也通常会马上被使用。程序运行期间所需要的数据通常比较集中。磁盘预读原理：　　磁盘读取依靠的是机械运动，分为寻道时间、旋转延迟、传输时间三个部分，这三个部分耗时相加就是一次磁盘IO的时间，大概 9ms 左右。这个成本是访问内存的十万倍左右；　　磁盘读取的速度远小于内存，所以尽量减少 I/O 次数是提高效率的关键。　　根据局部性原理，且由于磁盘顺序读取的效率很高（不需要寻道时间，只需很少的旋转时间），所以即使只需要读取一个字节，磁盘也会读取一页的数据。即磁盘预读时通常会读取页的整倍数。　　2. 树基础知识回顾　　排序二叉树：左 < 跟 < 右B 树：有序数组 + 多叉平衡树，节点存储关键字、数据、指针；B+ 树：有序数组链表 + 多叉平衡树，非叶子节点存储指针、关键字，不存储数据；红黑树：红黑树是一种不大严格的平衡树（平衡树要求太高）平衡树是为了防止二叉查找树退化为链表，而红黑树在维持平衡以确保 O(log2(n)) 的同时，不需要频繁着调整树的结构；　　二叉树的存储结构顺序存储（适用于完全二叉树）

　　index 之间的对应关系：

　　注意：二叉树的顺序存储只适合存储完全二叉树，否则 index 无法和节点对应起来，会有点恶心：

链式存储

这里要好好理解一下，不然会影响后面的理解。　　相关视频推荐　　4种红黑树的使用场景，从linux内核到应用开发（epoll、sk_buff、虚拟内存管理、nginx流量监控）　　90分钟搞定红黑树应用　　后端开发必学4种层式结构：B+/B-树、时间轮、跳表、LSM-Tree 　　免费学习地址：c/c++ linux服务器开发/后台架构师　　需要C/C++ Linux服务器架构师学习资料加qun（资料包括C/C++，Linux，golang技术，Nginx，ZeroMQ，MySQL，Redis，fastdfs，MongoDB，ZK，流媒体，CDN，P2P，K8S，Docker，TCP/IP，协程，DPDK，ffmpeg等），免费分享

　　3. 为什么不能使用二叉树来存储数据库索引　　先说结论：平衡二叉树进行插入/删除时，大概率需要通过左旋/右旋来维持平衡；旋转需要加载整个树，频繁旋转效率低；二叉树的 I/O 次数近似为 O(log2(n))；范围查询时，二叉树的时间复杂度会退化成 O(n)；二叉树退化成链表时，时间复杂度也近似退化成了 O(n)；二叉树无法使用磁盘预读功能；　　其实单论范围查询，在关系型数据库中就基本没有使用二叉树的可能了。但是为了加深对知识的了解，来看看其他的原因。　　先剔除掉范围查询的情况，原因 1、2、6 可以通过红黑树来解决，那么其实就剩下 2 个原因：I/O 次数对比；磁盘预读功能的利用；　　4. 二叉树的 I/O 次数分析　　先说 I/O 次数：　　其实相比于二叉树，B 树、B+树， CPU 的运算次数并没有变化，甚至增多。但是 CPU 运算次数相比于 I/O 的消耗而言，可以忽略不计，所以 I/O 次数是评价一个数据库索引的效率高低的关键指标。　　对于红黑树而言，其 I/O 次数近似为 log2(n)，为什么是近似呢？　　首先，索引是存储在磁盘上的，磁盘上的数据大部分情况下是连续的，但是随着增删改查的发生，有可能产生很多碎片，也就是说：索引在磁盘上的存储也不一定是连续的；　　这里，严谨起见，我们来分两种情况：索引节点，即树的节点在磁盘上存储是连续；　　假设一个页能存储 5 个节点，假设二叉树如下：

注意，序号只代表在磁盘中存储的顺序，不代表对应节点的关键字的值；　　二叉树可能是链式存储，也可能是顺序存储。但是这里假设节点在磁盘上的存储是连续的，所以这里可以近似理解成顺序存储。即使是链式存储，无非就是 pNext 指针指向下一个连续的内存地址而已。　　现在假设搜索的结果是最左边的叶子节点 16，因为磁盘预读的特性，加上一个页能存储 5 个节点，第一次 I/O ：

　　如上，第一次 I/O 就读取了 5 个节点，不仅把根节点读取进内存了，还把节点 2 和 4 都读取进去了，看上去还节约了两次 I/O ？好厉害的样子…… 　　此时，会根据二分法查找，对比 1 号节点然后去找节点 2，紧接着找节点 4，因为这两个节点都在内存中了，所以不需要进行 I/O这里再说一次，序号不代表节点的关键字，而是单纯的表示节点在磁盘中的排列顺序；　　紧接着，会需要 8 号节点，而 8 不再内存中，所以进行第二次 I/O 同样是读取一页，即 5 个节点：

　　这次虽然也是读取了 5 个节点，但是实际上只有 8 号节点有实际作用，其他节点并没什么卵用（这是二叉树无法使用预读功能的本质），但是现在还没体现出劣势，现在对比之后需要 16 号节点，继续第三次读取：

　　此时找到了 16，并将结果返回。　　这是高度为 4 的情况，且只有 31 个数据。但是实际使用中，怎么可能就 31 个数据？假设要找的是 32 号节点，因为 16 号节点之后的 17-20 虽然被加载进内存了，但是完全没用。那么就需要再进行一次 I/O 来加载 32 号节点所在的页，同时也会将 33-36 加载进内存，但是这些节点并无卵用。　　如果要找的是 1000 ，10000？　　所以，随着层级的深入，会出现：一个页中只有一个节点有用（二分法查找要的是子节点而不是兄弟节点）；I/O 次数近似等于log2(n)；　　即：第一次 I/O 可能的优势在层级加深之后就没有了；就算是红黑树，也只能将时间复杂度维持在 log2(n)；　　上述讨论的是索引树在磁盘上的存储是连续的，如果不是连续的，那么按页读取到的脏数据会更多，上述的情况中，前几次 I/O 读取到有用的数据的概率会变低，所以 I/O 的次数只会增多而不会减少,即仍然是近似于 log2(n)。　　5. B/B+树　　B 树即：多路平衡查找树；　　B 树的巧妙之处在于：将一个节点的大小设置为一页的大小；一个节点可以存放多个关键字（多叉树）；自平衡；　　这 3 点结合起来就可以做到：一个节点大小为一页，被加载进内存时，这些关键字在进行对比，找出需要 leftChild 还是 rightChild 时，都是有用的（如最右侧时需要对比所有节点）；一个节点可以存储多个关键字，有效降低了树的高度；　　B+ 树的巧妙之处在于：非叶子节点不存储数据，进一步增大了一页中存储关键字的数量；叶子节点中存储数据且存在指向下一页的链表指针，可以使用顺序查询（支持范围查询）；　　6. B/B+树的索引数量　　B 树的节点中存储：指针、关键字(主键)、数据B+ 树的非叶子节点：指针、关键字B+树的叶子节点：指针(链表)、关键字、数据注意，这里不是绝对的，比如有的 B+ 树中叶子节点存储的不是数据，而是指向数据的指针。查询到指针之后再去对应地址取出数据，但是这样应该会增加一次 I/O 吧，应该也是在数据量和 I/O 次数之间做了取舍，具体先不讨论。　　以 Sqlite3.12 之后为例，page_size = 16k，假设指针为 8 byte，假设关键字类型占 8 byte，假设数据占 1 KB；　　B 树的一个节点：

　　一页能存储的数据量为：16kb / (1KB+8byte+8byte) ≈ 16；　　高度为 3 的 B 树能存储 16 x16 x16 = 4096 条数据　　相比于二叉树的 1 个而言，确实有效降低了树的层级。而且上述是假设数据为 1KB，如果数据没那么大，高度为 3 的 B 树能存储更多的数据，但是如果用在大型数据库索引上还是不够。　　B+ 树：

　　如上图，B+树的核心在于非叶子节点不存储数据。　　这样做可以减少非叶子结点占用的空间，增大一页所能存储的数据量，最大程度减少树的层级。　　仍然是以上假设，假如树的高度为 3 ，那么就有两层存储关键字+指针，一层叶子节点来存储实际数据。　　一页能存储的关键字为：16 * 1024 / (8 + 8) = 1024一页能存储的数据量为：16KB / (1KB + 8byte + 8byte) = 16（这里计算不完全准确，实际情况应该是1页数据中只有一个链表指针指向下一页）能存储的关键字为：1024 * 1024 = ；　　因为端节点又有 1024 个指针，这些指针可以指向一个页，页中存储数据，也就是叶子节点，一页能存储 16 个叶子节点，所以总共能索引的数据量为 * 16 ≈ 1600万；如果高度为 4 ，则再乘以 1024 约为 17亿….. 　　上述推理中，理解终端节点的指针指向一个页，页中存储着关键字 + 数据 + 链表指针是关键。page 标记如下，有助理解：

虽然叶子节点很多，一个 page 对应一个叶子节点甚至是多个 page 才能存下一个叶子节点，但是这些是存在磁盘上的，找到对应的 page 之后才去加载对应的 page。索引超大数据量的同时，不会对 I/O 次数产生影响，这就是这个设计的牛逼之处。　　但是这样也是有缺点的：　　无论查询结果如何，都必须走到叶子节点才结束，也就是 I/O 次数固定为 O(h) 或者说是 log(n)（底数为节点子分支个数），这个 h 一般为 2-3，排除掉根节点常驻内存，高度为 3 的 B+ 树进行两次 I/O 就可以索引千万级别的数据,高度为 4 的 B+ 树，进行 3 次 I/O 就能索引十亿级别的数据量，这个效果还是很好的。　　所以，这个缺点也可以说成是优点：稳定（稳如一条老狗）　　7. 实际应用　　红黑树优点　　红黑树常用于存储内存中的有序数据，增删很快，内存存储不涉及 I/O 操作。B/B+树的优点　　更适合磁盘存储，减少了树的层级，进而减少 I/O 次数；B 树和 B+ 树对比　　都是 B 树，但是 B+树更适合范围查询，比如 Mysql，且查询次数很稳定，为 logn。而 B 树更适合键值对型的聚合数据库，比如 MongoDB，查询次数最优为 O(1)；红黑树更适合内存存储，B 树更适合键值对存储，B+ 树适合范围查询；

substancepainter渲染设置_RedShift渲染

上一篇 2024年 8月 7日下午10:18

uefi bios setting怎么设置硬盘启动项_开机一直跳出uefi bios

下一篇 2024年 8月 7日下午10:21

PhpStorm2024.1.5激活码(mathtype 7永久激活码密钥及2024最新序列号附安装教程)

PhpStorm2024.1.5激活码(mathtype 7永久激活码密钥及2024最新序列号附安装教程)

激活谷笔记 2024年 8月 12日
栈的括号匹配算法程序_数据结构括号匹配算法

栈的括号匹配算法程序_数据结构括号匹配算法栈在括号匹配中的应用(栈/链栈纯C实现)括号匹配问题是栈的一个典型应用。具体实现如下：1. 遍历字符串中的每一个字符。2. 如果当前字符是左括号（即 (、{、[），则将其压入栈中。3. 如果当前字符是右括号（即 )、}、]），则

激活谷笔记 2024年 7月 27日
Idea激活2023.3.5(IntelliJ IDEA 2023.3.4创建JavaWeb应用和集成Tomcat服务器)

Idea激活2023.3.5(IntelliJ IDEA 2023.3.4创建JavaWeb应用和集成Tomcat服务器)

激活谷笔记 2024年 7月 21日
激活谷笔记

为什么打开不了gpedit.msc_为什么打开不了app store

为什么打开不了gpedit.msc_为什么打开不了app storegpedit.msc打不开怎么解决解决方法：1、将系统升级到支持组策略编辑器的版本；2、重新安装组策略编辑器；3、修改用户权限，并以管理员身份打开组策略编辑器；4、使用系统文件检查工具来修复损坏的系统文件。当你尝试打开gpedit.ms

2024年 5月 29日
win10家庭版找不到gpedit.msc怎么打开策略编辑器_win10家庭版找不到gpedit.msc,怎么办？

win10家庭版找不到gpedit.msc怎么打开策略编辑器_win10家庭版找不到gpedit.msc,怎么办？Win10家庭版gpedit.msc找不到怎么处理【详细教程】最近有Win10家庭版用户反映，自己要用组策略的时候才发现Win10家庭版找不到gpedit.msc，用户不知道该怎么办，为此非常苦恼。其实，W

激活谷笔记 2024年 5月 29日
激活谷笔记

ble5.0传输速率_蓝牙5.0传输距离和范围

ble5.0传输速率_蓝牙5.0传输距离和范围BLE 5.0 对比BLE 4.2 有哪些具体的区别与升级点呢？蓝牙5.0是由蓝牙技术联盟在2016年提出的蓝牙技术标准，蓝牙5.0针对低功耗设备速度有相应提升和优化，蓝牙5.0结合wifi对室内位置进行辅助定位，提高传输速度，增加有效工作距离。与蓝牙4.2版本相比，蓝牙5.0

2024年 9月 8日
malloc,realloc,calloc的区别_const和define的区别

malloc,realloc,calloc的区别_const和define的区别malloc calloc realloc 等六个内存分配函数的总结malloc:分别由两个系统调用完成：brk和mmap1、brk是将数据段(.data)的最高地址指针_edata往高地址推；2、m

激活谷笔记 2024年 8月 2日
激活谷笔记

Navicat Premium 16.1.5激活(Navicat Premium 16、17 激活成功教程版激活详细教程（注册机无需断网亲测有效）)

Navicat Premium 16.1.5激活(Navicat Premium 16、17 激活成功教程版激活详细教程（注册机无需断网亲测有效）)

2024年 8月 23日
激活谷笔记

Navicat Premium 16.2.7激活(navicat premium 16mac版)

Navicat Premium 16.2.7激活(navicat premium 16mac版)

2024年 8月 24日
激活谷笔记

Navicat Premium 15.0.33激活(Navicat Premium 15 安装与激活)

Navicat Premium 15.0.33激活(Navicat Premium 15 安装与激活)

2024年 8月 24日
激活谷笔记

l298n ena怎么接_l298nena怎么接

l298n ena怎么接_l298nena怎么接手把手教你打造智能小车（3）-小车跑起来1. 配件列表下面这些配件是制作小车需要的东西，直接到网上购买，某宝上都有，就不给链接了，免得有做广告的嫌疑。 LED灯，数量不限，最好5个以上吧，怕烧坏的话就多备几个，反正不

2024年 5月 28日
激活谷笔记

WebStorm2024.1.5激活码(【独】关于JetBrains 2024.1“全行代码补全”新特性必知必会，解开你的困惑！)

WebStorm2024.1.5激活码(【独】关于JetBrains 2024.1“全行代码补全”新特性必知必会，解开你的困惑！)

2024年 7月 5日

红黑树实际应用_红黑树实现

相关推荐