分区与分桶的区别_分区和分桶的区别

2024年 5月 24日下午11:02 • 激活谷笔记

分区与分桶的区别_分区和分桶的区别大数据面试题：Hive分区和分桶的区别面试题来源：《大数据面试题 V4.0》大数据面试题V3.0，523道题，679页，46w字可回答：Hive分区和分桶的逻辑问过的一些公司：字节，小米，阿里云社招，京东x2，猿辅导，竞技世界，美团，抖音参考答案：1、定义上分区Hive的分区使用HDFS的子目录

大数据面试题：Hive分区和分桶的区别
　　面试题来源：《大数据面试题 V4.0》大数据面试题V3.0，523道题，679页，46w字

　　可回答：Hive分区和分桶的逻辑

　　问过的一些公司：字节，小米，阿里云社招，京东x2，猿辅导，竞技世界，美团，抖音

　　参考答案：

　　1、定义上

　　分区Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值。Hive的分区方式：由于Hive实际是存储在HDFS上的抽象，Hive的一个分区名对应一个目录名，子分区名就是子目录名，并不是一个实际字段。所以可以这样理解，当我们在插入数据的时候指定分区，其实就是新建一个目录或者子目录，或者在原有的目录上添加数据文件。

　　注意：partitned by子句中定义的列是表中正式的列（分区列），但是数据文件内并不包含这些列。

　　分桶：分桶表是在表或者分区表的基础上，进一步对表进行组织，Hive使用对分桶所用的值；进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等。

　　注意：

　　创建分区表时：可以使用distribute by(sno) sort by(sno asc) 或是使用clustered by(字段)当排序和分桶的字段相同的时候使用cluster by，就等同于分桶+排序(sort)

　　2、数据类型上

　　分桶随机分割数据库，分区是非随机分割数据库。因为分桶是按照列的哈希函数进行分割的，相对比较平均；而分区是按照列的值来进行分割的，容易造成数据倾斜。

　　分桶是对应不同的文件（细粒度），分区是对应不同的文件夹（粗粒度）。桶是更为细粒度的数据范围划分，分桶的比分区获得更高的查询处理效率，使取样更高效。

　　注意：普通表（外部表、内部表）、分区表这三个都是对应HDFS上的目录，桶表对应是目录里的文件。

2024最新激活全家桶教程，稳定运行到2099年，请移步至置顶文章：https://sigusoft.com/99576.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。文章由激活谷谷主-小谷整理,转载请注明出处：https://sigusoft.com/95383.html

赞 (0)

0

win10gpedit.msc找不到文件怎么办_win10gpedit.msc 找不到文件

上一篇 2024年 5月 24日下午10:42

二叉搜索树和二叉排序树和平衡二叉树_二叉搜索树和二叉排序树和平衡二叉树的关系

下一篇 2024年 5月 24日下午11:06

激活谷笔记

RubyMine激活2023.1.5(JetBrains WebStorm 2024.1.3 永久激活版)

RubyMine激活2023.1.5(JetBrains WebStorm 2024.1.3 永久激活版)

2024年 6月 19日
激活谷笔记

WebStorm激活2024.1(webstorm激活成功教程激活2024最新永久激活码教程(含win+mac))

WebStorm激活2024.1(webstorm激活成功教程激活2024最新永久激活码教程(含win+mac))

2024年 6月 14日
激活谷笔记

WebStorm2024.1.5激活码(WebStorm 2024 for Mac v2024.1.5 JavaScript开发工具激活版下载)

WebStorm2024.1.5激活码(WebStorm 2024 for Mac v2024.1.5 JavaScript开发工具激活版下载)

2024年 7月 2日
激活谷笔记

Idea激活2023.2.5(Webstorm最新版2023.2.2激活教程亲测有效)

Idea激活2023.2.5(Webstorm最新版2023.2.2激活教程亲测有效)

2024年 6月 23日
激活谷笔记

DataSpell激活2024.1.1(IDEA最新2024.1版本震撼来袭，手把手教你激活！)

DataSpell激活2024.1.1(IDEA最新2024.1版本震撼来袭，手把手教你激活！)

2024年 6月 14日
激活谷笔记

Goland2024.1.2激活码(Goland2024.1.3最新激活成功教程激活2099年安装教程（含win+mac-激活码+工具）)

Goland2024.1.2激活码(Goland2024.1.3最新激活成功教程激活2099年安装教程（含win+mac-激活码+工具）)

2024年 7月 1日
激活谷笔记

html中单标记有_html标记中单标记

html中单标记有_html标记中单标记html中的单标记是什么意思在html中，单标记指的是没有闭合标记的标记（没有结束标记），是在开始标记中关闭的，即空标签；它们不存在成对的情况，在单标记上使用闭合标记是无效的。常见的单标记有：br、hr、img、input、link、meta等。本教程操作环境：windows7

2024年 6月 2日
激活谷笔记

Goland激活2023.1.6(JetBrains GoLand 2024(GO语言集成开发工具环境) v2024.1.3中文激活版)

Goland激活2023.1.6(JetBrains GoLand 2024(GO语言集成开发工具环境) v2024.1.3中文激活版)

2024年 6月 28日
激活谷笔记

PhpStorm激活2024.1(PhpStorm 2024.1.1 最新激活成功教程版安装教程（附激活码，亲测有效）)

PhpStorm激活2024.1(PhpStorm 2024.1.1 最新激活成功教程版安装教程（附激活码，亲测有效）)

2024年 6月 15日
激活谷笔记

DataSpell激活2024.1.1(DataGrip 2024.1.3 最新激活码,激活成功教程版安装教程（亲测有效~）)

DataSpell激活2024.1.1(DataGrip 2024.1.3 最新激活码,激活成功教程版安装教程（亲测有效~）)

2024年 6月 8日
密码学基础知识_密码学基础知识点总结

密码学基础知识_密码学基础知识点总结密码学基础知识一、安全原则信息安全三要素（CIA）：机密性（confidential）、完整性（integrality）、可用性（availability）机密性机密性是指保证信息不被非授权访问，即使非授权用户得到信息也无法知晓

激活谷笔记 2024年 5月 27日
激活谷笔记

DataSpell激活2023.2.5(JetBrains 编程工具已准备好更新至 2023.2)

DataSpell激活2023.2.5(JetBrains 编程工具已准备好更新至 2023.2)

2024年 6月 23日

关注微信