hive分区表和分桶表_分区分桶

2024年 8月 7日下午9:02 • 激活谷笔记

hive分区表和分桶表_分区分桶7.5、Hive 分区表和分桶表一、分区表1.1 概念Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的字句的中包含分区

7.5、Hive 分区表和分桶表　　一、分区表　　1.1 概念　　Hive 中的表对应为 HDFS 上的指定目录，在查询数据时候，默认会对全表进行扫描，这样时间和性能的消耗都非常大。分区为 HDFS 上表目录的子目录，数据按照分区存储在子目录中。如果查询的字句的中包含分区条件，则直接从该分区去查找，而不是扫描整个表目录，合理的分区设计可以极大提高查询速度和性能。这里说明一下分区表并 Hive 独有的概念，实际上这个概念非常常见。比如在我们常用的 Oracle 数据库中，当表中的数据量不断增大，查询数据的速度就会下降，这时也可以对表进行分区。表进行分区后，逻辑上表仍然是一张完整的表，只是将表中的数据存放到多个表空间（物理文件上），这样查询数据时，就不必要每次都扫描整张表，从而提升查询性能。　　1.2 使用场景　　通常，在管理大规模数据集的时候都需要进行分区，比如将日志文件按天进行分区，从而保证数据细粒度的划分，使得查询性能得到提升。　　1.3 创建分区表　　在 Hive 中可以使用子句创建分区表。表可以包含一个或多个分区列，程序会为分区列中的每个不同值组合创建单独的数据目录。下面的我们创建一张雇员表作为测试：　　1.4 加载数据到动态分区　　要设置动态插入操作，必须设置动态分区相关参数动态分区参数： hive.exec.dynamic.partition 默认值：false 是否开启动态分区功能，默认false关闭。使用动态分区时候，该参数必须设置成true; hive.exec.dynamic.partition.mode 默认值：strict 动态分区的模式，默认strict，表示必须指定至少一个分区为静态分区，nonstrict模式表示允许所有的分区字段都可以使用动态分区。一般需要设置为nonstrict hive.exec.max.dynamic.partitions.pernode 默认值：100 在每个执行MR的节点上，最大可以创建多少个动态分区。该参数需要根据实际的数据来设定。比如：源数据中包含了一年的数据，即day字段有365个值，那么该参数就需要设置成大于365，如果使用默认值100，则会报错。 hive.exec.max.dynamic.partitions 默认值：1000 在所有执行MR的节点上，最大一共可以创建多少个动态分区。同上参数解释。 hive.exec.max.created.files 默认值：整个MR Job中，最大可以创建多少个HDFS文件。一般默认值足够了，除非你的数据量非常大，需要创建的文件数大于，可根据实际情况加以调整。　　1.5 查看分区目录　　这时候我们直接查看表目录，可以看到表目录下存在两个子目录，分别是和 ,这就是分区目录，分区目录下才是我们加载的数据文件。　　这时候当你的查询语句的包含，则就去对应的分区目录下进行查找，而不用扫描全表。

　　二、分桶表　　1.1 简介　　分区提供了一个隔离数据和优化查询的可行方案，但是并非所有的数据集都可以形成合理的分区，分区的数量也不是越多越好，过多的分区条件可能会导致很多分区上没有数据。同时 Hive 会限制动态分区可以创建的最大分区数，用来避免过多分区文件对文件系统产生负担。鉴于以上原因，Hive 还提供了一种更加细粒度的数据拆分方案：分桶表 (bucket Table)。分桶表会将指定列的值进行哈希散列，并对 bucket（桶数量）取余，然后存储到对应的 bucket（桶）中。　　1.2 理解分桶表　　单从概念上理解分桶表可能会比较晦涩，其实和分区一样，分桶这个概念同样不是 Hive 独有的，对于 Java 开发人员而言，这可能是一个每天都会用到的概念，因为 Hive 中的分桶概念和 Java 数据结构中的 HashMap 的分桶概念是一致的。当调用 HashMap 的 put() 方法存储数据时，程序会先对 key 值调用 hashCode() 方法计算出 hashcode，然后对数组长度取模计算出 index，最后将数据存储在数组 index 位置的链表上，链表达到一定阈值后会转换为红黑树 (JDK1.8+)。下图为 HashMap 的数据结构图：

　　图片引用自：HashMap vs. Hashtable 　　1.3 创建分桶表　　在 Hive 中，我们可以通过指定分桶列，并通过指定桶中数据的排序参考列。下面为分桶表建表语句示例：　　1.4 加载数据到分桶表　　这里直接使用语句向分桶表加载数据，数据时可以加载成功的，但是数据并不会分桶。这是由于分桶的实质是对指定字段做了 hash 散列然后存放到对应文件中，这意味着向分桶表中插入数据是必然要通过 MapReduce，且 Reducer 的数量必须等于分桶的数量。由于以上原因，分桶表的数据通常只能使用 CTAS(CREATE TABLE AS SELECT) 方式插入，因为 CTAS 操作会触发 MapReduce。加载数据步骤如下：1. 设置强制分桶　　在 Hive 0.x and 1.x 版本，必须使用设置，表示强制分桶，允许程序根据表结构自动选择正确数量的 Reducer 和 cluster by column 来进行分桶。2. CTAS导入数据　　可以从执行日志看到 CTAS 触发 MapReduce 操作，且 Reducer 数量和建表时候指定 bucket 数量一致：

　　1.5 查看分桶文件　　bucket(桶) 本质上就是表目录下的具体文件：

　　三、分区表和分桶表结合使用　　分区表和分桶表的本质都是将数据按照不同粒度进行拆分，从而使得在查询时候不必扫描全表，只需要扫描对应的分区或分桶，从而提升查询效率。两者可以结合起来使用，从而保证表数据在不同粒度上都能得到合理的拆分。下面是 Hive 官方给出的示例：　　此时导入数据时需要指定分区：　　四、hive分区表增加字段会导致新增字段无法显示值的BUG处理　　一、问题重现　　1.建表　　2.建分区及上传数据　　3.新增字段　　4.查询新增字段前的分区数据新增字段全部为NULL 　　二、解决办法　　方法一：　　注意：DDL语句最后添加CASCADE。否则新增的列在旧分区中不可见，查询数据时为NULL，重新刷数据时仍为NULL 　　方法二：　　1.查数据库中对应表的CD_ID 　　2.查看表所有分区的CD_ID 　　说明：经查询会发现，CD_ID新值为14784，历史分区CD_ID为.更新历史分区的CD_ID 　　方法三：修改表　　先drop 表在重新建表再添加分区或者对需要生效的分区也执行添加或者修改字段的操作，比如：alter table tablename partition(year=’2017′) add columns(name STRING ); 　　参考资料　　LanguageManual DDL BucketedTables

移位操作是什么完成的_移位机使用方法

上一篇 2024年 8月 7日

python的parse函数_java中long的用法

下一篇 2024年 8月 7日

Idea激活2023.2.2(无需账号登录、密钥授权激活：IntelliJ IDEA 2023.2.2汉化版支持M1)

Idea激活2023.2.2(无需账号登录、密钥授权激活：IntelliJ IDEA 2023.2.2汉化版支持M1)

激活谷笔记 2024年 6月 26日
激活谷笔记

PyCharm激活2022.3(pycharm pro 2022 for mac(Python编辑开发)v2022.3.3中文激活版)

PyCharm激活2022.3(pycharm pro 2022 for mac(Python编辑开发)v2022.3.3中文激活版)

2024年 8月 1日
化学中bpo是什么_ppo材料物性表

化学中bpo是什么_ppo材料物性表BPO（过氧化苯）——化学反应中的温和巨人在化学的广阔舞台上，存在着一种名为过氧化苯（Benzoyl Peroxide，简称BPO）的化合物。它以其稳定的分子结构与独特的反应特性，在化工生产中扮演着不可或缺的角色。BPO通常呈现为白色结晶性粉末，不仅外观朴素无华，其内在的化学性质更是蕴含了深远的意义

激活谷笔记 2024年 9月 7日
激活谷笔记

计算机的组成框架是什么?_计算机框架图

计算机的组成框架是什么?_计算机框架图计算机二级公共基础知识汇总，小可爱们请查收🌝🌝一、计算机系统结构2023版大纲要求1.1 计算机硬件系统结构1.1.1 中央处理器（CPU）功能：执行指令、处理数据。组成：控制单（Control Unit，CU）：控制计算机系统中的数据流和指令流，协

2024年 8月 4日
Idea激活2022.1.2(关于解决Intellij IDEA2022.1.2中文乱码问题)

Idea激活2022.1.2(关于解决Intellij IDEA2022.1.2中文乱码问题)

激活谷笔记 2024年 8月 1日
激活谷笔记

Goland2024.1.4激活码(GoLand2024.1.2最新版免费激活成功教程激活码及激活工具安装教程，永久有效，亲测靠谱)

Goland2024.1.4激活码(GoLand2024.1.2最新版免费激活成功教程激活码及激活工具安装教程，永久有效，亲测靠谱)

2024年 7月 1日
激活谷笔记

字符指针数组的初始化步骤_字符指针数组的初始化步骤是

字符指针数组的初始化步骤_字符指针数组的初始化步骤是王道笔记C-day21-字符指针与字符数组的初始化回顾上节课内容：虽然前面，讲了很多的一级指针但是我们练习的场景，指针与后++的关系。还有指针要申请空间，申请空间，就是在堆空间申请偏移，来放置数据。当我们讲排序的时候，我们就会使用malloc来申请堆空间，然后放入整数。puts(c)与puts(p

2024年 5月 20日
激活谷笔记

malloc 实现_malloc实现原理

malloc 实现_malloc实现原理malloc 的实现涉及物理内存，虚拟内存？malloc返回返回请求大小的连续内存空间，如果申请失败，返回错误。malloc的实现跟物理内存有关系吗？涉及虚拟内存吗？为什么存在动态内存分配在之前我们都是这样开辟空间的：int i = 20

2024年 5月 21日
Navicat Premium 16.3.9激活(Navicat 16 for MySql 16.2.10 注册表无限试用)

Navicat Premium 16.3.9激活(Navicat 16 for MySql 16.2.10 注册表无限试用)

激活谷笔记 2024年 8月 18日
激活谷笔记

Idea2024.1.4激活码(IntelliJ IDEA 2024.1.4 社区版官方中文正式版(附汉化包+安装方法))

Idea2024.1.4激活码(IntelliJ IDEA 2024.1.4 社区版官方中文正式版(附汉化包+安装方法))

2024年 7月 6日
Idea激活2023.1.4(IntelliJ IDEA 2023.1永久激活方法)

Idea激活2023.1.4(IntelliJ IDEA 2023.1永久激活方法)

激活谷笔记 2024年 7月 21日
pycharm有啥用_pycharm arm版有什么不一样

pycharm有啥用_pycharm arm版有什么不一样python.exe与pycharm的区别您好！对于您的问题，可能有以下几个解决方法：1. 检查 Python 安装路径：请确保您的 Python 安装路径正确且完整。您提到的路径是 'C:U

激活谷笔记 2024年 5月 15日

hive分区表和分桶表_分区分桶

相关推荐