hive的分桶表有什么好处_hive分桶表的应用领域

2024年 5月 23日下午10:21 • 激活谷笔记

hive的分桶表有什么好处_hive分桶表的应用领域Hive分桶表的使用场景以及优缺点分析本篇文章的讲解结构如下：一、什么是数据分桶？二、数据分桶的作用三、如何创建一个分桶表四、对分桶表进行的数据抽样一、什么是数据分桶？我们都知道，Hive是基于Hadoop的一个数据仓库，可将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能

Hive分桶表的使用场景以及优缺点分析
　　本篇文章的讲解结构如下：

　　一、什么是数据分桶？

　　二、数据分桶的作用

　　三、如何创建一个分桶表

　　四、对分桶表进行的数据抽样

　　一、什么是数据分桶？

　　我们都知道，Hive是基于Hadoop的一个数据仓库，可将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。其实，Hive的本质是将HiveSQL语句转化成MapReduce任务执行。

　　Hive中，分区提供了一个隔离数据和优化查询的便利方式，不过并非所有的数据都可形成合理的分区，尤其是需要确定合适大小的分区划分方式(有的数据分区数据过大，有的很少，即我们常说的数据倾斜)

　　我们可以将Hive中的分桶原理理解成MapReduce中的HashPartitioner的原理。都是基于hash值对数据进行分桶。

　　MR：按照key的hash值除以reduceTask个数进行取余(reduce_id = key.hashcode % reduce.num)

　　Hive:按照分桶字段(列)的hash值除以分桶的个数进行取余(bucket_id = column.hashcode % bucket.num)

　　二、数据分桶的作用：

　　2.1 进行抽样

　　在处理大规模数据集时，在开发和修改查询的阶段，可以使用整个数据集的一部分进行抽样测试查询、修改。可以使得开发更高效。

　　2.2 map-side join

　　获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。

　　三、创建分桶表：

　　分桶的实质就是对分桶的字段做了hash 然后存放到对应文件中，所以说如果原有数据没有按key hash ，需要在插入分桶的时候hash，也就是说向分桶表中插入数据的时候必然要执行一次MAPREDUCE，这也就是分桶表的数据基本只能通过从结果集查询插入的方式进行导入。

　　3.1 设置Hive的分桶开关

　　打开Hive客户端，并在会话终端开启Hive分桶的开关：set hive.enforce.bucketing=true;(此设置为临时设置，一旦退出会话终端，再打开就会恢复默认设置false)

　　此开关打开之后，会自动根据bucket个数自动分配Reduce task的个数，Reduce个数与bucket个数一致。(此外，Reduce的个数还可以通过mapred.reduce.tasks进行设置，但是这方法不推荐在Hive分桶中使用)

　　3.2 数据源：

　　3.3 将数据源加载到中间表test中。

　　3.4 查看数据：

　　3.5 建立分桶表(将test表中的数据进行分桶放入分桶表中)

　　3.6 将查询结果返回到分桶表中：

　　3.7 查看是否分桶成功

　　如果分桶成功，因为我们创建的是内部表，所以应该在Hive的数据仓库位置下找到test_bucket文件夹(test_bucket表的HDFS存储目录)，在该文件夹下应该有4个文件夹(一个bucket一个文件)；

　　Hive的位置默认存储在/usr/hive/warehouse下面：

　　四、对分桶表进行的数据抽样

　　从分桶表的建表语句中可知，我们一共分了4个桶，所以我们这里x取1，y取2：一共抽取2(4/2)个桶，从第一个桶开始，每隔2个桶抽取一次，即第一个桶和第三个桶。

　　结果如图所示：

　　个人欢迎：阿誠的数据杂货铺阿誠的数据杂货铺

数组指针和函数指针都是指针变量吗_数组指针和函数指针都是指针变量吗为什么

上一篇 2024年 5月 23日

哈夫曼树的实现代码_哈夫曼树代码

下一篇 2024年 5月 23日

WebStorm激活2023.3.6(WebStorm2023安装教程)

WebStorm激活2023.3.6(WebStorm2023安装教程)

激活谷笔记 2024年 6月 26日
激活谷笔记

bissc协议详解_bissc协议详解如何解码

bissc协议详解_bissc协议详解如何解码基于FPGA的BISS-C协议编码器的解码实现1 概要本文以实际工程为背景，介绍了基于FPGA的BISS-C协议编码器的解码实现，并通过板级验证了解码的正确性。2 功能描述通过FPGA解析编码器发送的BISS-C数据帧格式

2024年 6月 21日
第一章信息技术与计算机文化_计算机科学与技术概念

第一章信息技术与计算机文化_计算机科学与技术概念

激活谷笔记 2024年 6月 28日
Idea2024.1.4激活码(CLion 2024.1 版本永久激活激活成功教程教程，附最新CLion注册码（亲测好用）)

Idea2024.1.4激活码(CLion 2024.1 版本永久激活激活成功教程教程，附最新CLion注册码（亲测好用）)

激活谷笔记 2024年 7月 1日
激活谷笔记

Rider激活2024.1(（2024最新）Rider激活成功教程激活2099年激活码教程（含win+mac）)

Rider激活2024.1(（2024最新）Rider激活成功教程激活2099年激活码教程（含win+mac）)

2024年 6月 12日
激活谷笔记

Rider激活2024.1.3(GO语言编辑工具JetBrains GoLand 2024.1.4 Mac中文免登录版(含M1))

Rider激活2024.1.3(GO语言编辑工具JetBrains GoLand 2024.1.4 Mac中文免登录版(含M1))

2024年 6月 30日
激活谷笔记

DataSpell激活2024.1.1(Jetbrains DataSpell 2024.1.1 macOS » downTURK)

DataSpell激活2024.1.1(Jetbrains DataSpell 2024.1.1 macOS » downTURK)

2024年 6月 14日
汇编语言的指令有哪些

汇编语言的指令有哪些2.8 常用的汇编指令本节必须掌握的知识点：汇编指令多动手实验，知道每个指令的功能在此节之前汇编课程主要讲了两个问题，第一个问题是数据可以存哪？内存和寄存器。第二个问题是这些数据是如何存放的？我们介绍了两种模式：一个是小端存储，一个是大端存储。如果要处理数据，我们就要

激活谷笔记 2024年 5月 17日
激活谷笔记

nginx 启动命令_nginx怎么启动和关闭

nginx 启动命令_nginx怎么启动和关闭运维工程师常见40道面试题1、什么是运维？什么是游戏运维？1）运维是指大型组织已经建立好的网络软硬件的维护，就是要保证业务的上线与运作的正常，在他运转的过程中，对他进行维护，他集合了网络、系统、数据库、开发、安全、监控于一身的技术运维又包括很多种，有DBA运维、网站运维、虚拟化运维、监

2024年 5月 13日
激活谷笔记

DR与BDR的作用及区别

DR与BDR的作用及区别

2024年 6月 20日
激活谷笔记

一阶低通滤波器系统函数_一阶低通滤波器的系统函数

一阶低通滤波器系统函数_一阶低通滤波器的系统函数一阶RC滤波器算法研究概述滤波器设计是一个非常重要的事情，在实际的工程项目设计时通常利用数字滤波代替模拟滤波，但是数字滤波有时候需要很多资源也很难达到仅仅需要一个电容和电阻实现的模拟滤波电路。在实际的数字滤波器设计时基本的滤波算

2024年 5月 28日
激活谷笔记

实景地图三维全景_什么地图能看到实时全景

实景地图三维全景_什么地图能看到实时全景实时街景地图软件有哪些实景地图app大全地图是日常生活当中比较实用的工具，现在众多地图都做了全新的升级，为大家提供实景地图，实景地图可以帮助用户快速找到目的地，合理计划多种路线，避免交通路段。那么实时街景地图软件有

2024年 5月 9日

hive的分桶表有什么好处_hive分桶表的应用领域

相关推荐