数据库 2023-07-26

Hive数据库：完整表结构汇总 (hive数据库的全部表结构)

Hive数据库是一个基于Hadoop的数据仓库，可以处理大规模的结构化和半结构化数据。在Hive中，使用类似SQL语言的HQL（Hive Query Language）进行查询和操作数据，同时它还提供了自己的JDBC和ODBC驱动程序，可以与各大商业BI软件、ETL工具等进行数据交互。本文将Hive数据库中的完整表结构，包括Hive表、分区表、内部表和外部表。

一、Hive表

Hive表是最基本的表类型，数据存储在Hive的文件系统上，默认是HDFS。Hive表的结构包括表名、列名、数据类型、约束和分隔符等。

① 表名：表名是Hive中区分表的唯一标识符，它由字母、数字和下划线组成，不能以数字开头。

② 列名：列名是表中的字段名称，可以由字母、数字、下划线组成，不能包含特殊字符。

③ 数据类型：Hive支持多种数据类型，包括数值型、字符型、日期型等。

④ 约束：约束用于保护表中的数据完整性，包括主键、外键、唯一性约束等。

⑤ 分隔符：分隔符用于分隔每个字段。默认情况下，Hive使用制表符分隔符。

二、分区表

分区表是在Hive表的基础上按照一个或多个列进行分区的，分区表可以提高查询效率，并减少数据扫描的范围。在分区表中，每个分区都有自己的目录和数据文件。

① 分区列：分区列是指按照哪个列进行分区。可以按照日期、地区等列进行分区，以提高查询效率。

② 分区路径：分区路径指的是每个分区的目录路径，可以是绝对路径或相对路径，也可以是由Hive环境变量定义的路径。

③ 分区数量：分区数量指的是表中分区的个数，数量越多，查询效率越高。

三、内部表

内部表也是基于Hive表的一种类型，区别在于内部表的数据存储在Hive的默认文件系统中，即HDFS。在内部表中，数据和元数据都存储在Hive的内部数据库中。

① 库名：库名指的是内部表所在的库名，每个库都是一个命名空间。

② 表名：表名指的是内部表的名称，必须唯一。

③ 数据存储：内部表的数据存储在Hadoop分布式文件系统中。每张表有它自己的文件目录以及文件。这个表的存储路径可以进行配置。

四、外部表

外部表也是基于Hive表的一种类型，与内部表不同的是，外部表的数据存储在Hive之外的文件系统中，如本地文件系统、Hadoop分布式文件系统等。在外部表中，数据和元数据都存储在Hive的内部数据库中。

① 表名：表名指的是外部表的名称，必须唯一。

② 数据存储：外部表的数据存储在Hadoop分布式文件系统中。这个表的存储路径需要在创建外部表时指定。

③ 分隔符：外部表的分隔符和内部表类似，也是用于分隔每个字段的符号。

：

本文了Hive数据库中的完整表结构，包括Hive表、分区表、内部表和外部表。Hive表是最基本的表类型，分区表可以提高查询效率，内部表的数据存储在Hive的默认文件系统中，而外部表的数据存储在Hive之外的文件系统中。通过对这些表的结构和特点的了解，可以更好地使用Hive处理大规模的结构化和半结构化数据。

相关问题拓展阅读：

hive优化中：好的模型设计事半功倍怎么理解？
hive是怎么建表中用到其他表时怎么用

hive优化中：好的模型设计事半功倍怎么理解？

1 索引

Hive支持索引，但是Hive的索引与关系型数据库中的索引并不相同，比如，Hive不支持主键或者外键。

Hive索引可以建立在表中的某些列上，以提升一些操作的效率，例如减少MapReduce任务中需要读取的数据块的数量。

hive索引的原理是建立索引表，索引表的基本包含几列：1. 源表的索引列；2. _bucketname hdfs中文件地址 3. 索引列在hdfs文件中的偏移量。

原理是通过记录索引列在HDFS中的偏移量，精准获取数据，避免全表扫描。

2 分区

为了对表进行合理的管理以及提高查询效率，Hive可以将表组织成“分区”。

分区是表的部分列的，可以为频繁使用的数据建立分区，这样查找分区中的数据时就不需要扫描全表，这对于提高查找效率很有帮助。

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下，可以通过分区的方法减少每一次扫描总数据量，这种做法可以显著地改善性能。

3 分桶

在分区数量过于庞大以至于可能导致文件系统崩溃时，我们就需要使用分桶来解决问题了蚂梁团。

分区中的数据可以被进一步拆分成桶，不同于分区对列直接进行拆分，桶往往使用列的哈希值对数据打散，并分发到各个不同的桶中从而完成数据的分桶过程。

分区和索引的区别:

分区是直接分割数据库，而索引是建立索引表，需要额外维护索引表

分区和分桶的区别:

分桶，是对列更细粒度的划分，分区是根据某一规则对列进行划分，比如根据日期对列进行划分，由于渣纳程序不同日期产生的数据容量可能，就会造成顶峰和低峰时段，列分区的不均匀闷橘。

分桶hive使用对分桶值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保证了每个桶中都有数据，但每个桶中的数据条数不一定相等，这样保证了数据的均衡。

这时，在大数据量的情况下，查询速率尤为明显，因为分桶数据更加均匀，不会造成单个查询速度过慢的情况。

分区，索引，分桶均可优化数据结构，由于hive就是映射大数据储存仓库的工具，如果不合理优化hive数据表结构，每次查询都全表扫描，速度太慢了，数据越大，全表扫描越费时

hive是怎么建表中用到其他表时怎么用

1.创建表的语句：Create TABLE table_name , …)> , …)> , …)> INTO num_buckets BUCKETS>

稍微解释下

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常。EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCE 。有分区的表可以在创建的时候使用 PARTITIONED BY 语升态句。一个表可以拥有一个或者多个分区，哗带每一个分区单吵芦源独存在一个目录下。而且，表和分区都可以对某个列进行 CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

创建普通的表：create table test_table (id int,name string,no int) row format delimited fields terminated by ‘,’ stored as textfile；

//指定了字段的分隔符为逗号，所以load数据的时候，load的文本也要为逗号，否则加载后为NULL。hive只支持单个字符的分隔符，hive默认的分隔符是\001

创建带有partition的表：create table test_part (id int,name string,no int) partitioned by (dt string) row format delimited fields terminated by ‘\t’ stored as textfile ;

用创建用\t作分隔符的表，PT为分区字段，

加载如下：

load data local inpath ‘/home/zhangxin/hive/test_hive.txt’ overwrite into table test_part partition (dt=”);

//local是本地文件，注意不是你电脑上的文件，是hadoop所在的本地文件

//如果是在hdfs里的文件，则不需要local。 overwrite into是覆盖表分区，仅仅是这个分区的数据内容，如果是追加，则不需要overwrite

创建external表：(外部表)create external table test_external (id int,name string,no int) row format delimited fields terminated by ‘,’ location ‘/home/zhangxin/hive/test_hive.txt’;

//用逗号分隔的表，且无分区， location后是外部表数据的存放路径

hive数据库的全部表结构的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于hive数据库的全部表结构,Hive数据库：完整表结构汇总,hive优化中：好的模型设计事半功倍怎么理解？,hive是怎么建表中用到其他表时怎么用的信息别忘了在本站进行查找喔。

数据运维技术 » Hive数据库：完整表结构汇总 (hive数据库的全部表结构)

分享到：

hive优化中 ：好的模型设计事半功倍 怎么理解？

hive是怎么建表中用到其他表时怎么用

相关推荐

hive优化中：好的模型设计事半功倍怎么理解？