Hive数据库:完整表结构汇总 (hive数据库的全部表结构)

Hive数据库是一个基于Hadoop的数据仓库,可以处理大规模的结构化和半结构化数据。在Hive中,使用类似SQL语言的HQL(Hive Query Language)进行查询和操作数据,同时它还提供了自己的JDBC和ODBC驱动程序,可以与各大商业BI软件、ETL工具等进行数据交互。本文将Hive数据库中的完整表结构,包括Hive表、分区表、内部表和外部表。

一、Hive表

Hive表是最基本的表类型,数据存储在Hive的文件系统上,默认是HDFS。Hive表的结构包括表名、列名、数据类型、约束和分隔符等。

① 表名:表名是Hive中区分表的唯一标识符,它由字母、数字和下划线组成,不能以数字开头。

② 列名:列名是表中的字段名称,可以由字母、数字、下划线组成,不能包含特殊字符。

③ 数据类型:Hive支持多种数据类型,包括数值型、字符型、日期型等。

④ 约束:约束用于保护表中的数据完整性,包括主键、外键、唯一性约束等。

⑤ 分隔符:分隔符用于分隔每个字段。默认情况下,Hive使用制表符分隔符。

二、分区表

分区表是在Hive表的基础上按照一个或多个列进行分区的,分区表可以提高查询效率,并减少数据扫描的范围。在分区表中,每个分区都有自己的目录和数据文件。

① 分区列:分区列是指按照哪个列进行分区。可以按照日期、地区等列进行分区,以提高查询效率。

② 分区路径:分区路径指的是每个分区的目录路径,可以是绝对路径或相对路径,也可以是由Hive环境变量定义的路径。

③ 分区数量:分区数量指的是表中分区的个数,数量越多,查询效率越高。

三、内部表

内部表也是基于Hive表的一种类型,区别在于内部表的数据存储在Hive的默认文件系统中,即HDFS。在内部表中,数据和元数据都存储在Hive的内部数据库中。

① 库名:库名指的是内部表所在的库名,每个库都是一个命名空间。

② 表名:表名指的是内部表的名称,必须唯一。

③ 数据存储:内部表的数据存储在Hadoop分布式文件系统中。每张表有它自己的文件目录以及文件。这个表的存储路径可以进行配置。

四、外部表

外部表也是基于Hive表的一种类型,与内部表不同的是,外部表的数据存储在Hive之外的文件系统中,如本地文件系统、Hadoop分布式文件系统等。在外部表中,数据和元数据都存储在Hive的内部数据库中。

① 表名:表名指的是外部表的名称,必须唯一。

② 数据存储:外部表的数据存储在Hadoop分布式文件系统中。这个表的存储路径需要在创建外部表时指定。

③ 分隔符:外部表的分隔符和内部表类似,也是用于分隔每个字段的符号。

本文了Hive数据库中的完整表结构,包括Hive表、分区表、内部表和外部表。Hive表是最基本的表类型,分区表可以提高查询效率,内部表的数据存储在Hive的默认文件系统中,而外部表的数据存储在Hive之外的文件系统中。通过对这些表的结构和特点的了解,可以更好地使用Hive处理大规模的结构化和半结构化数据。

相关问题拓展阅读:

hive优化中 :好的模型设计事半功倍 怎么理解?

1 索引

Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。

Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。

hive索引的原理是建立索引表,索引表的基本包含几列:1. 源表的索引列;2. _bucketname hdfs中文件地址 3. 索引列在hdfs文件中的偏移量。

原理是通过记录索引列在HDFS中的偏移量,精准获取数据,避免全表扫描。

2 分区

为了对表进行合理的管理以及提高查询效率,Hive可以将表组织成“分区”。

分区是表的部分列的,可以为频繁使用的数据建立分区,这样查找分区中的数据时就不需要扫描全表,这对于提高查找效率很有帮助。

庞大的数据集可能需要耗费大量的时间去处理。在许多场景下,可以通过分区的方法减少每一次扫描总数据量,这种做法可以显著地改善性能。

3 分桶

在分区数量过于庞大以至于可能导致文件系统崩溃时,我们就需要使用分桶来解决问题了蚂梁团。

分区中的数据可以被进一步拆分成桶,不同于分区对列直接进行拆分,桶往往使用列的哈希值对数据打散,并分发到各个不同的桶中从而完成数据的分桶过程。

分区和索引的区别:

分区是直接分割数据库,而索引是建立索引表,需要额外维护索引表

分区和分桶的区别:

分桶,是对列更细粒度的划分,分区是根据某一规则对列进行划分,比如根据日期对列进行划分,由于渣纳程序不同日期产生的数据容量可能,就会造成顶峰和低峰时段,列分区的不均匀闷橘。

分桶hive使用对分桶值进行hash,并用hash结果除以桶的个数做取余运算的方式来分桶,保证了每个桶中都有数据,但每个桶中的数据条数不一定相等,这样保证了数据的均衡。

这时,在大数据量的情况下,查询速率尤为明显,因为分桶数据更加均匀,不会造成单个查询速度过慢的情况。

分区,索引,分桶均可优化数据结构,由于hive就是映射大数据储存仓库的工具,如果不合理优化hive数据表结构,每次查询都全表扫描,速度太慢了,数据越大,全表扫描越费时

hive是怎么建表中用到其他表时怎么用

1.创建表的语句:Create TABLE table_name , …)> , …)> , …)> INTO num_buckets BUCKETS>

稍微解释下

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常。EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION),Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数 据会被一起删除,而外部表只删除元数据,不删除数据。如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE 。有 分区的表可以在创建的时候使用 PARTITIONED BY 语升态句。一个表可以拥有一个或者多个分区,哗带每一个分区单吵芦源独存在一个目录下。而且,表和分区都可以对某个列进行 CLUSTERED BY 操作,将若干个列放入一个桶(bucket)中。也可以利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。

创建普通的表:create table test_table (id int,name string,no int) row format delimited fields terminated by ‘,’ stored as textfile;

//指定了字段的分隔符为逗号,所以load数据的时候,load的文本也要为逗号,否则加载后为NULL。hive只支持单个字符的分隔符,hive默认的分隔符是\001

创建带有partition的表:create table test_part (id int,name string,no int) partitioned by (dt string) row format delimited fields terminated by ‘\t’ stored as textfile ;

用创建用\t作分隔符的表,PT为分区字段,

加载如下:

load data local inpath ‘/home/zhangxin/hive/test_hive.txt’ overwrite into table test_part partition (dt=”);

//local是本地文件,注意不是你电脑上的文件,是hadoop所在的本地文件

//如果是在hdfs里的文件,则不需要local。 overwrite into是覆盖表分区,仅仅是这个分区的数据内容,如果是追加,则不需要overwrite

创建external表:(外部表)create external table test_external (id int,name string,no int) row format delimited fields terminated by ‘,’ location ‘/home/zhangxin/hive/test_hive.txt’;

//用逗号分隔的表,且无分区, location后是外部表数据的存放路径

hive数据库的全部表结构的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于hive数据库的全部表结构,Hive数据库:完整表结构汇总,hive优化中 :好的模型设计事半功倍 怎么理解?,hive是怎么建表中用到其他表时怎么用的信息别忘了在本站进行查找喔。


数据运维技术 » Hive数据库:完整表结构汇总 (hive数据库的全部表结构)