「深入浅出」Oracle数据库分区Hash原理和实现 (oracle数据库分区hash)

深入浅出:Oracle数据库分区Hash原理和实现

引言

Oracle数据库是广受欢迎和广泛使用的数据库软件之一。作为企业级数据库,它支持分区功能,让用户可以更高效地管理和查询数据。而分区方式又有多种,其中之一是Hash分区。本文将深入浅出地介绍Oracle数据库Hash分区的原理和实现。

一、Hash分区的定义

Hash分区是一种将表数据分散到指定数量的分区中的分区方式。分散的过程是由一个Hash函数完成的,该函数根据用户选择的分区键值计算得到每个分区的名称及其对应的范围。每条记录会通过Hash函数计算后分散到对应的分区中,如果分区中数据量过大,可以通过增加分区数量来达到更好的性能。

二、Hash分区的实现

1.创建分区表

首先需要创建一个分区表,指定分区键及其数据类型。下面是创建一个Hash分区表的示例代码:

CREATE TABLE employee (

id NUMBER,

name VARCHAR2(255),

age NUMBER,

department_id NUMBER

)

PARTITION BY HASH (department_id)

PARTITIONS 4;

其中,PARTITION BY HASH (department_id)指定该表采用Hash分区方式,department_id为分区键;PARTITIONS 4指定分为四个分区。现在表中还是没有数据,需要往表中插入一些数据。

2.插入数据

要想插入数据必须使用Oracle提供的自动分区插入方式,下面使用一个例子说明如何插入数据:

INSERT INTO employee (id, name, age, department_id)

VALUES (1, ‘Tom’, 24, 1);

这里假设部门编号为1的有很多员工,所有的员工都将被存储到同一个分区中。

3.查询数据

查询数据有两种方式:单个分区查询和整个表的扫描查询。

单个分区查询:

SELECT *

FROM employee PARTITION (dept1);

这个查询语句只会查询分区名为dept1的一个分区中的数据,这样可以大大减少扫描的范围,提高查询速度。

整个表的扫描查询:

SELECT *

FROM employee;

如果需要查询整张表的数据,在查询语句中不需要指定分区名。但是在查询起始时间点需要通过分区键来确定数据所在的分区,然后只扫描这个分区中的数据,以减少查询时间。

以上是Hash分区的基本操作,下面我们将对Hash分区原理进行一些探究。

三、Hash分区的原理

Hash分区的原理可以分为以下三个步骤:

1.计算Hash函数的值

Hash函数是将输入数据通过特定计算得到的函数值,可以看做是一个映射表,将输入数据映射到另一个值。在Oracle中,可以使用DBMS_CRYPTO包里的HASH函数来计算Hash值:

SELECT

DBMS_CRYPTO.HASH(UTL_RAW.CAST_TO_RAW(department_id), 2)

FROM employee;

其中,UTL_RAW.CAST_TO_RAW将department_id转换成Oracle的RAW类型,HASH函数的第二个参数决定了采用哪一种Hash算法,如MD5、SHA1等。

2.计算Hash函数值的分配

确定数据应该存储在哪个分区中是Hash分区的核心操作。Oracle将计算得到的Hash函数值分配到不同的分区中,分配过程如下:

计算出分区数(n)和Hash函数值(h)的模,以此来确定分区编号。例如,分区数为4,则模为0、1、2、3;

然后,将所有满足Hash函数值的记录分配到计算得到的分区编号的分区中。例如,当Hash函数值为3的记录将被存储在编号为3的分区中。

3.数据插入Hash分区

插入记录时,Oracle数据库会将记录插入到计算得到的Hash函数值所对应的分区中。例如,通过以下SQL语句向employee表中插入数据:

INSERT INTO employee (id, name, age, department_id)

VALUES (1, ‘Tom’, 24, 1);

如果计算得到的Hash函数值为3,那么这条记录将会入到编号为3的分区中。

结论

Hash分区是Oracle数据库中实现分区功能的一种方式,使用Hash分区可以更好地管理大量数据。通过本文的介绍,相信大家对Hash分区的原理和实现已经有了比较清晰的了解。当然,Oracle还有其他分区方式,如Range分区和List分区等,可以根据不同的需求选择不同的分区方案。

相关问题拓展阅读:

如何查看oracle数据库逻辑分区大小

oracle表空间表分区详解及oracle表分区查询使用方法,大家参考使用吧

  此文从以下几个方面来整理关于分区表的概念及操作:

  1.表空间及分区表的概念

  2.表分区的具体作用

  3.表分区的优缺点

  4.表分区的几种类型及操作方法

  5.对表分区的维护性操作.

  (1.) 表空间及分区表的概念

  表空间:

  是一个或多个数据文件的,所有的数据对象都存放在指定的表空间中,但主要存放的是表, 所以称作表空间。

  分区表:

  当表中的数据量不断增大,查询数据的速度就会变慢,应用程序的性能就会下降,这时就应该考虑对表进行分区。表进行分区后,逻辑上表仍然是一张完整的表,只是将表中的数据在物理上存放到多个表空间(物理文件上),这样查询数据时,不至于每次都扫描整张表。

  ( 2).表分区的具体作用

  Oracle的表分区功能通过改善可管理性、性能和可用性,从而为各式应用程序带来了极大的好处。通常,分区可以使某些查询以及维护操作的性能大大提高。此外,分区还可以极大简化常见的管理任务,分区是构建千兆字节数据系统或超高可用性系统的关键工具。

  分区功能能够将表、索引或索引组织表进一步梁汪细分为段,这些数据库对象的段叫做分区。每个分区有自己的名称,还可以选择自己的存储特性。从数据库管理员的角度来看,一个分区后的对象具有多个段,这些段既可进行集体管理,也可单独管理,这就使数据库管理员在管理分区后的对象时有相当大的灵活性。但是,从应用程序的角度来看,分区后的表与非分区表完全相同,使用 SQL DML 命令访问分区后的表时,无需任何修改。

  什么时候使用分区表:

  1、表的大小超过2GB。

  2、表中包含历史数据,新的数据被增加都新的分区中。

  (3).表分区的优缺点

  表分区有以下优点:

  1、改善查询性能:对分区对象的查询可以仅搜索自己关心的分区,提高检索速度。

  2、增强可用性:如果表的某个分区出现故障,表在其他分区的数据仍然可用;

  3、维护方便:如果表的某个分区出现故障,需要修复数据,只修复该分区即可;

  4、均衡I/O:可以把不同的分区映射到磁盘以平衡I/O,改善整个系统性能。

  缺点:

  分区表相关:已经存在的表没有方法可以直接转化为分区表。不过 Oracle 提供了在线重定义表的功能。

  (4).表分区的几种类型及操作方法

  一.范围分区:

  范围分区将数据基于范围映射到每一个分区,这个范围是你在创建分区时指定的分区键决定的。这种分区方式是最为常用的,并且分区键经常采用日期。举个例子:你可能会将销售数据按照月份进行分区。

  当使用范围分区时,请考虑以下几个规则:

  1、每一个分区都必须有一个VALUES LESS THEN子句,它指定了一个不包括在该分区中的上限值。分区键的任何值等于或者大于这个上限值的记录都会被加入到下一个高一些的分区中。

  2、所有分区,除了之一个,都会有一个隐式的下限值,这个值就是此分区的前一个分区的上限值。

  3、在更高的分区中,MAXVALUE被定义。MAXVALUE代表了一个不确定的值。这个值高于其它分区中的任何分区慎渣键的值,也可以理解为高于任何分区中指定的VALUE LESS THEN的值,同时包括空值。

  例一:

  假设有一个CUSTOMER表,表中有数据宽渣悄202300行,我们将此表通过CUSTOMER_ID进行分区,每个分区存储100000行,我们将每个分区保存到单独的表空间中,这样数据文件就可以跨越多个物理磁盘。下面是创建表和分区的代码,如下:

  复制代码代码如下:

  CREATE TABLE CUSTOMER

  (

  CUSTOMER_ID NUMBER NOT NULL PRIMARY KEY,

  FIRST_NAME VARCHAR2(30) NOT NULL,

  LAST_NAME VARCHAR2(30) NOT NULL,

  PHONEVARCHAR2(15) NOT NULL,

  EMAILVARCHAR2(80),

  STATUSCHAR(1)

  )

  PARTITION BY RANGE (CUSTOMER_ID)

  (

  PARTITION CUS_PART1 VALUES LESS THAN (100000) TABLESPACE CUS_TS01,

  PARTITION CUS_PART2 VALUES LESS THAN (202300) TABLESPACE CUS_TS02

  )

  例二:按时间划分

  复制代码代码如下:

  CREATE TABLE ORDER_ACTIVITIES

  (

  ORDER_ID NUMBER(7) NOT NULL,

  ORDER_DATE DATE,

  TOTAL_AMOUNT NUMBER,

  CUSTOTMER_ID NUMBER(7),

  PAID CHAR(1)

  )

  PARTITION BY RANGE (ORDER_DATE)

  (

  PARTITION ORD_ACT_PART01 VALUES LESS THAN (TO_DATE(’01- MAY -2023′,’DD-MON-YYYY’)) TABLESPACEORD_TS01,

  PARTITION ORD_ACT_PART02 VALUES LESS THAN (TO_DATE(’01-JUN-2023′,’DD-MON-YYYY’)) TABLESPACE ORD_TS02,

  PARTITION ORD_ACT_PART02 VALUES LESS THAN (TO_DATE(’01-JUL-2023′,’DD-MON-YYYY’)) TABLESPACE ORD_TS03

  )

  例三:MAXVALUE

  复制代码代码如下:

  CREATE TABLE RangeTable

  (

  idd INT PRIMARY KEY ,

  iNAME VARCHAR(10),

  grade INT

  )

  PARTITION BY RANGE (grade)

  (

  PARTITION part1 VALUES LESS THEN (1000) TABLESPACE Part1_tb,

  PARTITION part2 VALUES LESS THEN (MAXVALUE) TABLESPACE Part2_tb

  );

  二.列表分区:

  该分区的特点是某列的值只有几个,基于这样的特点我们可以采用列表分区。

  例一

  复制代码代码如下:

  CREATE TABLE PROBLEM_TICKETS

  (

  PROBLEM_ID NUMBER(7) NOT NULL PRIMARY KEY,

  DESCRIPTION VARCHAR2(2023),

  CUSTOMER_ID NUMBER(7) NOT NULL,

  DATE_ENTERED DATE NOT NULL,

  STATUSVARCHAR2(20)

  )

  PARTITION BY LIST (STATUS)

  (

  PARTITION PROB_ACTIVE VALUES (‘ACTIVE’) TABLESPACE PROB_TS01,

  PARTITION PROB_INACTIVE VALUES (‘INACTIVE’) TABLESPACE PROB_TS02

  )

  例二

  复制代码代码如下:

  CREATE TABLE ListTable

  (

  id INT PRIMARY KEY ,

  name VARCHAR (20),

  area VARCHAR (10)

  )

  PARTITION BY LIST (area)

  (

  PARTITION part1 VALUES (‘guangdong’,’beijing’) TABLESPACE Part1_tb,

  PARTITION part2 VALUES (‘shanghai’,’nanjing’) TABLESPACE Part2_tb

  );

  )

  三.散列分区:

  这类分区是在列值上使用散列算法,以确定将行放入哪个分区中。当列的值没有合适的条件时,建议使用散列分区。

  散列分区为通过指定分区编号来均匀分布数据的一种分区类型,因为通过在I/O设备上进行散列分区,使得这些分区大小一致。

  例一:

  复制代码代码如下:

  CREATE TABLE HASH_TABLE

  (

  COL NUMBER(8),

  INF VARCHAR2(100)

  )

  PARTITION BY HASH (COL)

  (

  PARTITION PART01 TABLESPACE HASH_TS01,

  PARTITION PART02 TABLESPACE HASH_TS02,

  PARTITION PART03 TABLESPACE HASH_TS03

  )

  简写:

  复制代码代码如下:

  CREATE TABLE emp

  (

  empno NUMBER (4),

  ename VARCHAR2 (30),

  sal NUMBER

  )

  PARTITION BY HASH (empno) PARTITIONS 8

  STORE IN (emp1,emp2,emp3,emp4,emp5,emp6,emp7,emp8);

  hash分区最主要的机制是根据hash算法来计算具体某条纪录应该插入到哪个分区中,hash算法中最重要的是hash函数,Oracle中如果你要使用hash分区,只需指定分区的数量即可。建议分区的数量采用2的n次方,这样可以使得各个分区间数据分布更加均匀。

  四.组合范围散列分区

  这种分区是基于范围分区和列表分区,表首先按某列进行范围分区,然后再按某列进行列表分区,分区之中的分区被称为子分区。

  复制代码代码如下:

  CREATE TABLE SALES

  (

  PRODUCT_ID VARCHAR2(5),

  SALES_DATE DATE,

  SALES_COST NUMBER(10),

  STATUS VARCHAR2(20)

  )

  PARTITION BY RANGE(SALES_DATE) SUBPARTITION BY LIST (STATUS)

  (

  PARTITION P1 VALUES LESS THAN(TO_DATE(”,’YYYY-MM-DD’))TABLESPACE rptfact2023

  (

  SUBPARTITION P1SUB1 VALUES (‘ACTIVE’) TABLESPACE rptfact2023,

  SUBPARTITION P1SUB2 VALUES (‘INACTIVE’) TABLESPACE rptfact2023

  ),

  PARTITION P2 VALUES LESS THAN (TO_DATE(”,’YYYY-MM-DD’)) TABLESPACE rptfact2023

  (

  SUBPARTITION P2SUB1 VALUES (‘ACTIVE’) TABLESPACE rptfact2023,

  SUBPARTITION P2SUB2 VALUES (‘INACTIVE’) TABLESPACE rptfact2023

  )

  )

  五.复合范围散列分区:

  这种分区是基于范围分区和散列分区,表首先按某列进行范围分区,然后再按某列进行散列分区。

  复制代码代码如下:

  create table dinya_test

  (

  transaction_id number primary key,

  item_id number(8) not null,

  item_description varchar2(300),

  transaction_date date

  )

  partition by range(transaction_date)subpartition by hash(transaction_id) subpartitions 3 store in (dinya_space01,dinya_space02,dinya_space03)

  (

  partition part_01 values less than(to_date(‘’,’yyyy-mm-dd’)),

  partition part_02 values less than(to_date(‘’,’yyyy-mm-dd’)),

  partition part_03 values less than(maxvalue)

  );

  (5).有关表分区的一些维护性操作:

  一、添加分区

  以下代码给SALES表添加了一个P3分区

  复制代码代码如下:

  ALTER TABLE SALES ADD PARTITION P3 VALUES LESS THAN(TO_DATE(”,’YYYY-MM-DD’));

  注意:以上添加的分区界限应该高于最后一个分区界限。

  以下代码给SALES表的P3分区添加了一个P3SUB1子分区

  复制代码代码如下:

  ALTER TABLE SALES MODIFY PARTITION P3 ADD SUBPARTITION P3SUB1 VALUES(‘COMPLETE’);

  二、删除分区

  以下代码删除了P3表分区:

  复制代码代码如下:

  ALTER TABLE SALES DROP PARTITION P3;

  在以下代码删除了P4SUB1子分区:

  复制代码代码如下:

  ALTER TABLE SALES DROP SUBPARTITION P4SUB1;

  注意:如果删除的分区是表中唯一的分区,那么此分区将不能被删除,要想删除此分区,必须删除表。

  三、截断分区

  截断某个分区是指删除某个分区中的数据,并不会删除分区,也不会删除其它分区中的数据。当表中即使只有一个分区时,也可以截断该分区。通过以下代码截断分区:

  复制代码代码如下:

  ALTER TABLE SALES TRUNCATE PARTITION P2;

  通过以下代码截断子分区:

  复制代码代码如下:

  ALTER TABLE SALES TRUNCATE SUBPARTITION P2SUB2;

  四、合并分区

  合并分区是将相邻的分区合并成一个分区,结果分区将采用较高分区的界限,值得注意的是,不能将分区合并到界限较低的分区。以下代码实现了P1 P2分区的合并:

  复制代码代码如下:

  ALTER TABLE SALES MERGE PARTITIONS P1,P2 INTO PARTITION P2;

  五、拆分分区

  拆分分区将一个分区拆分两个新分区,拆分后原来分区不再存在。注意不能对HASH类型的分区进行拆分。

  ALTER TABLE SALES SBLIT PARTITION P2 AT(TO_DATE(”,’YYYY-MM-DD’)) INTO (PARTITION P21,PARTITION P22);

  

  六、接合分区(coalesca)

  结合分区是将散列分区中的数据接合到其它分区中,当散列分区中的数据比较大时,可以增加散列分区,然后进行接合,值得注意的是,接合分区只能用于散列分区中。通过以下代码进行接合分区:

  复制代码代码如下:

  ALTER TABLE SALES COALESCA PARTITION;

  七、重命名表分区

  以下代码将P21更改为P2

  复制代码代码如下:

  ALTER TABLE SALES RENAME PARTITION P21 TO P2;

  八、相关查询

  跨分区查询

  复制代码代码如下:

  select sum( *) from

  (select count(*) cn from t_table_SS PARTITION (P202309_1)

  union all

  select count(*) cn from t_table_SS PARTITION (P202309_2)

  );

  查询表上有多少分区

  复制代码代码如下:

  SELECT * FROM useR_TAB_PARTITIONS WHERE TABLE_NAME=’tableName’

  查询索引信息

  复制代码代码如下:

  select object_name,object_type,tablespace_name,sum(value)

  from v$segment_statistics

  where statistic_name IN (‘physical reads’,’physical write’,’logical reads’)and object_type=’INDEX’

  group by object_name,object_type,tablespace_name

  order by 4 desc

  –显示数据库所有分区表的信息:

  select * from DBA_PART_TABLES

  –显示当前用户可访问的所有分区表信息:

  select * from ALL_PART_TABLES

  –显示当前用户所有分区表的信息:

  select * from USER_PART_TABLES

  –显示表分区信息 显示数据库所有分区表的详细分区信息:

  select * from DBA_TAB_PARTITIONS

  –显示当前用户可访问的所有分区表的详细分区信息:

  select * from ALL_TAB_PARTITIONS

  –显示当前用户所有分区表的详细分区信息:

  select * from USER_TAB_PARTITIONS

  –显示子分区信息 显示数据库所有组合分区表的子分区信息:

  select * from DBA_TAB_SUBPARTITIONS

  –显示当前用户可访问的所有组合分区表的子分区信息:

  select * from ALL_TAB_SUBPARTITIONS

  –显示当前用户所有组合分区表的子分区信息:

  select * from USER_TAB_SUBPARTITIONS

  –显示分区列 显示数据库所有分区表的分区列信息:

  select * from DBA_PART_KEY_COLUMNS

  –显示当前用户可访问的所有分区表的分区列信息:

  select * from ALL_PART_KEY_COLUMNS

  –显示当前用户所有分区表的分区列信息:

  select * from USER_PART_KEY_COLUMNS

  –显示子分区列 显示数据库所有分区表的子分区列信息:

  select * from DBA_SUBPART_KEY_COLUMNS

  –显示当前用户可访问的所有分区表的子分区列信息:

  select * from ALL_SUBPART_KEY_COLUMNS

  –显示当前用户所有分区表的子分区列信息:

  select * from USER_SUBPART_KEY_COLUMNS

  –怎样查询出oracle数据库中所有的的分区表

  select * from user_tables a where a.partitioned=’YES’

  –删除一个表的数据是

  truncate table table_name;

  –删除分区表一个分区的数据是

  alter table table_name truncate partition p5;

oracle数据库分区hash的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于oracle数据库分区hash,「深入浅出」Oracle数据库分区Hash原理和实现,如何查看oracle数据库逻辑分区大小的信息别忘了在本站进行查找喔。


数据运维技术 » 「深入浅出」Oracle数据库分区Hash原理和实现 (oracle数据库分区hash)