「数据库分表优化」:提高性能与可扩展性 (数据库分表优化)

数据库分表优化:提高性能与可扩展性

随着互联网和移动互联网的迅速发展,数据量增长的速度也越来越快。对于大型互联网企业来说,数据库性能和可扩展性是业务发展的关键。然而,在数据量庞大的情况下,单表的数据存储已经无法满足业务需求,数据库分表优化成为了必不可少的一种手段,本文将对数据库分表的优化方案进行探讨。

一、什么是数据库分表

数据库分表,就是将一个表按照某个规则,将原本存储在单张表中的数据分成若干个表进行存储,从而达到提高数据库性能和可扩展性的目的。通俗而言,就是在数据库中创建多个表,以存储原先一个表中的所有数据。

举个例子,假设我们有一张“用户信息表”,包含了所有系统用户的信息,其中每条记录包括用户名、密码、邮箱等信息。随着用户数量的增加,表中的数据量也在不断增长,导致查询、更新、删除等操作变得越来越慢,甚至出现服务器瘫痪的情况。这时,我们可以通过分表来对“用户信息表”进行优化。

二、数据库分表优化的实现方法

实现数据库分表有多种方法,根据业务特点,选择不同的分表方式。

1.按时间分表

如果数据量主要集中在某一段时间内,比如日志信息,可以按照时间将数据分为多个表,以便更快地查询分析数据。这种分表方式的优点是数据查询和统计非常快速,缺点是不容易实现跨区间查询。

2.按数据类型分表

如果数据是按照某个类型分类的,可以根据分类进行分表,比如商品按照所属分类进行分表。这种分表方式的优点是查询和统计非常快速,缺点是增加了表的数量,增加了维护的难度。

3.按ID范围分表

ID范围分表是指按照主键ID的范围进行分表,比如将用户ID为1-100000的记录存储在一张表中,将ID为100001-202300的记录存储在另一张表中,以此类推。这种分表方式的优点是易于扩展、管理,缺点是可能导致查询性能下降。

4.按hash值分表

按照hash值分表是指根据数据的hash值进行分表,比如将hash值为1-1000的记录存储在一张表中,将hash值为1001-2023的记录存储在另一张表中,以此类推。这种分表方式的优点是易于扩展、管理,查询性能均衡;缺点是难以完成跨区间查询。

三、数据库分表带来的好处

1.提高查询速度

当单表数据量过大时,一次查询的时间会变得越来越长,通过分表可以降低单表数据量,从而提高查询速度。

2.提高系统性能

当单表数据量过大时,系统会出现性能瓶颈,甚至崩溃现象。通过分表,可以使数据负载更加均衡,降低单个表的请求量,提高系统的性能。

3.易于扩展

通过分表,可以很容易地添加新的数据节点,支持系统的线性扩展,为企业业务发展提供了更多的空间。

四、注意事项

1. 多个表之间数据的一致性

在进行分表优化之前,应该考虑好多个表之间数据的一致性,确保数据的正确性和完整性。

2. 对索引的合理利用

分表后,数据量变小,可以更精细地设计表的索引,提高查询性能。

3. 保持分表规则的一致性

分表规则一定要保持一致性,不可随意更改。否则可能导致查询结果不准确,甚至系统崩溃等问题。

4. 跨表查询的设计问题

当需要跨表查询时,设计查询方式不能简单地将多张表的结果合并,而应该通过一些复杂的算法进行查询。

五、

数据库分表优化是一种重要的手段,可以提高数据库的性能和可扩展性。但是,在进行分表优化时,应该考虑好多个表之间的一致性和查询性能等问题,以保证系统稳定和数据正确性。同时,不同的分表方案对应着不同的业务需求,应该根据实际情况选择合适的分表方式。

相关问题拓展阅读:

问个mysql优化问题

在键租谨开始演示之前,我们先介绍下两个概念。

概念一,数据的可选择性基数,也就是常说的cardinality值。

查询优化器在生成各种执行计划之前,得先从统计信息中取得相关数据,这样才能估算每步操作所涉及到的记录数,而这个相关数据就是cardinality。简单来说,就是每个值在每个字段中的唯一值分布状态。

比如表t1有100行记录,其中一列为f1。f1中唯一值的个数可以是100个,也可以是1个,当然也可以是1到100之间的任何一个数字。这里唯一值越的多少,就是这个列的可选择基数。

那看到这里我们就明白了,为什么要在基数高的字段上建立索引,而基数低的的字段建立索引反而没有全表扫描来的快。当然这个只是一方面,至于更深入的探讨就不在我这篇探讨的范围了。

概念二,关于HINT的使用。

这里我来说下HINT是什么,在什么时候用。

HINT简单来说就是在某些特定的场景下人工协助MySQL优化器的工作,使她生成更优的执行计划。一般来说,优化器的执行计划都是更优化的,不过在某些特定场景下,执行计划可能不是更优化。

比如:表t1经过大稿基量的频繁更新操作,(UPDATE,DELETE,INSERT),cardinality已经很不准确了,这时候刚好执行了一条SQL,那么有可能这条SQL的执行计划就不是更优的。为什么说有可能呢?

来看下具体演示

譬如,以下两条SQL,

A:

select * from t1 where f1 = 20;

B:

select * from t1 where f1 = 30;

如果f1的值刚好频繁更新的值为30,并且没有达到MySQL自动更新cardinality值的临界值或者说用户设置了手动更新又或者用户减少了sample page等等,那么对这两条语句来说,可能不准确的就是B了。

这里顺带说下,MySQL提供了自动更新和手动更新表cardinality值的方法,因篇幅有限,需要的可以查阅手册。

那回到正题上,MySQL 8.0 带来了几个HINT,我今天就举个index_merge的例子。

示例表结构:

mysql> desc t1;+++——+—–++–+| Field      | Type| Null | Key | Default | Extra|+++——+—–++–+| id| int(11)      | NO   | PRI | NULL    | auto_increment || rank| int(11)      | YES  | MUL | NULL    |  || rank| int(11)      | YES  | MUL | NULL    |  || log_time   | datetime     | YES  | MUL | NULL    |  || prefix_uid | varchar(100) | YES  |     | NULL    |  || desc| text| YES  |     | NULL    |  || rank| int(11)      | YES  | MUL | NULL    |  型启|+++——+—–++–+7 rows in set (0.00 sec)

表记录数:

mysql> select count(*) from t1;++| count(*) |++||++1 row in set (0.01 sec)

这里我们两条经典的SQL:

SQL C:

select * from t1 where rank1 = 1 or rank2 = 2 or rank3 = 2;

SQL D:

select * from t1 where rank1 =100  and rank2 =100  and rank3 =100;

表t1实际上在rank1,rank2,rank3三列上分别有一个二级索引。

那我们来看SQL C的查询计划。

显然,没有用到任何索引,扫描的行数为32023,cost为3243.65。

mysql> explain  format=json select * from t1  where rank1 =1 or rank2 = 2 or rank3 = 2\G*************************** 1. row ***************************EXPLAIN: {  “query_block”: {    “select_id”: 1,    “cost_info”: {      “query_cost”: “3243.65”    },    “table”: {      “table_name”: “t1”,      “access_type”: “ALL”,      “possible_keys”: ,      “rows_examined_per_scan”: 32023,      “rows_produced_per_join”: 115,      “filtered”: “0.36”,      “cost_info”: {“read_cost”: “3232.07”,”eval_cost”: “11.58”,”prefix_cost”: “3243.65”,”data_read_per_join”: “49K”      },      “used_columns”: ,      “attached_condition”: “((`ytt`.`t1`.`rank1` = 1) or (`ytt`.`t1`.`rank2` = 2) or (`ytt`.`t1`.`rank3` = 2))”    }  }}1 row in set, 1 warning (0.00 sec)

我们加上hint给相同的查询,再次看看查询计划。

这个时候用到了index_merge,union了三个列。扫描的行数为1103,cost为441.09,明显比之前的快了好几倍。

mysql> explain  format=json select /*+ index_merge(t1) */ * from t1  where rank1 =1 or rank2 = 2 or rank3 = 2\G*************************** 1. row ***************************EXPLAIN: {  “query_block”: {    “select_id”: 1,    “cost_info”: {      “query_cost”: “441.09”    },    “table”: {      “table_name”: “t1”,      “access_type”: “index_merge”,      “possible_keys”: ,      “key”: “union(idx_rank1,idx_rank2,idx_rank3)”,      “key_length”: “5,5,5”,      “rows_examined_per_scan”: 1103,      “rows_produced_per_join”: 1103,      “filtered”: “100.00”,      “cost_info”: {“read_cost”: “330.79”,”eval_cost”: “110.30”,”prefix_cost”: “441.09”,”data_read_per_join”: “473K”      },      “used_columns”: ,      “attached_condition”: “((`ytt`.`t1`.`rank1` = 1) or (`ytt`.`t1`.`rank2` = 2) or (`ytt`.`t1`.`rank3` = 2))”    }  }}1 row in set, 1 warning (0.00 sec)

我们再看下SQL D的计划:

不加HINT,

mysql> explain format=json select * from t1 where rank1 =100 and rank2 =100 and rank3 =100\G*************************** 1. row ***************************EXPLAIN: {  “query_block”: {    “select_id”: 1,    “cost_info”: {      “query_cost”: “534.34”    },    “table”: {      “table_name”: “t1”,      “access_type”: “ref”,      “possible_keys”: ,      “key”: “idx_rank1”,      “used_key_parts”: ,      “key_length”: “5”,      “ref”: ,      “rows_examined_per_scan”: 555,      “rows_produced_per_join”: 0,      “filtered”: “0.07”,      “cost_info”: {“read_cost”: “478.84”,”eval_cost”: “0.04”,”prefix_cost”: “534.34”,”data_read_per_join”: “176”      },      “used_columns”: ,      “attached_condition”: “((`ytt`.`t1`.`rank3` = 100) and (`ytt`.`t1`.`rank2` = 100))”    }  }}1 row in set, 1 warning (0.00 sec)

加了HINT,

mysql> explain format=json select /*+ index_merge(t1)*/ * from t1 where rank1 =100 and rank2 =100 and rank3 =100\G*************************** 1. row ***************************EXPLAIN: {  “query_block”: {    “select_id”: 1,    “cost_info”: {      “query_cost”: “5.23”    },    “table”: {      “table_name”: “t1”,      “access_type”: “index_merge”,      “possible_keys”: ,      “key”: “intersect(idx_rank1,idx_rank2,idx_rank3)”,      “key_length”: “5,5,5”,      “rows_examined_per_scan”: 1,      “rows_produced_per_join”: 1,      “filtered”: “100.00”,      “cost_info”: {“read_cost”: “5.13”,”eval_cost”: “0.10”,”prefix_cost”: “5.23”,”data_read_per_join”: “440”      },      “used_columns”: ,      “attached_condition”: “((`ytt`.`t1`.`rank3` = 100) and (`ytt`.`t1`.`rank2` = 100) and (`ytt`.`t1`.`rank1` = 100))”    }  }}1 row in set, 1 warning (0.00 sec)

对比下以上两个,加了HINT的比不加HINT的cost小了100倍。

总结下,就是说表的cardinality值影响这张的查询计划,如果这个值没有正常更新的话,就需要手工加HINT了。相信MySQL未来的版本会带来更多的HINT。

在一张有几百万个大数据的表中,MySQL的处理引擎会查找得很慢,这时,就必须采用分表甚至分库的方法。

你可以参考这篇文章:《MySQL大数据处理》

摘录如下:

一、概述

分表是个目前算是比较炒的比较流行的概念,特别是在大负载的情况下,分表是一个良好分散数据库压力的好方法。

首先要了解为什么要分表,分表的好处是什么。我们先来大概了解以下一个数据库执行SQL的过程:

接收到SQL –> 放入SQL执行队列 –> 使用分析器分解SQL –> 按照分析结果进行数据的提取或者修改 –> 返回处理结果

当然,这个流程图不一定正确,歼明唯这只是我自己主观意识上这么我认为。那么这个处理过程当中,最容易出现问题的是什么?就是说,如果前一个SQL没

有执行完毕的话,后面的SQL是不会执行的,因为为了保证数据的完整性,必须对数据表文件进行锁定,包括共享锁和独享锁两种锁定。共享锁是在锁定的期间,

其它线程也可以访问这个数据文件,但是不允许修改操作,相应的,独享锁就是整个文件就是归一个线程所有,其它线程无法访问这个数据文件。一般MySQL中

最快的存储引擎MyISAM,它是基于表锁定的,就是说如果一锁定的话,那么整个数据文件外部都无法访问,必须等前一个操作完成后,才能接收下一个操作,

那么在这个前一个操作没有执行完成,后一个操作等待在队列里无法执行的情况叫做阻塞,一般我们通俗意义上叫做“锁表”。

锁表直接导致的后果是什么?就是大量的SQL无法立即执行,必须等队列前面的SQL全部执行完毕才能继续执行。这个无法执行的SQL就会导致没有结果,或者延迟严重,影响用户体验。

特别是对于一些使用比较频繁的表,比如SNS系统中的用户信息表、论坛系统中的帖子表等等,都是访问量大很大的表,为了保证数据的快速提取返回给用户,必须使用一些处理方式来解决这个问题,这个就是我今天要聊到的分表技术。

分表技术顾名思义,就是把若干个存储相同类型数据的表分成几个表分表存储,在提取数据的时候,不同的用户访问不同的表,互不冲突,减少锁表的几

率。比如,目前保存用户分表有两个表,一个是user_1表,还有一个是 user_2 表,两个表保存了不同的用户信息,user_1

保存了前10万的用户信息,user_2保存了后10万名用户的信息,现在如果同时查询用户 heiyeluren1 和 heiyeluren2

这个两个用户,那么就是分表从不同的表提取出来,减少锁表的可能。

我下面要讲述的两种分表方法我自己都没有实验过,不保证准确能用,只是提供一个设计思路。下面关于分表的例子我假设是在一个贴吧系统的基础上来进行处理和构建的。(如果没有用过贴吧的用户赶紧Google一下)

二、基于基础表的分表处理

这个基于基槐穗础表的分表处理方式大致的思想就是:一个主要表,保存了所有的基本信息,如果某个项目需要找到它所存储的表,那么必须从这个基础表中

查找出对应的表名等项目,好直接访问这个表。如果觉得这个基础表速度不够快,可以完全把整个基础表保存在缓存或者内存中,方便有效的查询。

我们基于贴吧的情况,构建假设如下的3张表:

1. 贴吧版块表: 保存贴吧中版块的信息

2. 贴吧主题表:保存贴吧中版块中的主题信息,用于浏览

3. 贴吧回复表:保存主题的原始内容和回复内容

“贴吧版块表”包含如下字段:

版块IDboard_idint(10)

版块名称    board_name      char(50)

子表IDtable_idallint(5)

产生时间    createddatetime

“贴吧主题表”包含如下字段:

主题IDtopic_idint(10)

主题名称topic_name     char(255)

版块IDboard_idint(10)

创建时间createddatetime

“贴吧回复表”的字段如下:

回复IDreply_idint(10)

回复内容      reply_texttext

主题IDtopic_idint(10)

版块ID氏培 board_idint(10)

创建时间      createddatetime

那么上面保存了我们整个贴吧中的表结构信息,三个表对应的关系是:

版块 –> 多个主题

主题 –> 多个回复

那么就是说,表文件大小的关系是:

版块表文件 

所以基本可以确定需要对主题表和回复表进行分表,已增加我们数据检索查询更改时候的速度和性能。

看了上面的表结构,会明显发现,在“版块表”中保存了一个”table_id”字段,这个字段就是用于保存一个版块对应的主题和回复都是分表保存在什么表里的。

比如我们有一个叫做“PHP”的贴吧,board_id是1,子表ID也是1,那么这条记录就是:

board_id | board_name | table_id | created

1 | PHP | 1 |:30:12

相应的,如果我需要提取“PHP”吧里的所有主题,那么就必须按照表里保存的table_id来组合一个存储了主题的表名称,比如我们主题表的前缀是“topic_”,那么组合出来“PHP”吧对应的主题表应该是:“topic_1”,那么我们执行:

SELECT * FROM topic_1 WHERE board_id = 1 ORDER BY topic_id DESC LIMIT 10

这样就能够获取这个主题下面回复列表,方便我们进行查看,如果需要查看某个主题下面的回复,我们可以继续使用版块表中保存的“table_id”来进行查询。比如我们回复表的前缀是“reply_”,那么就可以组合出“PHP”吧的ID为1的主题的回复:

SELECT * FROM reply_1 WHERE topic_id = 1 ORDER BY reply_id DESC LIMIT 10

这里,我们能够清晰的看到,其实我们这里使用了基础表,基础表就是我们的版块表。那么相应的,肯定会说:基础表的数据量大了以后如何保证它的速度和效率?

当然,我们就必须使得这个基础表保持更好的速度和性能,比如,可以采用MySQL的内存表来存储,或者保存在内存当中,比如Memcache之类的内存缓存等等,可以按照实际情况来进行调整。

一般基于基础表的分表机制在SNS、交友、论坛等Web2.0网站中是个比较不错的解决方案,在这些网站中,完全可以单独使用一个表来来保存基本标识和目标表之间的关系。使用表保存对应关系的好处是以后扩展非常方便,只需要增加一个表记录。

【优势】增加删除节点非常方便,为后期升级维护带来很大便利

【劣势】需要增加表或者对某一个表进行操作,还是无法离开数据库,会产生瓶颈

三、基于Hash算法的分表处理

我们知道Hash表就是通过某个特殊的Hash算法计算出的一个值,这个值必须是惟一的,并且能够使用这个计算出来的值查找到需要的值,这个叫做哈希表。

我们在分表里的hash算法跟这个思想类似:通过一个原始目标的ID或者名称通过一定的hash算法计算出数据存储表的表名,然后访问相应的表。

继续拿上面的贴吧来说,每个贴吧有版块名称和版块ID,那么这两项值是固定的,并且是惟一的,那么我们就可以考虑通过对这两项值中的一项进行一些运算得出一个目标表的名称。

现在假如我们针对我们这个贴吧系统,假设系统更大允许1亿条数据,考虑每个表保存100万条记录,那么整个系统就不超过100个表就能够容纳。按照这个标准,我们假设在贴吧的版块ID上进行hash,获得一个key值,这个值就是我们的表名,然后访问相应的表。

我们构造一个简单的hash算法:

function get_hash($id){

     $str = bin2hex($id);

     $hash = substr($str, 0, 4);

     if (strlen($hash)

$hash = str_pad($hash, 4, “0”);

     }

     return $hash;

}

算法大致就是传入一个版块ID值,然后函数返回一个4位的字符串,如果字符串长度不够,使用0进行补全。

比如:get_hash(1),输出的结果是“3100”,输入:get_hash(23819),得到的结果是:3233,那么我们经过简单的跟表前缀组合,就能够访问这个表了。那么我们需要访问ID为1的内容时候哦,组合的表将是:topic_3100、reply_3100,那么就可以直接对目标表进行访问了。

当然,使用hash算法后,有部分数据是可能在同一个表的,这一点跟hash表不同,hash表是尽量解决冲突,我们这里不需要,当然同样需要预测和分析表数据可能保存的表名。

如果需要存储的数据更多,同样的,可以对版块的名字进行hash操作,比如也是上面的二进制转换成十六进制,因为汉字比数字和字母要多很多,那么重复几率更小,但是可能组合成的表就更多了,相应就必须考虑一些其它的问题。

归根结底,使用hash方式的话必须选择一个好的hash算法,才能生成更多的表,然数据查询的更迅速。

【优点hash算法直接得出目标表名称,效率很高】通过

【劣势】扩展性比较差,选择了一个hash算法,定义了多少数据量,以后只能在这个数据量上跑,不能超过过这个数据量,可扩展性稍差

四、其它问题

1. 搜索问题

现在我们已经进行分表了,那么就无法直接对表进行搜索,因为你无法对可能系统中已经存在的几十或者几百个表进行检索,所以搜索必须借助第三方的组件来进行,比如Lucene作为站内搜索引擎是个不错的选择。

2. 表文件问题

我们知道MySQL的MyISAM引擎每个表都会生成三个文件,*.frm、*.MYD、*.MYI

三个文件,分表用来保存表结构、表数据和表索引。Linux下面每个目录下的文件数量更好不要超过1000个,不然检索数据将更慢,那么每个表都会生成三

个文件,相应的如果分表超过300个表,那么将检索非常慢,所以这时候就必须再进行分,比如在进行数据库的分离。

使用基础表,我们可以新增加一个字段,用来保存这个表保存在什么数据。使用Hash的方式,我们必须截取hash值中第几位来作为数据库的名字。这样,完好的解决这个问题。

五、总结

在大负载应用当中,数据库一直是个很重要的瓶颈,必须要突破,本文讲解了两种分表的方式,希望对很多人能够有启发的作用。当然,本文代码和设想没有经过任何代码测试,所以无法保证设计的完全准确实用,具体还是需要读者在使用过程当中认真分析实施。

  数据库优化的问题需要从多个角度考虑:

  一、针对数据库结构和查询的优化:

  在一般的应用中,合理的数据表结构和索引的设计,能够更大化蚂枣查询性能。即时在千万级别的数据表中,针对主键的查询也会非常快速。在数据量太大的情况下,没有使用索引的查询可能会非常缓慢。where条件会用到的字段中,要尽量都加上索引。模糊查询可以通过全文索引来优化。另外,单条记录的长短也会对查询速率产生一定的影响(记录越长,磁盘读取数据时需要移动的距离就越长)。一些关键的数据更好放在小表中。存储引擎的选择也很重要。MYISAM引擎的查询性能更好,而且支持全文索引。MYISAM的索引是压缩存储的,可以节约磁盘空间。更重要的时,它可以将更多的索引加载到内存中,大大提毕碰高查询效率。

  二、针对架构的优化:

  在高并发的应用中,仅仅针对数据库层面的优化已经力不从心。数据库的能力是有限的,更优秀的数据库也存在性能瓶颈。大量的并发查询将导致数据闷数拆库不堪重负。主从库、读写分离是常见的优化方式。对于一些经常访问的热数据,每次都执行数据库查询会造成资源浪费,而且非常低效。如果将这些热的数据以key-value(键和值)的方式存储在内存中,可以更大化性能。

  一些热门的应用,如你提到的微博,除了做好数据库方面的优化外,架构优化非常关键。本例中,可以为每个用户单独存储好友的最新微博。在用户发布微博时,将这条微博的ID存储在所有好友的“最新微博”中。数据满30条时,同时删除旧的数据。这样在获取好友最新微博时,不需要查询数据库,效率非常高。

数据库分表优化的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于数据库分表优化,「数据库分表优化」:提高性能与可扩展性,问个mysql优化问题的信息别忘了在本站进行查找喔。


数据运维技术 » 「数据库分表优化」:提高性能与可扩展性 (数据库分表优化)