数据库 2023-08-03

高性能云数据库IO优化技巧 (云数据库io)

在当今数字化时代，数据量和数据流量的不断增长，对于企业的数据处理能力提出了更高的要求。云数据库作为一种有效的解决方案，已经成为了企业必需品，而如何优化云数据库的输入输出（I/O）能力，实现高性能数据处理，则是企业用户关注的重点。

1. 优化磁盘选型

优化磁盘选型是影响云数据库IO性能最为直接的因素。建议考虑使用高性能磁盘，如固态硬盘（SSD），而不是传统的机械硬盘（HDD）。此外，采用RD技术也可以提升磁盘的数据传输速度和故障容忍度。

2. 合理规划数据存储路径

为了避免I/O操作的瓶颈出现在存储路径的选择上，建议将数据存储路径规划在不同的分区上。例如，将数据和日志存储在不同的分区中，可以减少日志读取对数据I/O的影响。

3. 采用数据库缓存

数据库缓存是提高云数据库性能的重要手段。缓存机制通过将频繁访问的数据存储在缓存中，减少了对数据库的直接访问次数，提高了I/O效率。缓存大小的设置应该根据实际业务需求来进行平衡调节。

4. 使用预读取技术

预读取技术是在数据库查询前就可以将部分数据缓存到内存中，以确保查询时数据的可用性。在数据库读取数据时，该技术可以减少磁盘访问时间，提高数据处理速度。

5. SQL优化

I/O瓶颈的另一个常见原因是低效的SQL查询。通过优化查询语句、索引和表结构，可以减少I/O次数，提高查询速度。例如，合理使用索引可以减少磁盘访问次数，提高查询速度。

6. 负载均衡

负载均衡可以将请求平均分配到不同的数据库节点上，从而避免某个节点过载导致性能下降。通过负载均衡技术可以实现云数据库的横向扩展，在数量和性能上都能够满足企业的业务需求。

优化云数据库的I/O性能需要多方面的工作，需要在硬件、软件、负载均衡和网络等方面入手，均衡数据流量，尽可能压缩I/O请求时间，才能够达到高性能和高效率的要求。

相关问题拓展阅读：

云物理主机系统盘一般采用什么级别
NewSQL分布式数据库发展策略讨论
我们是否应该将数据库也容器化？

云物理主机系统盘一般采用什么级别

云主机使用的云硬盘类型和对应的存储类型如下所述：：

普通IO：提供SATA类型的存储，该类型云硬盘的更大IOPS为1000，适用于大容量、读写速率中等、事务性处理较少的应用场景，例如企业的日常办公应用或者小型测试等。

高IO：提供SAS类型的存储，该类型云硬盘的更大IOPS可达3000，更低读写时延为1 ms，适用于主流的高性能、高可靠应用场景，例如企业应用、大型开发测试以及Web服务器日志等。

超高IO：提供SSD类型的存储，该类型云硬盘的更大IOPS可达20230，更低读写时延为1 ms，适用于超高IO，超大带宽的读写密集型应用场景，例如高性能计算应用场景，用来部署分布式文件系统，或者I/O密集型应用场景，用来部署各类NoSQL/关系型数据库。

VBD类型：当您通过控制中心创建云硬盘时，云硬盘的磁盘模式默认为VBD类型。VBD类型的云硬盘只支持简单的SCSI读写命令。

SCSI类型：您可以通过控制中心创建SCSI类型的云硬盘，该类型的云硬盘支持SCSI指令透传，允许云主机操作系统直接访问底层存储介质。除了简单的SCSI读写命令，SCSI类型的云硬盘还可以支持更高级的SCSI命令。

云硬盘是提供数据块级别的持久性存储设备，通常用作需要频繁更新、细粒度更新的数据(如文件系统、数据库等)的主存储设备。

云硬盘是一种高可用、高可靠、低成本、可定制化的网络块设备，可作为云服务器的独立可扩展硬盘使用。它提供数据块级别的数据存储，采用三副本的分布式。高性能云硬盘：高性能云硬盘是腾讯云推出的混合型存储类型，通过 cache 机制提供接近固态存储的高性能存储能力。

电脑硬盘是计算机最主要的存储设备。硬盘（港台称之为硬碟，英文名：Hard Disk Drive，简称HDD 全名温彻斯特式硬盘）由一个或者多个铝制或者玻璃制的碟片组成。这些碟片外覆盖有铁磁性材料。

绝大多数硬盘都是固定硬盘，被永久性地密封固定在硬盘驱动器中。早期的硬盘存储媒介是可替换的，不过今日典型的硬盘是固定的存储媒介，被封在硬盘里（除了一个过滤孔，用来平衡空气压力）。随着发展，可移动硬盘也出现了，而且越来越普及，种类也越来越多。大多数微机上安装的硬盘，由于都采用温切斯特（winchester)技术而被称之为“温切斯特硬盘”，或简称“温盘”。

云硬盘是可以挂载到云主机上，和物理硬盘一样使用。云硬盘相当于RAID1的标准，偏重模拟硬盘的性能。云硬盘是块数据服务，像是一个超级巨大的硬盘。你不需要做任何的改造即可在云硬盘之上部署原先的数据应用，如构建各种文件系统、搭建各种数据库等。云硬盘的数据访问响应大多是毫秒以下级别的。而云硬盘更适合为数据库之类的数据服务提供存储支撑。

　　硬盘（英语：Hard Disk Drive，缩写：HDD）是计算机上使用的以旋转盘片为基础的非易失性存储器，它在平整的磁性表面存储和检索数字数据，数据通过离磁性表面很近的磁头由电磁流来改变极性的方式被写入到磁盘上，数据可以通过盘片被读取。

　　硬盘的读写是采用半随机存取的方式，可以以任意顺序读取硬盘中的数据，但读取不同位置的资料速度不相同。

云硬盘是提供数据块级别的持久性存储设备,通常用作需要频繁更新、细粒度更新的数据(如文件系统、数据库等)的主存储设备。云硬盘是一种高可用、高可靠、低成本、可定制化的网络块设备,可作为云服务器的独立可扩展硬盘使用。它提供数据块级别的数据存储,采用三副本的分布式。

高性能云硬盘:高性能云硬盘是腾讯云推出的混合型存储类型,通过 cache 机制提供接近固态存储的高性能存储能力。

NewSQL分布式数据库发展策略讨论

作者石默研

本文对新一代NewSQL分布式数据库发展策略中的普遍困扰进行讨论，包括云原生（Cloud Native）与本地部署(On Premise)、HTAP进展方向、分布式与单机需求等分布式数据库商业与技术发展中难以决策的问题。

1. 困扰

分布式NewSQL数据库近年来蓬勃兴起，其原因显而易见：切中了业务与数据量不断增长的用户对关系型数据库RDBMS需求，这在传统RDBMS到大数据的发展阶段中，有相当一段时间是空白。同时，随着互联网技术的不断发展与普及，用云计算模式满足IT需求似乎已经成为未来社会产业互联网发展的明确趋势，也就是说，有一种共识：不久的将来，绝大多数产业的IT服务是从公共的、行业的或者私有的、混合的云计算中心提供的。这一共识又带来了云原生（Cloud Native）概念与技术的兴起，而分布式NewSQL数据库自然也应该是云原生的，这决定了其相当多的产品设计决策应以符合这一趋势为原则。然而，在当今的现实中，满足业务与数据量不断增长的RDBMS需求的用户，与云原生的用户，除了互联网企业外，大多数情况下，并不重合，需要On-Premise部署的用户仍然占有很大比重，这就带来了之一个困扰：云原生（Cloud Native）与本地部署(On Premise)对产品发展要求的矛盾。

另一个困扰，是关于HTAP，即交易与分析混合负载。HTAP是当今非常火的一个概念与技术，在交易库上直接进行分析，而不再是将“数据从交易库搬下来，挪到另一个数据库中去”这样的繁琐过程。可以毫不夸张的说：历史上规模性企业IT复杂度的相当一部分，都来自于“搬数据”，这导致了数据采集、实时采集、全增量合并、数据传输、数据加载、数据建模、数据质量、数据标准、企业级元数据管理等繁杂多样的技术环节的产生，导致了企业数据分布、数据流向、数据模型、主数据、基础数据平台、ODS/数据仓库/数据集市、数据治理等复杂的数据架构设计优化领域，导致了由于多系统大规模数据搬迁而带来的如数据交换平台之类的复杂调度工程……。咋眼一看，感觉该企业的数据技术好厉害，相关各领域的技术产品好丰富，技术人员的相关技能也好受欢迎。但如果在交易迟核宏库就能直接满足分析需求而不影响生产效能的话，这些复杂高级的技术环节不都成了“自己给自己造了一座山，还说自己爬的好辛苦”？然而，现实却是，问题并不这么简单，除了在交易库中进行分析会影响业务效能外，还有很多原因导致这一现象产生：交易库并不需要存储那么长的历史数据，而分析往往是需要建立在大量历史数据之上的；交易库的模型往往并不适合分析需求，多码册数情况下需要重要建模，如非常流行且价值不菲的各行业数仓主题模型；用于交易的OLTP数据库与用于分析的OLAP数据库，其技术体系完全不同；以及大型企业已固化的内部业务结构并没有留给交易/分析整合可实施的可行空间……等等。由于，历史积累的企业级数据体系相当复杂，HTAP的发明者迄今为止都没有系统表达完全替代数据分析需求、自顶而下重构企业数据体系的架构级策略，而是将产品重点定位在技术优化层面：在交易库上直接完成实时统计分析，满足高并发需求且不影响业务效能；或者是为实时分析统计/查询而建设的数据服务中间平台。然而，即使是暂时没有这种策略性的意向，在面向AP的产品具体研发中，又会发现明确的界限确实不好把握，随着一个个具体功能的不断完善，似乎假以时日，技术上也不是没有完全替代纯OLAP平台的可能性。那么，HTAP究竟如何定位呢？

再者就是规模化的分布式需求，与小规模的单机数据库需求（这里指逻辑上的单机）之间的矛盾：分布式数据库，自然而然是要应对规模化的数据管理需求的，长尾的小规模需求当然不应在产品设计考虑之列，同时，大炮轰苍蝇经常还打不好；然而，分布式NewSQL数据库又应该是云原生的，如果把云原生的业务含义理解为“全自助”，它应该以支持什么样的需求为主呢？现实看来，小规模长尾业务对云氏并原生数据库的需求最起码应该是占据相当大的比重的。显而易见，如果是大规模的数据管理需求，即使是部署在云上，DBPaaS的“全自助”是其核心需求吗？这种规模化的业务，如果是云上的On-Premise又需要做出哪些方面的改变？从互联网与云计算发展的历史来看，“云自助”，其最核心的商业动机当然包括给用户侧的运维带来了方便，但更重要的可能是给云服务运营商应对海量长尾客户的安装与运维带来了极大的成本优势。这正如银行的小微及个人消费贷款都要走互联网线上模式，而重客、大客甚至中小企业信贷仍然是以线下为主的策略一样，本质是成本问题，而不是客户方便性问题。于是，矛盾显而易见：分布式是面向规模客户的，起码是中、大型客户，而云原生却有可能、最起码相当一段时间内是要以长尾客户为主要服务对象的。

以上困扰实质上，都涉及到了NewSQL分布式数据库的产品发展策略问题。

2. 讨论

问题是客观而又普遍的，但分析与应对策略往往包含主观因素：人们的一个决定与决策，很多情况下并不由严格推理而来，而是心中已经有一个答案，再来找理由支持它。这里的讨论或许也并不能例外。

首先，来看看Cloud Native与On Premise。云原生本应是数据库即服务，然而目前真正有规模化数据增长需求的NewSQL应用相当多的情况下却是付费On Premise与免费On Premise区别，很多互联网企业的应用也可能只是部署在云基础设施上而已，真正的云原生更多是一些实验性、尝试性的需求。但云原生数据库在公有云、行业云以及大型私有云上已经逐渐在形成一种意识上的共识，其商业前景不可。也就是说，未来的数字化转型进程中，产业互联网的数据库部署，会逐渐向云基础设施迁移，长在云上。它可能是公有云，也可能是行业云，也可能是私有云，它们都是被定义为云原生NewSQL数据库的市场范围。当然，肯定还会有相当一部分数据库长在云下，这也不用纠结，将其排除在云原生市场战略目标之外即可，就是说，不需要考虑这部分客户需求对产品规划的影响，因为前一部分的份额已经足够大了。这样看来，以云原生为目标进行产品规划的逻辑没有问题，不过，还是要明确一点：长在云上的数据库是不是一定符合我们对“云原生”的既有理解？这里认为，即使未来，在云上形成了产业互联网数据库市场的主体，需要“全自助”的数据库即服务可能也是以面向长尾客户最为迫切、必不可少并且是核心本质，而对中大型以上的需求，“全自助”的意义相对有限，同时比较而言商业模式的转变或者更关键些。那么，如果是以“长在云上”为市场目标，似乎可以将其定义为“广义的云原生”，同时，只要是“长在云上”，那么“云原生”概念中高弹性、高可用、低成本、快速迭代、存算分离等技术优势也都能方便获得。而对“云原生”策略中“云原生”一词的理解不同，对产品规划决策的影响也应该有所不同：一是目前被认为是On Premise的客户需求，或许也就是未来“云原生”主体市场的需求；二是NewSQL数据库关于云原生服务的产品策划，对用户侧“自助”水平的决策或许可以更灵活实用。高水平自助确实可以减轻客户对IT的依赖程度，但这里认为，云原生与用户自行在云上购买资源进行On-Premise部署相比，最关键的价值在于商业模式的改变，能自助多少，不一定是最重要的，因为成为云服务商后，运营运维的工作只会更多，责任可能会更大，甚至有时连IaaS的运维也需要PaaS服务商兜底。但从一个个客户的本地服务，变成集中化云服务，就已经是本质性的模式转变了。总之，需要就事论事，回到原点，仔细分析后决策，而不是用概念教条的判断，因为概念本身的定义并不见得准确对应实际的业务需求。

再来看看HTAP，对这个问题，正如在其它文章中表达过的一样，本文的观点较为明确。一是随着计算能力与架构的升级，从技术上讲，AP与TP的界限会越来越模糊；另外特别是在云原生的新世界里，数据库的这一特性又犹为重要，因为云原生的重要作用之一就是要让客户尽量摆脱对IT运维的依赖，将越来越多的精力集中到自己的业务发展上来；同时端到端的能力提升对云原生商业模式的贯彻也至关重要（需要仔细分析下目前DBPaaS的技术要求是否完全符合这一原点的、本质性的动力），过去与纯OLAP数据库的优势比较纠结在这里也可以得到正面支持；再者，既然架构上已经走向了AP，就很难做到在产品规划上时刻厘清纯AP与混合负载的需求后，再将前者排除在外。于是，以“混合负载满足部分AP需求”应该是由于投入与阶段性市场策略导致的阶段性产品规划，而长远来讲，以一套技术架构满足大多数需求，应该是云原生NewSQL数据库的追求。

接下来，就是关于规模化分布式与小规模单机需求的矛盾了。现在看来，经过上面的讨论，这一点已经不是什么问题了：因为“长在云上”、从分散服务向集中服务的商业模式转变就是指广义的云原生，而不一定要以小微的、迫切需要全自助的长尾为主流，那么，云原生NewSQL数据库仍然应以规模化分布式为其主体的需求方向，而小规模单机则暂时可以不做为重点来考虑。

最后指出一点，希望也能引发进一步的思考：我们所批判的主机，也声称自己是分布式架构，暂且不论其是否客观，但在现实中主机需要被替代的核心问题并不是有没有分布式，而是：一、扩展不灵活带来成本问题：“我只需要扩展一个节点，你却让我再买一台主机”；二、不自主可控；三、往往是软硬件结合的设计策略，包括内存、网络、存储与IO上的软硬融合设计，而这一点，是否需要云原生数据库从广义的定义出发进行学习参考，也是需要进一步讨论的。

我们是否应该将数据库也容器化？

Docker不适合部署数据库的7大原因

1、数据安全问题

不要将数据储存在容器中，这也是 Docker 官方容器使用技巧中的一条。容器随时可以停止、或者删除。当容器被rm掉，容器里的数据将会丢失。为了避免数据丢失，用户可以使用数据卷挂载来存储数据。但是容器的 Volumes 设计是围绕 Union FS 镜像层提供持久存储，数据安全缺乏保证。如果容器突然崩溃，数据库未正常关闭，可能会损坏数据。另外，容器里共享数据卷组，对物理机硬件损伤也比较大。

即使你要把 Docker 数据放在主机来存储，它依然不能保证不丢数据。Docker volumes 的设计围绕 Union FS 镜像层提供持久存储，但它仍然缺乏保证。

使用当前的存储驱动程序，Docker 仍然存在不可靠的风险。如果容器崩溃并数据库未正确关闭，则可能会损坏数据。

2、性能问题

大家都知道，MySQL 属于关系型数据库，对IO要求较高。当一台物理机跑多个时，IO就会累加，导致IO瓶颈，大大降低 MySQL 的读写性能。

在一次Docker应用的十大难点专场上，某国有银行的一位架构师也曾提出过：“数据库的性能瓶颈一般出现在IO上面，如果按 Docker 的思路，那么多个docker最终IO请求又会出现在存储上面。现在互联网的数据库多是share nothing的架构，可能这也是不考虑迁移到 Docker 的一个因素吧”。

针对性能问题有些同学可能也有相对应的方案来解决：

(1)数据库程序与数据分离

如果使用Docker 跑 MySQL，数据库程序与数据需要进行分离，将数据存放到共享存储，程序放到容器里。如果容器有异常或 MySQL 服务异常，自动启动一个全新的容器。另外，建议不要把数据存放到宿主机里，宿主机和容器共享卷组，对宿主机损坏的影响比较大。

(2)跑轻量级或分布式数据库

Docker 里部署轻量级或分布式数据库，Docker 本身就推荐服务挂掉，自动启动新容器，而不是继续重启容器服务。

(3)合理布局应用

对于IO要求比较高的应用或者服务，将数据库部署在物理机或者KVM中比较合适。目前TX云的TDSQL和阿里的Oceanbase都是直接部署在物理机器，而非Docker 。

3、网络问题

要理解 Docker 网络，您必须对网络虚拟化有深入的了解。也必须准备应付好意外情况。你可能需要在没有支持或没有额外工具的情况下，进行 bug 修复。

我们知道：数据库需要专用的和持久的吞吐量，以实现更高的负载。我们还知道容器是虚拟机管理程序和主机虚拟机背后的一个隔离层。然而网络对于数据库复制是至关重要的，其中需要主从数据库间 24/7 的稳定连接。未解决的 Docker 网络问题在1.9版本依然没有得到解决。

把这些问题放在一起，容器化使数据库容器很难管理。我知道你是一个顶级的工程师，什么问题都可以得到解决。但是，你需要花多少时间解决 Docker 网络问题？将数据库放在专用环境不会更好吗？节省时间来专注于真正重要的业务目标。

4、状态

在 Docker 中打包无状态服务是很酷的，可以实现编排容器并解决单点故障问题。但是数据库呢？将数据库放在同一个环境中，它将会是有状态的，并使系统故障的范围更大。下次您的应用程序实例或应用程序崩溃，可能会影响数据库。

**知识点：**在 Docker 中水平伸缩只能用于无状态计算服务，而不是数据库。

Docker 快速扩展的一个重要特征就是无状态，具有数据状态的都不适合直接放在 Docker 里面，如果 Docker 中安装数据库，存储服务需要单独提供。

目前，TX云的TDSQL(金融分布式数据库)和阿里云的Oceanbase(分布式数据库系统)都直接运行中在物理机器上，并非使用便于管理的 Docker 上。

5、资源隔离

资源隔离方面，Docker 确实不如虚拟机KVM，Docker是利用Cgroup实现资源限制的，只能限制资源消耗的更大值，而不能隔绝其他程序占用自己的资源。如果其他应用过渡占用物理机资源，将会影响容器里 MySQL 的读写效率。

需要的隔离级别越多，获得的资源开销就越多。相比专用环境而言，容易水平伸缩是Docker的一大优势。然而在 Docker 中水平伸缩只能用于无状态计算服务，数据库并不适用。

我们没有看到任何针对数据库的隔离功能，那为什么我们应该把它放在容器中呢？

6、云平台的不适用性

大部分人通过共有云开始项目。云简化了虚拟机操作和替换的复杂性，因此不需要在夜间或周末没有人工作时间来测试新的硬件环境。当我们可以迅速启动一个实例的时候，为什么我们需要担心这个实例运行的环境？

这就是为什么我们向云提供商支付很多费用的原因。当我们为实例放置数据库容器时，上面说的这些便利性就不存在了。因为数据不匹配，新实例不会与现有的实例兼容，如果要限制实例使用单机服务，应该让 DB 使用非容器化环境，我们仅仅需要为计算服务层保留弹性扩展的能力。

7、运行数据库的环境需求

常看到 DBMS 容器和其他服务运行在同一主机上。然而这些服务对硬件要求是非常不同的。

数据库（特别是关系型数据库）对 IO 的要求较高。一般数据库引擎为了避免并发资源竞争而使用专用环境。如果将你的数据库放在容器中，那么将浪费你的项目的资源。因为你需要为该实例配置大量额外的资源。在公有云，当你需要 34G 内存时，你启动的实例却必须开 64G 内存。在实践中，这些资源并未完全使用。

怎么解决？您可以分层设计，并使用固定资源来启动不同层次的多个实例。水平伸缩总是比垂直伸缩更好。

总结

针对上面问题是不是说数据库一定不要部署在容器里吗？

答案是：并不是

我们可以把数据丢失不敏感的业务（搜索、埋点）就可以数据化，利用数据库分片来来增加实例数，从而增加吞吐量。

docker适合跑轻量级或分布式数据库，当docker服务挂掉，会自动启动新容器，而不是继续重启容器服务。

数据库利用中间件和容器化系统能够自动伸缩、容灾、切换、自带多个节点，也是可以进行容器化的。

见仁见智，一般不推荐用容器做状态或持久化的东西，因为无法保证数据安全。当然，你如果是类似于一主多从，并对数据一致性没有变态的要求，那用容器跑几个只读从库也没啥不可以

关于云数据库io的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » 高性能云数据库IO优化技巧 (云数据库io)

分享到：

云物理主机系统盘一般采用什么级别

NewSQL分布式数据库发展策略讨论

我们是否应该将数据库也容器化？

相关推荐