数据恢复 2023-08-03

数据库系统故障恢复：重要的数据保障。 (数据库系统故障恢复)

数据库系统故障恢复：重要的数据保障

随着企业信息化程度的不断提高，数据库成为了企业日常运营不可或缺的一部分。然而，由于各种原因，数据库系统故障时常发生。数据库故障不仅会影响企业正常运营，还可能导致不可挽回的损失。因此，数据库系统故障恢复显得尤为重要。

一、数据库系统故障的表现

数据库故障可以表现为以下几种形式：

（一）无法连接：数据库服务器找不到、拒绝连接请求，这时应注意检查网络是否正常，服务是否启动，防火墙是否关闭等问题。

（二）崩溃：服务器停机、断电等原因引起的系统崩溃，导致数据库不能正常启动。

（三）损坏：数据文件、数据库日志文件损坏、数据表无法查询等问题。

（四）病毒：网络病毒会破坏数据表，破坏数据库日志，甚至迫使数据库崩溃。

以上几种故障形式都会导致数据库不能正常运行，从而影响企业正常生产和经营。

二、数据库备份的重要性

数据库备份可以说是防患于未然的更佳选择。备份数据可以保证在系统故障或人为错误导致数据丢失的情况下，数据可以快速恢复，避免造成不必要的损失。

数据库备份可以通过手动备份或自动备份两种方式进行。手动备份需要人工干预，需要确保备份时不会影响到正在运行的程序。自动备份不需要人工干预，可以在指定时间自动进行。

三、数据库系统故障恢复的方法

数据库系统故障恢复有多种方法，下面将介绍其中较为常见的两种方法：

（一）数据库恢复

数据库恢复是针对损坏的数据库进行的修复工作。常见的恢复方法有许多，而常用的方法是利用数据库日志来恢复损坏的数据库。利用数据库日志，可以将数据库从上一次备份的状态恢复到故障发生前的状态。

（二）数据库重建

数据库重建需要重新创建数据库，相对于数据库恢复的方法，它的复杂度更高。如果数据库本身已经完全无法使用，而且备份数据也不存在，数据库重建就是必要的手段。如果数据库有备份，可以先进行数据库恢复，再考虑是否需要进行数据库重建。

四、避免数据库系统故障的方法

（一）定期维护数据库系统：此举可以保证数据库系统的稳定，减少系统故障的发生。定期维护可以包括日志监控、备份监控、性能优化等。

（二）定期更新数据库系统：及时更新数据库系统可以避免由于漏洞引发的数据库系统故障。

（三）加强安全管理：数据是企业最重要的资产之一，因此必须加强安全管理。采取不同的措施来保证数据库系统的安全运行，例如密码策略、权限管理、网络监控等。

数据库系统的数据恢复对企业的日常运营至关重要。通过备份数据、定期维护数据库系统、加强安全管理等方法，可以避免故障的发生，为企业的持续发展提供保障。

相关问题拓展阅读：

故障恢复方法告警
怎样修复已经损坏的SQL数据库？

故障恢复方法告警

‍测试环境中出现了一个异常的告警现象：一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态，但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计，告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能：1. 手动解决了告警2. 告警只产生了一次，第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间，如果还没到达自动解决时间，则将该时间重置为 24h 后首先，因为了解到测试环境没有手动解决过异常告警，排除之一条；其次，由于该告警持续处于 active 状态，所以不会是因为告警只产生了一次而接收到已解决状态的告警，排除第二条；最后，告警的告警的产生时间与自动解决时间相差不是 24h，排除第三条。那问题出在什么地方呢？

分析

下面我们开始分析这个问题。综合之一节的描述，初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长，导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手，找出告警在哪个处理阶段耗时过长。首先，一条告警的产生需要两方面的配合：

metric 数据

告警规则

将 metric

数据输入

到告警规则进行计算，如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件，数据的提供和计算则会分开，数据还是由 Prometheus Server 提供，而告警规则的计算则交由 Thanos Rule（下文简称 Ruler）处理。下图是 Ruler 组件在集群中所处的位置：

看来，想要弄清楚现告警的产生到 AlertManager 之间的过程，需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是：You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测，Ruler 应该是在 Prometheus 上封装了一层，并提供一些额外的功能。通过翻阅资料大致了解，仔告圆Ruler 使用 Prometheus 提供的库计算告警规则，并提供一些额外的功能。下面是 Ruler 中告警流转过程：

请点击输入图片描述

首先，图中每个告警规则 Rule 都有一个 active queue（下面简称本地队列），用来保存一个告警规则下的活跃告警。

其次，从本地队列中取出告警，发送至 AlertManager 前，会被放入 Thanos Rule Queue（下面简称缓冲队列），该缓冲队列有两个属性：

capacity（默认值为 10000）：控制缓冲队列的大小，

maxBatchSize（默认值为 100）：控制单次发送到 AlertManager 的更大告警数

了解了上述过程，再通过翻阅 Ruler 源码发现，一条告警在放入缓冲队列前，会为其设置一个默认的自动解决时间（当前时间 + 3m），这里是影响告警自动解决的开始时间，在这以后，有两个阶段可能影响告警的处理：1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段（

网络延迟

影响）由于测试环境是局域网环境，并且也没在环境上发现网络相关的问题，我们初步排除第二个阶段的影响，下面我们将注意力放在缓冲队列上。通过相关源码发现，告警在缓念塌冲队列中的处理过程大致如下：如果本地队列中存在一条告警，其上次发送之间距离现在超过了 1m（默认值，可修改），则将该告警放入缓冲队列，并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之，如果所有本地队列中的告警，在最近 1m 内都有发送过，那么就不会推送缓冲队列中的告警。也就是说，如果在一友厅段时间内，产生了大量重复的告警，缓冲队列的推送频率会下降。队列的生产

方太

多，消费方太少，该队列中的告警就会产生堆积的现象。因此我们不难猜测，问题原因很可能是是缓冲队列推送频率变低的情况下，单次推送的告警数量太少，导致缓冲队列堆积。下面我们通过两个方面验证上述猜想：首先通过日志可以得到队列在大约 20230s 内推送了大约 2023 次，即平均 10s 推送一次。结合缓冲队列的具体属性，一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m，AlertManager 在接收到告警后早已超过了默认的自动解决时间（3m）。其次，Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况：

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值，看到存在告警丢失的总数，也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析，我们基本确定了问题的根源：Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题，我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列，我们通过估计一个告警数量的更大值，得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、…、xn，实体上的告警规则数量分别有 y1、y2、y3、…、yn，那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + … + xn * yn)，最多推送（y1 + y2 + y3 + … + yn）次，所以要使缓冲队列不堆积，maxBatchSize 应该满足：maxBatchSize >= (x1 * y2 + x2 * y2 + x3 * y3 + … + xn * yn) / (y1 + y2 + y3 + … + yn)，假设 x = max(x1,x2, …,xn), 将不等式右边适当放大后为 x，即 maxBatchSize 的最小值为 x。也就是说，可以将 maxBatchSize 设置为系统中数量更大的那一类监控实体，对于 DMP 平台，一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路，如果最终计算出该值过大，很有可能对 AlertManager 造成压力，因而失去缓冲队列的作用，所以还是需要结合实际情况，具体分析。因为 DMP 将 Ruler 集成到了自己的组件中，所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件，那么需要对源码文件进行定制化修改。

出现这种故障，应该是手动报警模块受潮短路造成的，你可以把报警模块拆下来，用吹风机吹干一下，试试有没有效果，如果没有效果的话，就更换一个手动报警模块。

如果故障灯一直没有亮就没有问题，一般汽车在运行时，某些传感器的参数超出标准值就会被ECU认定为故障，相应的故障码就会被储存，如果是定性故障解码器是无法消除的。现在的车辆一般都配备了OBD系统，OBD的故障码敏伍都是统一的!汽车故障码可分两种一种是雹拿贺偶发故障另一种为实际故障通常偶发故障只要不在出现是可以被清除掉的但如果是实际故障就必须得经过维修之后才能被清除掉。用空开上面的热保护触头来提供报警信号。具体的方法如下：当有故障是热保护触头的常开点闭合，这样plc就收到信息，然后就可以有报警输出。当你按屏幕或者是外围的复位按钮后报警输出取消而复位。西门子PLC具有很完善的自诊断功能，如源派出现故障，借助自诊断程序，可以方便的找到出现故障的部件，更换后就可以恢复正常工作。用空开上面的热保护触头来提供报警信号，具体的方法是当有故障是热保护触头的常开点闭合，这样plc就收到信息，然后就可以有报警输出了，当你按屏幕或者是外围的复位按钮后报警输出取消；

怎样进行事务故障的恢复

方法/

1/3

事务故障由系统自动完成，对用户是透明的。

DBMS执行恢复操作的步骤如下：

反向扫描日志文件(即从最后向前扫描日志文件)，查找该事务的更新操作。

对该事务的更新操作执行逆操作，即将日志记录中“更新前的值”写入数据库。

继续反向扫描日志文件，做同样处理。

如此处理下去，直至读到此事务的开始标记，该事务故障的恢复就完成了。

(

2/3

系统故障恢复。系统故障可能会造成数据库处于不一致性状态：一是未完成事务对数据库的更新可能已写入数据库；二是已提交事务对数据库的更新可能还留在缓冲区，没来得及写入数据库。因此，恢复操作就是要撤销故障发生时未完成的事务，重做已完成的事务。

系统故障的恢复步骤如下：

正向扫描日志文件，找出在故障发生前已经提交的事务队列(REDO队列猜唤胡)和未完成的事务队列(UNDO队列)。

对撤销队列中的各个事务进行UNDO处理。进行UNDO处理的方法是，反向扫描日志文件，对每个UNDO事务的更新操作执行逆操作，即将日志记录中“更新前的值”写入数据库。

对重做队列中的各链慧个事务进行REDO处理。进行REDO处理的方法是，正向扫描日志文件，对每个REDO事务重新执行日志文件登记的操作，即将日志记录中“更新后的值”写入数据库。

3/3

介质故障恢复。介质故障是最严重的一种故障。恢复方法是重装数据库，然后重做已完成的事务。具体过程如下：

DBA装入最新的数据库后备副本(离故障穗拦发生时刻最近的转储副本)，使数据库恢复到转储时的一致性状态。

DBA装入转储结束时刻的日志文件副本。

DBA启动系统恢复命令，由DBMS完成恢复功能，即重做已完成的事务。

事务故障恢复。由系统自动完成，对用户是透明的。

DBMS执行恢复操作的步骤如下：

反向扫描日志文件(即从最后向前扫描日志文件)，查找该事务的更新操作。

对该事务的更新操作执行逆操作，即将日志记录中“更新前的值”写入数据库。

继续反向扫描日志文件，做同样处理。

如此处理下去，直至读到此事务的开始标记，该事务故障的恢复就完成了。

(

系统故障恢复。系握帆统故障可能会造成数据库处于不一致性状态：一是未完成事务对数据库的更新可能已写入数据库；二是已提交事务对数据库的更新可能还留在缓冲区，没来得及写入数据库。因此，恢复操作就是要撤销故帆皮塌障发生时未完成的事务，重做已完成的事务。

系统故障的恢复步骤如下：

正向扫描日志文件，找出在故障发生前已经提交的事务队列(REDO队列)和未完成的事务队列(UNDO队列)。

对撤销队列中的各个事务进行UNDO处理。进行UNDO处理的方法是，反向态圆扫描日志文件，对每个UNDO事务的更新操作执行逆操作，即将日志记录中“更新前的值”写入数据库。

对重做队列中的各个事务进行REDO处理。进行REDO处理的方法是，正向扫描日志文件，对每个REDO事务重新执行日志文件登记的操作，即将日志记录中“更新后的值”写入数据库。

介质故障恢复。介质故障是最严重的一种故障。恢复方法是重装数据库，然后重做已完成的事务。具体过程如下：

DBA装入最新的数据库后备副本(离故障发生时刻最近的转储副本)，使数据库恢复到转储时的一致性状态。

DBA装入转储结束时刻的日志文件副本。

DBA启动系统恢复命令，由DBMS完成恢复功能，即重做已完成的事务。

进入故障恢复控制台有两种情况，一是系统中已经安装了故障恢复控制台，这时我们可以通过启动菜单进入;另一种情况是系统中没有安装故障恢复控制台，或己安装故障恢复控制台似不能出现启动菜单，此时我们可以通过win xp启动盘或windows xp安装光盘进入故障恢复控制台。

方法/步骤

1/4 分步阅读凳庆

　1、通过启动菜单进入

　　第1步：如果系统中已经安装了故障恢复控制台，启动时将显示如图1所示的启动菜单。其中的“Microsoft Windows Recovery Console”项即是故障恢复控制台。

2/4

第2步：选择“Microsoft Windows XP Recovery Console”项，经过短暂的硬件检查和启动过程之后，恢复控制台会显枣薯握示出检测到的系统目录列表，并要求选择需要登录的系统。

　　提示：即使当前只安装了一个操作系统，也需要按对应的数字键来选择，如果直接按下回车，系统将会重新启动。

　　第3步：输入要登录的系统所对应的号码键，然后根椐提示输入管理员密码(即Administrator帐户的密码)，输入后按下回车键，即可登录到故障恢复控制台，如图2所示。

电脑维修五环内免费上门30分钟到达

3/4

2、通过安装光盘进入

　　通过xp系统安装光盘进入故障恢复控制台时，首先需要在BIOS中将之一启动设备设置为CD-ROM。从光盘启动后出现“欢迎使用安装程序”界面时，根据提示按“R”键启动故障恢复控制台，如图3所示。

4/4

接下来故障恢复控制台会显示所有已安手坦装的系统目录列表，选择自己需要登录的系统所在目录，然后根据提示输入管理员密码即可。

怎样修复已经损坏的SQL数据库？

有两种方法，一种方法使用mysql的check table和repair table 的答升sql语句，另一种方法是使用MySQL提供的多个myisamchk, isamchk数据检测恢复工具。

前者使用起来比较简便。推荐使用。

1、check table 和 repair table 登陆mysql 终端： mysql -uxx -p dbname check table tabTest;

如果出培斗现的结果说Status是OK，则不用修复，如果有Error，可以用： repair table tabTest; 进行修复，修复之后可以在用check table命令来进行检查。

在新版本的phpMyAdmin里面也可以使用清中老check/repair的功能。

2. myisamchk, isamchk 其中myisamchk适用于MYISAM类型的数据表，而isamchk适用于ISAM类型的数据表。

这两条命令的主要参数相同，一般新的系统都使用MYISAM作为缺省的数据表类型，这里以myisamchk为例子进行说明。

当发现某个数据表出现问题时可以使用： myisamchk tablename.MYI 进行检测，如果需要修复的话，可以使用： myisamchk -of tablename.MYI 关于myisamchk的详细参数说明，可以参见它的使用帮助。

需要注意的时在进行修改时必须确保MySQL服务器没有访问这个数据表，保险的情况下是更好在进行检测时把MySQL服务器Shutdown掉。

2、另外可以把下面的命令放在你的rc.local里面启动MySQL服务器前： && /pathtochk/myisamchk -of /DATA_DIR/*/*.MYI 。

其中的/tmp/mysql.sock是MySQL监听的Sock文件位置，对于使用RPM安装的用户应该是/var/lib/mysql/mysql.sock，对于使用源码安装则是/tmp/mysql.sock可以根据自己的实际情况进行变更，而pathtochk则是myisamchk所在的位置，DATA_DIR是你的MySQL数据库存放的位置。

需要注意的是，如果你打算把这条命令放在你的rc.local里面，必须确认在执行这条指令时MySQL服务器必须没有启动！

最后检测修复所有数据库(表)。

1.停止SQL Server的服务,备份SQL Server安装目录下的\data子目录

下故障数据库的两个文件,一个数据文件hbposv6_branch_data.mdf,

一个hbposv6_branch_log.ldf(也有可能非此命名),同时查看磁盘

空间是否有足够的空间；

2.启动SQL Server服务(如已停止),创建一个新的数据库，命名为

原来数据库的名字。

3.停止SQL Server

4.把老数据库的MDF文件(hbposv6_branch_data.mdf)替换

新数据库的相应的MDF文件，

并把LDF文件(hbposv6_branch_log.ldg)删除。

5.重新启动SQL Server服务，然后运行如下命令：

Use Master

sp_configure ‘allow updates’, 1

reconfigure with override

begin tran

update sysdatabases set status =where name = ‘hbposv6_branch’

–Verify one row is updated before committing

commit tran

6.停止SQL然后重新启动SQL Server服务，然后运行如下命令

(更换日志文件路径地址)：

use master

DBCC TRACEON(3604)

DBCC REBUILD_LOG

(‘hbposv6_branch’,

‘c:\Program Files\Microsoft SQL Server\MSSQL\Data\hbposv6_branch_log.ldf’)

–在这里，请输入你的数据库的路径

7.停止SQL然后重新启动SQL Server服务，然后运行：

use master

update sysdatabases set status = 8 where name = ‘hbposv6_branch’

sp_configure ‘allow updates’, 0

reconfigure with override

8.运行dbcc checkdb(db_name) 检查数据库的完整性

9.修复数库

–请在查询分析器中执行下列语句.执行前断开其它

所有数据库连接，更好是断开网线

–如果不是该数据库名，请将数据库

–hbposv6_branch

–改为要修复的数据库

USE master

–单用户模悔闷式

EXEC sp_dboption ‘hbposv6_branch’, ‘single user’, ‘TRUE’

–数据库检查

DBCC CHECKDB (‘hbposv6_branch’)

–如果返回结果出现了红色的提示文字，说明数据库中存在错误，需要修复

–数据库修复

DBCC CHECKDB (‘hbposv6_branch’,’repair_rebuild’)

–再次数据库检查，如果返回结果中碧孙弯没有了红色的提示文字，

说明修复成功；

DBCC CHECKDB (‘hbposv6_branch’)

–否则意味着还需要更高级别的修复；尝试将上面修复语句的

‘repair_rebuild’换为’repair_allow_data_loss’再试，

之后再次检查数凯绝据库。

–如果还有错误未修复，请把这些信息以文字的方式发给我们

–退出前请一定要执行以下语句返回到多用户模式

EXEC sp_dboption ‘hbposv6_branch’, ‘single user’,’FALSE’

注：都要把 dbname 替换成真实的数据库名字。

我这边有专业修复的软件，效果还不错

关于数据库系统故障恢复的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » 数据库系统故障恢复：重要的数据保障。 (数据库系统故障恢复)

分享到：

故障恢复方法 告警

怎样修复已经损坏的SQL数据库？

相关推荐

故障恢复方法告警