数据库 2023-07-09

深入了解Oracle数据库日志文件的作用与管理技巧 (oracle数据库日志文件)

随着互联网应用的不断增多，数据成为公司最为重要的资产之一，而数据库则成为数据存储与处理的重要工具。在众多的数据库软件中，Oracle作为业界著名的数据库软件，以其高可靠性、高性能和高安全性而被广泛应用。

在Oracle数据库中，日志文件是其重要组成部分之一。它记录了数据库发生的所有修改操作，包括增、删、改等操作，为数据的稳定性和完整性提供保证。本文将。

一、Oracle数据库日志文件的作用

在Oracle数据库的运行过程中，日志文件扮演着至关重要的作用。Oracle数据库日志文件共有三种：

1. 控制文件(Control File)

控制文件包含了数据库的结构及其状态的信息，如数据文件的名称和位置、日志文件的名称和位置、备份信息等。控制文件对数据库的恢复和重建非常重要。

2. 数据文件(Data File)

数据文件是指存储数据的物理文件，它包含了表空间、数据块、段以及数据项等数据库对象的物理结构和信息。通常情况下，数据文件分为数据文件组(Data File Group)，每个数据文件组拥有一组日志文件。

3. 日志文件(Redo Log File)

日志文件记录了Oracle数据库所有的修改操作，可以对于故障的回滚和恢复。它记录了数据库所做的每一个操作，创建表、修改表、删除表都可以在日志文件中找到。由于日志文件的记录操作比数据文件的记录操作更快，因此它们非常适合用于故障恢复和归档。

日志文件由两个或多个日志组成，每个日志文件的大小可能会达到几个GB到TB的级别。目前Oracle数据库默认设置了2个日志文件，每个日志文件的大小为50MB。

二、Oracle数据库日志文件的管理技巧

Oracle数据库日志文件对于数据库的稳定性和完整性有着非常重要的作用，因此对于日志文件的管理也需要引起我们的重视。下面就介绍一下Oracle数据库日志管理的相关技巧：

1. 常规维护

在Oracle数据库的运行过程中，我们需要注意对于日志文件的常规维护，包括备份日志文件、删除旧日志文件、增加新日志文件等。

备份日志文件：在备份日志文件时，更好将备份文件存储在不同的磁盘中，以备数据灾难时使用。

删除旧日志文件：当旧日志文件已无效时，我们需要将它们删除以腾出空间。

增加新日志文件：在Oracle数据库中，每组日志文件可以拥有多个日志文件，当当前的日志文件已满时，我们就应该考虑增加新日志文件。

2. 日志文件的性能优化

在Oracle数据库中，我们需要特别注意日志文件的性能优化，以提升数据库的运行性能。通常情况下，我们可以通过顺序写入磁盘的方式来优化日志文件的性能。

3. 控制文件管理

对于Oracle数据库控制文件的管理也非常重要。控制文件主要记录了数据库的整体信息，包括数据文件、日志文件、数据库大小等信息。当控制文件损坏或丢失时，数据库很可能无法再次启动，因此控制文件的管理需要引起我们的重视。

4. 数据库恢复与日志文件

在Oracle数据库发生故障时，我们需要利用日志文件进行恢复。在进行数据库恢复时，我们需要了解Oracle数据库的工作机制，而日志文件是关键的恢复信息源。我们需要回滚所有未提交的操作，并将所有提交的操作重新应用到恢复数据库中。

以上就是对于Oracle数据库日志文件的作用与管理技巧的详细介绍。对于日志文件的常规维护、优化性能以及恢复数据库等都需要我们了解与掌握，以保证数据库运行的稳定性和完整性。

相关问题拓展阅读：

ORACLE如何删除归档日志文件？
oracle数据库的警告日志如何查看

ORACLE如何删除归档日志文件？

可以尝试这种方法：

1. 进入rman

2. connect target /

3. crosscheck archivelog all;

4. delete expired archivelog all;

这时候我们再去OEM中看就一定看不到，如果你的从来没有做过这个动作的话，祥坦我们可以比较从这个动作前的controlfile后动作后的controlfile的大小!

ORACLE正确删除归档并回收空间的方法

ORACLE正确逗简删除归档并回收空间的方法

一个ORACLE归档日志经常满，表现为/oraarchive 这个文件空间占用100％大家一定抱怨ORACLE为何没有归档维护工具，很多人直接删除了事，错了，ORACLE有，而且很智能，可以正确的删除归档和FLASHBACK，不过切记,ORACLE归档日志对于ORACLE的数据恢复和备份非常重要，不到万不得已不要删除归档日志。

删除归档日志的过程

以ORACLE用户身份登录到数据库服务器主机或通过网络连接

进入ORACLE数据备份工具谨指桐

rman target/

或rman target/@orcl

在命令窗口里面执行

DELETE ARCHIVELOG ALL COMPLETED BEFORE ‘SYSDATE-7’;

oracle数据库的警告日志如何查看

‍测试环境中出现了一个异常的告警现象：一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态，但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计，告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能：1. 手动解决了告警2. 告警只产生了一次，第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间，如果还没到达自动解决时间，则将该时间重置为 24h 后首先，因为了解到测试环境没有手动解决过异常告警，排除之一条；其次，由于该告警持续处于 active 状态，所以不会是因为告警只产生了一次而接收到已解决状态的告警，排除第二条；最后，告警的告警的产生时间念乱与自动解决时间相差不是 24h，排除第三条。那问题出在什么地方呢？

分析

下面我们开始分析这个问题。综合之一节的描述，初步的猜想是告警在到达 AlertManager 前悉含的某些阶段的处理过程太长，导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手，找出告警在哪个处理阶段耗时过长。首先，一条告警的产生需要两方面的配合：

metric 数据

告警规则

将 metric

数据输入

到告警规则进行计算，如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件，数据的提供和计算则会分开，数据还是由 Prometheus Server 提供，而告警规则的计算则交由 Thanos Rule（下文简称 Ruler）处理。下图是 Ruler 组件在集群中所处的位置：

看来，想要弄清楚现告警的产生到 AlertManager 之间的过程，需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是：You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测，Ruler 应该是在 Prometheus 上封装了一层，并提供一些额外的功能。通过翻阅资料大致了解，Ruler 使用 Prometheus 提供的库计算告警规则，并提供一些额外的功能。下面是 Ruler 中告警流转过程：

请点击输入图片描述

首先，图中每个告警规则 Rule 都有一个 active queue（下面简称本地队列），用来保存一个告警规则下的活跃告警。

其次，从本地队列中取出告警，发送至 AlertManager 前，会被放入 Thanos Rule Queue（下面简称缓冲队列），该缓冲队列有两个属性：

capacity（默认值为 10000）：控制缓冲队列的大小，

maxBatchSize（默认值为 100）：控制单次发送到 AlertManager 的更大告警数

了解了上述过程，再通过翻阅 Ruler 源码发现，一条告警在放入缓冲队列前，会为其设置一个默认的自动解决时间（当前时间 + 3m），这里是影响告警自动解决的开始时间，在这以后，有两个阶段可能影响告警的处理：1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段（

网络延迟

影响）由于测试环境是局域网环境，并且也没在环境上发现网络相关的问题，我们初步排除第二个阶段的影响，下面我们将注意力放在缓冲队列上。通过相关源码发现，告警在缓冲队列中的处理过程大致如下：如果本地队列中存在一条告警，其上次发送之间距离现在超过了 1m（默认值，可修改），则将该告警放入缓冲队列，并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之，如果所有睁高笑本地队列中的告警，在最近 1m 内都有发送过，那么就不会推送缓冲队列中的告警。也就是说，如果在一段时间内，产生了大量重复的告警，缓冲队列的推送频率会下降。队列的生产

方太

多，消费方太少，该队列中的告警就会产生堆积的现象。因此我们不难猜测，问题原因很可能是是缓冲队列推送频率变低的情况下，单次推送的告警数量太少，导致缓冲队列堆积。下面我们通过两个方面验证上述猜想：首先通过日志可以得到队列在大约 20230s 内推送了大约 2023 次，即平均 10s 推送一次。结合缓冲队列的具体属性，一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m，AlertManager 在接收到告警后早已超过了默认的自动解决时间（3m）。其次，Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况：

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值，看到存在告警丢失的总数，也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析，我们基本确定了问题的根源：Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题，我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列，我们通过估计一个告警数量的更大值，得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、…、xn，实体上的告警规则数量分别有 y1、y2、y3、…、yn，那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + … + xn * yn)，最多推送（y1 + y2 + y3 + … + yn）次，所以要使缓冲队列不堆积，maxBatchSize 应该满足：maxBatchSize >= (x1 * y2 + x2 * y2 + x3 * y3 + … + xn * yn) / (y1 + y2 + y3 + … + yn)，假设 x = max(x1,x2, …,xn), 将不等式右边适当放大后为 x，即 maxBatchSize 的最小值为 x。也就是说，可以将 maxBatchSize 设置为系统中数量更大的那一类监控实体，对于 DMP 平台，一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路，如果最终计算出该值过大，很有可能对 AlertManager 造成压力，因而失去缓冲队列的作用，所以还是需要结合实际情况，具体分析。因为 DMP 将 Ruler 集成到了自己的组件中，所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件，那么需要对源码文件进行定制化修改。

‍‍

告警日志文件是一类特殊的跟踪文件（trace file）。告警日志文件命名烂察一般为alert_.log，其中SID为ORACLE数据库脊历空实例名称。数据库告警日志是樱瞎按时间顺序记录message和错误信息。

oracle数据库日志文件的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于oracle数据库日志文件,深入了解Oracle数据库日志文件的作用与管理技巧,ORACLE如何删除归档日志文件？,oracle数据库的警告日志如何查看的信息别忘了在本站进行查找喔。

数据运维技术 » 深入了解Oracle数据库日志文件的作用与管理技巧 (oracle数据库日志文件)

分享到：

ORACLE如何删除归档日志文件？

oracle数据库的警告日志如何查看

相关推荐