数据库 2023-06-30

深入探究数据库日志分析的核心技术与实践 (数据库日志分析)

随着企业运营数据的不断增长，数据库成为了承载数据的核心存储介质。然而，在大量数据存储与快速查询的同时，数据库日志的复杂性不断增加也成为数据库管理员的烦恼。

为解决这一难题，数据库日志分析技术应运而生。本文将，为读者提供一份指引。

1. 数据库日志的基本概念

数据库日志是对数据库中所有操作的详细记录，包括对表的创建、修改和删除，对记录的增、删、改等操作。日志通常由两个部分组成：操作日志和恢复日志。

操作日志记载了每一个操作对数据库的影响，例如修改了哪一个表格中的哪些数据、向表格中插入了哪些数据、删除了哪些数据。恢复日志则用于恢复操作发生前的状态。

在实际应用中，数据库日志的数量和大小与业务数据规模和工作负载有关。特别是在关键业务场景下，数据库日志越来越大，其内容也越来越复杂，这时候数据库管理员需要通过分析日志，以便及时发现潜在问题，迅速做出调整。

2. 数据库日志分析的重要性

数据库日志分析是一项重要的任务，其目的在于帮助数据库管理员识别潜在的问题，以优化数据库的性能和可用性。下面是数据库日志分析的重要性：

（1）避免数据丢失

数据库日志记录了对数据库的每一个操作，包括对表的创建、修改和删除，对记录的增、删、改等操作。这有助于管理员快速恢复数据，减少数据丢失。

（2）优化数据库性能

通过分析日志中的数据，管理员可以发现哪些查询或事务开销非常高，并采取相应的优化措施，以提高数据库性能。

（3）监控数据库安全

数据库日志分析可以监测非授权的数据访问、SQL注入攻击、错误登录等问题。管理员可以通过日志分析快速发现问题，并及时采取防范措施。

3. 数据库日志分析的核心技术

数据库日志分析的核心技术主要包括数据采集、解析、存储、分析和可视化五个部分。

（1）数据采集

数据采集是数据库日志分析的之一步。这一过程通常使用日志采集器来实现，该工具可以自动反复收集日志数据，以便管理员可以对日志进行分析和审计。唯有采集到数据，才能进行后续操作。

（2）解析

解析是日志分析的第二步，该过程主要涉及将日志数据转换成容易理解的格式。例如，将SQL命令从二进制日志转换成文本格式，以便管理员可以查看、分析和发送SQL。

（3）存储

存储是指将日志数据存储在中央仓库中，以供未来分析和审计。数据库管理员的重要使命之一是保护日志数据安全，以免泄漏数据库机密。

（4）分析

分析是日志分析的关键步骤，这其中包括识别潜在问题、分析占用资源的查询和事务、分析安全事件。管理员可以使用日志分析工具进行分析，如：LogStash、ELK、Graylog等。

（5）可视化

可视化是最后一步，这需要将各项分析结果展示给管理员。通常，将其表示在 Dashboard 和报告中，这可以让管理员很容易查看和理解分析结果。这一步骤有助于数据库管理员了解数据库的状况，同时也可以向管理层汇报数据库的性能和安全情况。

4. 数据库日志分析的实践

下面我们将以ELK为例，介绍日志分析的实践过程。

在使用ELK进行日志分析之前，您需要安装以下软件：

– Elasticsearch – 用于存储数据和搜索。

– Logstash – 用于采集数据并将其传送到Elasticsearch。

– Kibana – 用于可视化数据，并将数据从 Elasticsearch 检索。

在ELK安装之后，您首先需要配置Logstash，以安装数据库的日志收集器插件，然后将数据发送到 Elasticsearch。

在分析数据之前，您需要先配置Elasticsearch，以便它可以搜索和分析数据。

您可以使用Kibana进行数据可视化，运用Dashboard、图形等方式对数据进行分析。

5. 结论

数据库日志分析对于维护和优化数据库的性能是至关重要的。通过数据采集、解析、存储、分析和可视化，管理员可以发现数据库中隐藏的问题并及时解决。

若你正遇到日志分析问题，不妨试试ELK或其他类似工具，这可以大幅简化日志分析程序，同时帮您提高数据库的性能和可用性。将这些步骤纳入到日常活动中，您可以让数据库更可靠、可预测、并在有限的预算下，为组织提供更多的价值。

相关问题拓展阅读：

数据日志是什么？
oracle数据库的警告日志如何查看

数据日志是什么？

269-什么是凳陪数据迟答库日枣旦蠢志

希望对你有帮助!Oracle数据库的日志有：Redologfile—-重做日志Archivelogfile—-归档日志Tracefile—-跟踪日答碧虚志backupground_dump_dest—-后台进程跟踪core_dump_dest—-Oracle内核日志User_dump_dest—-用户跟踪（服务器进程）简称日志一般指的是联机重做日志文件（Redlog）。主要功能是恢复异常关闭的数据库和保证数据的完整性、一致性。还有可恢复近期丢失的数据（这要看重做日志文件的容量）。重做文件的原理是：把DML（Insert、Update、清燃Delete）语句所处理的前后记录都写入重做日志慧姿文件中。当数据库的数据出故障时利用重做日志文件中的数据重新运行一次之前做过的业务，以此来恢复数据库中除了故障的数据。重做日志文件至少要有两组，一般是三组。写满之一组写第二组，写满第二组写第三组，写满第三组返回覆盖写之一组，以此类推。

oracle数据库的警告日志如何查看

告警日志文件是一类特殊的跟踪文件（trace file）。告警日志文件命名烂察一般为alert_.log，其中SID为ORACLE数据库脊历空实例名称。数据库告警日志是樱瞎按时间顺序记录message和错误信息。

‍测试环境中出现了一个异常的告警现象：一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态，但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计，告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能：1. 手动解决了告警2. 告警只产生了一次，第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间，如果还没到达自动解决时间，则将该时间重置为 24h 后首先，因为了解到测试环境没有手动解决过异常告警，排除之一条；其次，由于该告警持续处于 active 状态，所以不会是因为告警只产生了一次而接收到已解决状态的告警，排除第二条；最后，告警的告警的产生时间念乱与自动解决时间相差不是 24h，排除第三条。那问题出在什么地方呢？

分析

下面我们开始分析这个问题。综合之一节的描述，初步的猜想是告警在到达 AlertManager 前悉含的某些阶段的处理过程太长，导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手，找出告警在哪个处理阶段耗时过长。首先，一条告警的产生需要两方面的配合：

metric 数据

告警规则

将 metric

数据输入

到告警规则进行计算，如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件，数据的提供和计算则会分开，数据还是由 Prometheus Server 提供，而告警规则的计算则交由 Thanos Rule（下文简称 Ruler）处理。下图是 Ruler 组件在集群中所处的位置：

看来，想要弄清楚现告警的产生到 AlertManager 之间的过程，需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是：You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测，Ruler 应该是在 Prometheus 上封装了一层，并提供一些额外的功能。通过翻阅资料大致了解，Ruler 使用 Prometheus 提供的库计算告警规则，并提供一些额外的功能。下面是 Ruler 中告警流转过程：

请点击输入图片描述

首先，图中每个告警规则 Rule 都有一个 active queue（下面简称本地队列），用来保存一个告警规则下的活跃告警。

其次，从本地队列中取出告警，发送至 AlertManager 前，会被放入 Thanos Rule Queue（下面简称缓冲队列），该缓冲队列有两个属性：

capacity（默认值为 10000）：控制缓冲队列的大小，

maxBatchSize（默认值为 100）：控制单次发送到 AlertManager 的更大告警数

了解了上述过程，再通过翻阅 Ruler 源码发现，一条告警在放入缓冲队列前，会为其设置一个默认的自动解决时间（当前时间 + 3m），这里是影响告警自动解决的开始时间，在这以后，有两个阶段可能影响告警的处理：1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段（

网络延迟

影响）由于测试环境是局域网环境，并且也没在环境上发现网络相关的问题，我们初步排除第二个阶段的影响，下面我们将注意力放在缓冲队列上。通过相关源码发现，告警在缓冲队列中的处理过程大致如下：如果本地队列中存在一条告警，其上次发送之间距离现在超过了 1m（默认值，可修改），则将该告警放入缓冲队列，并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之，如果所有睁高笑本地队列中的告警，在最近 1m 内都有发送过，那么就不会推送缓冲队列中的告警。也就是说，如果在一段时间内，产生了大量重复的告警，缓冲队列的推送频率会下降。队列的生产

方太

多，消费方太少，该队列中的告警就会产生堆积的现象。因此我们不难猜测，问题原因很可能是是缓冲队列推送频率变低的情况下，单次推送的告警数量太少，导致缓冲队列堆积。下面我们通过两个方面验证上述猜想：首先通过日志可以得到队列在大约 20230s 内推送了大约 2023 次，即平均 10s 推送一次。结合缓冲队列的具体属性，一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m，AlertManager 在接收到告警后早已超过了默认的自动解决时间（3m）。其次，Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况：

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值，看到存在告警丢失的总数，也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析，我们基本确定了问题的根源：Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题，我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列，我们通过估计一个告警数量的更大值，得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、…、xn，实体上的告警规则数量分别有 y1、y2、y3、…、yn，那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + … + xn * yn)，最多推送（y1 + y2 + y3 + … + yn）次，所以要使缓冲队列不堆积，maxBatchSize 应该满足：maxBatchSize >= (x1 * y2 + x2 * y2 + x3 * y3 + … + xn * yn) / (y1 + y2 + y3 + … + yn)，假设 x = max(x1,x2, …,xn), 将不等式右边适当放大后为 x，即 maxBatchSize 的最小值为 x。也就是说，可以将 maxBatchSize 设置为系统中数量更大的那一类监控实体，对于 DMP 平台，一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路，如果最终计算出该值过大，很有可能对 AlertManager 造成压力，因而失去缓冲队列的作用，所以还是需要结合实际情况，具体分析。因为 DMP 将 Ruler 集成到了自己的组件中，所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件，那么需要对源码文件进行定制化修改。

‍‍

关于数据库日志分析的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » 深入探究数据库日志分析的核心技术与实践 (数据库日志分析)

分享到：

数据日志是什么？

oracle数据库的警告日志如何查看

相关推荐