Linux系统 2023-07-30

Linux核心转储分析了解问题的原因并解决它。 (linux core dump 分析)

Linux 核心转储分析了解问题的原因并解决它。

Linux 核心转储（core dump）是指当操作系统遇到严重的错误或程序运行出现崩溃时，会将当前的程序状态、进程信息、寄存器信息等数据写入到一个特殊的文件中，这个文件就是.core文件。通过对此类文件进行分析，我们可以深入了解问题的原因，并解决它。

Linux 核心转储通常会产生在软件系统出现严重错误时。由于 Linux 是一种非常稳定的操作系统，这种情况并不太常见，但当他们出现时，核心转储通常都是我们唯一可以获得详细信息的手段。下面我们将详细介绍 Linux 核心转储的分析方法。

我们需要了解如何产生核心转储。Linux 下通常会使用一个叫做 “ulimit -c unlimited” 的命令来生成。该命令的作用是将系统在检测到错误时进行自动转储，同时不考虑输出的文件大小。此外，在出现错误时，Linux 还会向终端上下文中发送一条消息，提示出现了错误，并且记录下了核心转储文件的位置。

接下来，我们要对生成的核心转储文件进行分析。这对于诊断问题和修复系统非常有用。在这里我们介绍一种利用 GDB （GNU Debugger）进行分析的方法。以下是一些示例命令：

$ gdb ./程序名.core

..（GDB 初始化信息）

(gdb) bt

..（输出调用过程）

(gdb) p VARIABLES-NAMES

..（输出变量值）

(gdb) quit

之一行会打开 GDB，并指定核心文件为程序名.core。接着，我们可以使用 bt 命令来输出调用过程，及程序运行时与当前发生错误的代码段的堆栈信息。此外，我们还可以使用 p 命令来显示程序在发生错误时的变量的值等信息。

核心转储分析的重要性在于可以使我们更快地了解问题的根本原因，因此可以更快地修复问题，现在，让我们找出一些常见的错误和他们的解决方案。

“指针越界” 错误通常是由于使用 NULL 指针或在指针的空间以外进行读写操作造成的。我们可以通过在代码中添加一行 “assert” 语句来防止出错：

assert(p != NULL && p >= start && p

这样，当发现一个指针出现在空间以外时，程序会自动崩溃或者触发核心转储，我们可以通过分析这个.core文件，找出指针出错的具体原因。

另一种常见的错误是 “内存泄漏”。这种问题通常是由于程序中的一个内存块在释放之前未被正确地删除。我们可以通过编写一个类来帮助我们跟踪哪些内存块实际上已经被删除并被标记为 “释放”。

这个类的作用是在加入一个内存块时，将其标记为 “已加入（in_alloc）”，并在删除时将其标记为 “释放（in_delete）”。之后，我们就可以编写一个扫描器，扫描哪些内存块在使用后没有进行正确的释放。

最后一个例子是 “文件描述符泄漏”。这种情况通常发生在许多文件描述符已被打开，但忘记关闭其中的一些。在 Linux 系统中，为每个文件分配一个特定的文件描述符是一种常见的方式，当我们在打开一个文件时，操作系统使用调用 “open()” 函数并为其分配相应的文件描述符。在处理大量文件时，我们可能会倾向于忘记释放某些文件描述符并且不再使用它们。为了避免这种情况，我们可以编写一个用于标记哪些文件描述符已经被使用的类。

在本文中，我们已经介绍了如何利用核心转储来发现系统中的错误和问题。我们以几个实际的示例来说明了一些常见的错误及其解决方案。虽然这些示例和方法是具有一定代表性的，但在实际应用中可能需要更多的处理方式和更高的灵活性。因此，在实际应用中，我们应该有足够的耐心和冷静的头脑，考虑多种可能的解决方法，并尽可能地了解问题的详细信息，这些方法能够更好地指导我们的工作。

相关问题拓展阅读：

Redhat Linux下如何生成core dump文件

使用C/C++语言开发程序时，当程序crash的时候产生core dump文件对于调试程序是很有帮助的。在Redhat Linux系统中默认是不生成core dump文件的，这是因为在/etc/profile文件弊旦脊中有这样一行ulimit -S -c 0 /dev/null 2&1之一种方法是修改/etc/profile，把ulimit那一行改为ulimit -S -c unlimited /dev/null 2&1这样设置后系统允许所有用户生成没有大小限制的core dump文件。这样做的优点是不需要重起系统，缺点是无法控制只让某些用户生成core dump文件。* soft core 0如果只想对某些用户或用户组打开core dump，可以加入user soft core 0或@group soft core 0注意如果通过修改/etc/security/limits.conf文件打开core dump，还需要注释掉/etc/profile中的ulmit那一行#ulimit -S -c 0 /dev/null 2&1这样修改的优点是可以针对特定用户或特定组打开core dump文件，缺点是需要重起系统。最后说一下生租渗成core dump文件的位置，默认位置与可执行程序在同一目录迟仿下，文件名是core.***，其中***是一个数字。core dump文件名的模式保存在/proc/sys/kernel/core_pattern中，缺省值是core。通过以下命令可以更改core dump文件的位置(如希望生成到/tmp/cores目录下)

linux服务器端崩溃，有core文件信息，崩溃前我的最后一句代码是vector::clear()

这种错误，你有代码和coredump，都找不到问题了，别人怎么搞。

应该是内存相关的问题，对象已经释放了之类的。

你在gdb ， frame 1 ， frame 6等等，跳到对应的调用栈上去。检查TCards ， vector这种对象的指针是不是还是有效的？

到底什么原因导致的这个core dump。你空橘岁这个应该是游戏代码，用户离开的时候触发的这个bug。全部相伍迟关的逻辑代斗睁码都要检查一下吧，看看是不是哪里导致某个类的对象被销毁了多次之类的。

关于linux core dump 分析的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » Linux核心转储分析了解问题的原因并解决它。 (linux core dump 分析)

分享到：

Redhat Linux下如何生成core dump文件

linux服务器端崩溃，有core文件信息，崩溃前我的最后一句代码是vector::clear()

相关推荐