Linux系统 2023-07-03

解决Linux程序崩溃的更佳方案 (linux 程序崩溃)

Linux操作系统作为一款免费开源的操作系统，在服务器和嵌入式设备领域广泛应用。然而，Linux程序偶尔会崩溃，这会导致系统稳定性下降和应用功能失效。在生产环境下，程序崩溃可能会导致用户甚至业务损失。为了解决这个问题，本文将介绍Linux程序崩溃的常见原因和更佳解决方案。

一、常见原因

1. 内存分配错误

内存分配错误是Linux程序崩溃的主要原因之一。在Linux中，程序通常使用malloc函数来分配堆内存。如果程序分配的内存超过了系统可用内存，内核将不得不终止该进程并释放它占用的内存。

2. 资源竞争

在多线程编程中，资源竞争也是一种可能导致程序崩溃的情况。如果两个线程尝试同时访问同一个资源（如共享内存或全局变量），就会导致资源竞争。在一个线程尝试修改正在由另一个线程使用的内存区域时，就有可能发生段错误导致程序崩溃。

3. 编程逻辑错误

程序员在编写代码时也会犯错误。例如，数组索引越界、空指针解引用等错误可能导致程序崩溃。

二、更佳解决方案

1. 使用内存检测工具

使用内存检测工具可以帮助我们检查程序中的内存分配错误。Valgrind是一种常见的内存检测工具，它可以监测程序的内存访问并报告任何错误。如果你的程序使用了大量的内存分配，使用Valgrind能够判断程序是否存在内存泄漏等问题。

2. 添加线程安全措施

为了避免资源竞争，可以添加线程安全措施。这可以通过加锁等方法来保护临界区资源不被多个线程同时访问。POSIX线程库包含了一些锁机制，例如互斥锁（mutex）、读/写锁（read-write lock）等。

3. 编程时避免常见错误

在编写代码时，更好使用一些安全的编程技巧，例如常量定义、错误处理等。对于C语言程序来说，在定义变量时初始化可以提高代码的健壮性。此外，在使用系统调用的时候，我们应该注意检查返回值并处理错误情况。

4. 使用系统级工具

Linux内核提供了一些系统级工具，如gdb、strace和perf等。gdb是一个调试器，可以帮助我们在程序崩溃后识别崩溃的位置和原因。strace是一个跟踪工具，可以跟踪一个进程的系统调用，帮助我们了解进程的行为和性能。perf是一款性能分析工具，用于检测和优化程序的性能。

5. 使用Docker容器

使用Docker容器可以帮助我们隔离环境，提高系统的稳定性。Docker容器将应用程序及其依赖项打包到一个可移植的容器中，在容器中运行程序，可以保证应用程序的运行环境稳定不变。如果应用程序崩溃了，我们可以直接重启容器来恢复运行。

在Linux程序崩溃的情况下，我们应该采取一系列的措施来保证应用程序的稳定性和可靠性。这些措施包括使用内存检测工具、添加线程安全措施、编程时避免常见错误、使用系统级工具以及使用Docker容器等。通过优秀的编程实践和有效的管理策略，我们可以避免程序崩溃所带来的影响，保障应用程序的正常运行。

相关问题拓展阅读：

Linux 下的Java进程自己关闭，怎么解
linux c内存溢出的core dump bug怎么跟

Linux 下的Java进程自己关闭，怎么解

Linux中java进程自猛蔽己关闭，有2种可能：

1、是程序本身出现bug，造成java程序崩溃，进程失效；

2、扰配是系统服务设置了自我监控的机制，java占用资源过多的话，关闭了java进程来释放占用的缓知指资源。

linux c内存溢出的core dump bug怎么跟

浅析Linux下core文件

当渗蚂我们的程序崩溃时，内核有可能把该程序当前内存映射到core文件里，方便程序员找到程序出现问题的地方。最常出现的，几乎所有C程序员都出现过的错误就是“段错误”了。也是最难查出问题原因的一个错误。下面我们就针对“段错误”来分析core文件的产生、以及我们如何利用core文件找到出现崩溃的地方。

何谓core文件

当一个程序崩溃时，在进程当前工作目录的core文件中复制了该进程的存储图像。core文件仅仅是一个内存映象(同时加上调试信息)，主要是用来调试的。

当程序接收到以下UNIX信号会产生core文件：

名字

说明

ANSI C POSIX.1

SVR4 4.3+BSD

缺省动作

SIGABRT

异常终止(abort)

. .

终止w/core

SIGBUS

硬件故障

. .

终止w/core

SIGEMT

硬件故障

. .

终止w/core

SIGFPE

算术异常

. .

终止w/core

SIGILL

非法硬件指令

. .

终止w/core

SIGIOT

硬件故障

. .

终止w/core

SIGQUIT

终端退出符

. .

终止w/core

SIGSEGV

无效存储访问

. .

终止w/core

SIGSYS

无效系统调用

. .

终止w/core

SIGTRAP

硬件故障

. .

终止w/core

SIGXCPU

超过CPU限制(setrlimit)

. .

终止w/core

SIGXFSZ

超过文件长度限制(setrlimit)

. .

终止w/core

在系统默认动作列，“终止w/core”表示在进程当前工作目录的core文件中复制了该进程的存储图像（该文件名为core，由此可以看出这种功能很久之前就是UNIX功能的一部分）。大多数UNIX调试程序都使用core文件以检查进程在终止时的状态。

core文件的产生不是POSIX.1所属部分,而是很多UNIX版本的实现特征。UNIX第6版没有检查条件 (a)和(b)，并且其源代码中包含如下说明：“如果你正在找寻保护信号，那么当设置-用户-ID命令颤喊游执行时，将可能产生大量的这种信号”。4.3 + BSD产生名为core.prog的文件，其中prog是被执行的程序名的前1 6个字符。它对core文件给予了某种标识，所以是一种改进特征。

表中“硬件故障”对应于实现定义的硬件故障。这些名字中有很多取自UNIX早先在DP-11上的实现。请查看你所使用的系统的手册，以确切地确定这些信号对应于哪些错误类型。

下面比较详细地说明这些信号。

• SIGABRT 调用abort函数时产生此信号。进程异常终止。

• SIGBUS 指示一个实现定义的硬件故障。

• SIGEMT 指示一个实现定义的硬件故障。

EMT这一名字来自PDP-11的emulator trap 指令。

• SIGFPE 此茄销信号表示一个算术运算异常，例如除以0，浮点溢出等。

• SIGILL 此信号指示进程已执行一条非法硬件指令。

4.3BSD由abort函数产生此信号。SIGABRT现在被用于此。

• SIGIOT 这指示一个实现定义的硬件故障。

IOT这个名字来自于PDP-11对于输入／输出TRAP(input/output TRAP)指令的缩写。系统V的早期版本，由abort函数产生此信号。SIGABRT现在被用于此。

• SIGQUIT 当用户在终端上按退出键（一般采用Ctrl-\）时，产生此信号，并送至前台进

程组中的所有进程。此信号不仅终止前台进程组（如SIGINT所做的那样），同时产生一个core文件。

• SIGSEGV 指示进程进行了一次无效的存储访问。

名字SEGV表示“段违例（segmentation violation）”。

• SIGSYS 指示一个无效的系统调用。由于某种未知原因，进程执行了一条系统调用指令，

但其指示系统调用类型的参数却是无效的。

• SIGTRAP 指示一个实现定义的硬件故障。

此信号名来自于PDP-11的TRAP指令。

• SIGXCPU SVR4和4.3+BSD支持资源限制的概念。如果进程超过了其软C P U时间限制，则产生此信号。

• SIGXFSZ 如果进程超过了其软文件长度限制，则SVR4和4.3+BSD产生此信号。

摘自《UNIX环境高级编程》第10章信号。

使用core文件调试程序

看下面的例子：

/*core_dump_test.c*/

#include

const char *str = “test”;

void core_test(){

str = ‘T’;

}

int main(){

core_test();

return 0;

}

编译：

gcc –g core_dump_test.c -o core_dump_test

如果需要调试程序的话，使用gcc编译时加上-g选项，这样调试core文件的时候比较容易找到错误的地方。

执行：

./core_dump_test

段错误

运行core_dump_test程序出现了“段错误”，但没有产生core文件。这是因为系统默认core文件的大小为0，所以没有创建。可以用ulimit命令查看和修改core文件的大小。

ulimit -c 0

ulimit -c 1000

-c 指定修改core文件的大小，1000指定了core文件大小。也可以对core文件的大小不做限制，如：

ulimit -c unlimited

如果想让修改永久生效，则需要修改配置文件，如 .bash_profile、/etc/profile或/etc/security/limits.conf。

再次执行：

./core_dump_test

段错误 (core dumped)

ls core.*

core.6133

可以看到已经创建了一个core.6133的文件.6133是core_dump_test程序运行的进程ID。

调式core文件

core文件是个二进制文件，需要用相应的工具来分析程序崩溃时的内存映像。

file core.6133

core.6133: ELF 32-bit LSB core file Intel 80386, version 1 (SYSV), SVR4-style, from ‘core_dump_test’

在Linux下可以用GDB来调试core文件。

gdb core_dump_test core.6133

GNU gdb Red Hat Linux (5.3post-0..18rh)

GDB is free software, covered by the GNU General Public License, and you are

welcome to change it and/or distribute copies of it under certain conditions.

Type “show copying” to see the conditions.

There is absolutely no warranty for GDB. Type “show warranty” for details.

This GDB was configured as “i386-redhat-linux-gnu”…

Core was generated by `./core_dump_test’.

Program terminated with signal 11, Segmentation fault.

Reading symbols from /lib/tls/libc.so.6…done.

Loaded symbols for /lib/tls/libc.so.6

Reading symbols from /lib/ld-linux.so.2…done.

Loaded symbols for /lib/ld-linux.so.2

#0 0x080482fd in core_test () at core_dump_test.c:7

str = ‘T’;

(gdb) where

#0 0x080482fd in core_test () at core_dump_test.c:7

#1 0xin main () at core_dump_test.c:12

#2 0xin __libc_start_main () from /lib/tls/libc.so.6

GDB中键入where，就会看到程序崩溃时堆栈信息（当前函数之前的所有已调用函数的列表（包括当前函数），gdb只显示最近几个），我们很容易找到我们的程序在最后崩溃的时候调用了core_dump_test.c 第7行的代码，导致程序崩溃。注意：在编译程序的时候要加入选项-g。您也可以试试其他命令，　如　fram、list等。更详细的用法，请查阅GDB文档。

core文件创建在什么位置

在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数，则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了，我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生core文件。

什么时候不产生core文件

在下列条件下不产生core文件：

( a )进程是设置-用户-ID，而且当前用户并非程序文件的所有者；

( b )进程是设置-组-ID，而且当前用户并非该程序文件的组所有者；

( c )用户没有写当前工作目录的许可权；

( d )文件太大。core文件的许可权(假定该文件在此之前并不存在)通常是用户读/写，组读和其他读。

关于linux 程序崩溃的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » 解决Linux程序崩溃的更佳方案 (linux 程序崩溃)

分享到：

Linux 下的Java进程自己关闭，怎么解

linux c内存溢出的core dump bug怎么跟

相关推荐