Linux系统 2023-07-01

Linux RAC出现故障：如何快速解决？ (linux rac 故障)

在集群计算中，RAC（Real Application Clusters）是一种常见的方案，用于提高系统可靠性和效率。然而，就像任何其他软件一样，RAC也可能出现故障。在Linux环境中，如果RAC出现故障，应该如何快速解决呢？本文将介绍一些解决故障的方法。

故障排查

当RAC出现故障时，首先要做的是排查问题，找出故障原因。

1.日志

查看系统日志。Linux的系统日志位于/var/log目录下，一些关键的日志文件包括messages、kernel和syslog。通过查看这些日志，可以发现一些系统错误信息，从而找出引起RAC故障的原因。

2.服务状态

使用命令systemctl status查看RAC相关的服务状态。例如，如果使用Oracle RAC，则可以查看oraclea、oracledb和nodeagent等服务的状态。如果某个服务无法正常启动，就可能是RAC出现了问题。

3.网络连接

检查网络连接是否正常。在RAC中，节点之间的通信非常重要。如果节点之间的网络连接中断或者延迟过大，就会导致RAC故障。可以使用命令ping或者telnet来测试节点之间的网络连接状态。同时，也要检查防火墙的设置，确保可以正常通信。

解决方法

当找到RAC故障的根本原因之后，就可以采取相应的解决方法了。

1.重启服务

如果某个服务出现了问题，可能只需要重启服务即可解决。可以使用命令systemctl restart service_name来重启服务。

2.更新软件包

有时候，RAC故障是由于软件包版本过旧导致的。可以使用命令yum update来升级软件包。

3.修复文件系统

当文件系统损坏时，也可能导致RAC故障。此时，可以使用命令fsck检查和修复文件系统。

4.重新设置系统时间

如果系统时间不正确，也可能导致RAC故障。可以使用命令date来查看和设置系统时间。

5.调整内存和CPU

RAC需要足够的内存和CPU资源才能正常运行。如果内存或CPU不足，就可能导致RAC故障。例如，可以使用命令top来查看系统资源使用情况，并且根据需要调整系统配置。

RAC故障可能会导致系统崩溃、数据丢失等问题，因此必须及时发现和解决。在Linux环境中，排查RAC故障的方法包括查看日志、检查服务状态和网络连接等。解决方法包括重启服务、更新软件包、修复文件系统、重新设置系统时间和调整内存和CPU等。只有通过实践和不断探索，才能更好地解决RAC故障问题，提高Linux系统的可靠性和效率。

相关问题拓展阅读：

linux系统重启网卡后网络不通（NetworkManager篇）
oracle 11g r2 rac linux下 ntp问题
oracle无法联系代理我的ORACLE是 g的企业版，装在LINUX服务器上，两台服务器做了一个RAC集群，

linux系统重启网卡后网络不通（NetworkManager篇）

个人博客:点击这里进入

一.故轿逗障现象

RHEL7.6系统，使用nmcli绑定双网卡闭唯卖后，再使用以下命令重启network服务后主机网络异常，导致无法通过ssh远程登录系统。

# systemctl restart network

二.理论知识

Network service的制御网络接口配置信息改动后，网络服务必须从新启动，来激活网络新配置的使得配置生效，这部分操作和从新启动系统时时一样的作用。制御（控制）是/etc/init.d/network这个文件，可以用这个文件后面加上下面的参数来操作网络服务。例如：

# /etc/init.d/network restart

同样也可以用service这个命令来操作网络服务例如：

# service network restart

# systemctl restart network (NetworManager)是检测网络、自动连接网络的程序。无论是无线还是有线连接，它都可以令您轻松管理。对于

无线网络

,网络管理器可以自动切换到最可靠的无线网络。利用网络管理器的程序可以自由切换在线和

离线模式

。网络管理器可以优先选择有线网络，支持 VPN。网络管理器最初由 Redhat 公司开发，现在由 GNOME 管理

三.环境分析

系统版本：Red Hat Enterprise Linux Server release 7.6

内核

版本：3.10.0-957.el7.x86_64

硬件类型：Huawei 2288H V5

首先检查系统网络配置，该系统配置两块bonding设备，分别是：

bond0：业务网络

bond1：

Oracle RAC

心跳网络分析

系统日志

，当重启network服务时（systemctl restart network），系统messages日志中无明显异常,测试发现，当停止NetworkManager服务后，问题现象消失，即执行如下操作：

# systemctl stop NetworkManager

此时再次重启network服务：

# systemctl restart network

可以很快ping通山乱bond0的业务地址10.116.6.194。进一步分析发现，如果不停止NetworkManager服务，而是修改网卡

配置文件

，在bonding网卡和组成bonding的slave网卡的配置文件中增加一行配置,也可以解决该问题。

NM_CONTROLLED=no

参考

红帽

RHEL7配置网卡bonding的官方文档：

可以看到，官方文档的配置示例中设置了NM_CONTROLLED=”no”:

<img src="

” align=”center”>

<img src="

” align=”center”>

四.原厂问题建议

该问题是由于NetworkManager服务引起，可以通过如下两种方法解决：

在网卡配置文件中增加参数NM_CONTROLLED=no（“no”的引号可以不写），设置后重启network服务生效。设置NM_CONTROLLED=no的目的是将

网络设备

脱离NetworkManager服务的管理，设置后该网络设备仅由network服务管理，不受NetworkManager服务控制，因而nmcli命令对该网络设备不再生效；

停止并禁用NetworkManager服务，停用后所有网络设备由network服务管理，不能通过nmcli命令来管理网络设备:

# systemctl stop NetworkManager

# systemctl disable NetworkManager

五.解决方案

据上所述，可关闭NetworkManager服务或在BOND配置文件中添加参数，但因环境需要，需使用nmcli命令，故无法关闭NetworkManager，在多轮测试中进行思考，既然NetManager与network服务冲突，但nmcli命令属于NetworkManager，systemctl一般用来管理network，考虑两者管理命令可能也存在冲突后进行了一波测试，使用NetworkManager的nmcli进行网卡的重启操作，使用以下命令后，网络可以即刻ping通并通过SSH连接

# nmcli connection down 网口名称

# nmcli connection up 网口名称

六.结论

因NetworkManager与network服务存在冲突，且双网卡绑定时所使用的的nmcli进行绑定，nmcli归属于NetworkManager，故重启网卡时应用nmcli命令up/down，不应使用systemctl进行网卡重启

oracle 11g r2 rac linux下 ntp问题

设置NTP服务的目的，是让构建RAC环境的两台机器的时间保持一致

让链神其中一台为主，另外的NTP服务指到该服务器即可。

在11GR2，新增加了一个CTSS进程，专门用于时间同乱清步，因此，需要以下配置

开启棚陪亏NTPD服务，但必须以-X选项启动NTP服务

# /in/service ntpd start

# chkconfig ntpd on

修改文件/etc/sysconfig/ntpd，增加-x 选项

vi /etc/sysconfig/ntpd

—

OPTI

—

之后，必须重新启动ntp

oracle无法联系代理我的ORACLE是 g的企业版，装在LINUX服务器上，两台服务器做了一个RAC集群，

看起来基本都搞定了啦，呵呵

企业管理器开不起来不是很重要！

你先橡嫌看一下集群是否正常！

su – oracle

srvctl status database -d 你的集群名字

集群的启动状态！

切化到su – grid

crs_stat -t -v

看一下集群的信息

把毁如孝crs_stat -t -v 信息贴出来！

集群启动的时候需要些时间的！

不要着急！

ps -ef|grep grid 看一下系统的进程。

这个时候千纤稿万不要慌。

关注，帮他顶起来

关于linux rac 故障的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。

数据运维技术 » Linux RAC出现故障：如何快速解决？ (linux rac 故障)

分享到：