服务器 2023-06-30

服务器故障检测指南：用什么检测服务器故障？ (怎么检测服务器故障)

随着各行业信息化的不断推广，服务器已经成为了各种应用的核心设备之一。然而，由于服务器工作量大、负荷高、频繁运转等因素，服务器故障问题也日益突出，需要及时、准确地发现并解决。本文在此提出了一些常见的服务器故障检测方法，以供读者参考。

1. 服务器监控软件

服务器监控软件是一种用于监测和记录服务器性能的工具，可以检测服务器的 CPU、内存、磁盘使用率、带宽、负载等情况，并通过设定的阈值进行警告和通知。一些知名的监控软件包括 Nagios、Zabbix、PRTG、Solarwinds 等，它们拥有丰富的功能和灵活的配置，能够满足不同规模的服务器监控需求。通过安装监控软件，管理员可以随时了解服务器的状态，对于网络拓扑结构比较复杂的大型企业而言，服务器监控软件可以帮助管理员及时发现问题并提出有效的处理方案。

2. 日志分析工具

服务器日志是服务器工作过程中的重要记录，包含丰富的信息和事件，因此分析服务器日志可以帮助管理员了解服务器的运行情况和发现潜在的问题。一些知名的日志分析工具包括 ELK、Splunk、Graylog2、Loggly 等，它们可以收集、存储、分析服务器日志，并对异常事件进行警告。通过分析日志，管理员可以跟踪异常事件，定位故障原因，并提供有效的解决方案。

3. 端口扫描工具

端口扫描工具通常用于检测服务器开放的端口和服务，能够帮助管理员检测服务器的网络安全性以及是否存在异常服务或恶意进程。一些常用的端口扫描工具有 Nmap、Angry IP Scanner、SuperScan、Netcat 等。通过扫描端口，管理员可以了解服务器运行的进程及其占用的端口，发现异常进程和服务，并及时采取相应的应对行动。

4. 系统诊断工具

系统诊断工具能够检测服务器的硬件和软件状况，并发现可能导致服务器故障的问题。一些常用的诊断工具包括 Sysinternals Suite、HWiNFO、CPU-Z、DA64 等。通过运行系统诊断工具，管理员可以获得服务器的硬件配置以及运行状况，并发现可能的故障点。

5. 异常事件检测工具

异常事件检测工具是一种能够自动检测服务器异常事件的软件，例如未经授权的登录尝试、网站崩溃、CPU 使用率陡增等。一些知名的异常事件检测工具包括 LogRhythm、Splunk Enterprise Security、Trustwave SIEM 等。通过自动检测异常事件，管理员可以及时了解服务器的运行情况和性能下降的原因，并采取适当的应对措施。

综上所述，服务器故障的检测方法有多种，而不止是单一的一种方法能够检测到服务器的故障。因为服务器的工作量、负荷高以及运行频繁等原因，故障难以避免。但是通过以上提到的几种方法进行检测，管理员可以及时发现故障，并做出有效的处理，保证服务器的长期稳定运行。

相关问题拓展阅读：

服务器的路由器故障检查步骤是怎么样的？
求IBM服务器故障判断详解？

服务器的路由器故障检查步骤是怎么样的？

网络管理员90%的工作往往是诊断和解决各种各样的故障。虽然说没有人喜欢麻烦，但麻烦总是自己找上门来。只有拥有高超的诊断技能，你才能在紧急情况下迅速响应，保障网络流畅地运行。当你面临网络故障的挑战时，首先向自己问几个简单的问题：有哪些地方被改变了？这个问题以前遇到过吗？如果是，是什么时候？是否有可能让问题再次出现？用户做了什么特别的操作吗？其他用户有没有遇到过同样的问题？

接下来尝试隔离问题，每次排除一部

分可能引起该问题的因素，逐步找出问题的真正根源。例如，如果一个工作站不能连接到服务器，那就先确定是网络问题还是工作站本身的问题。如果能够迅速地肯定问题出在工作站本身，你就排除了一大半可能导致问题的因素，向真正的故障根源接近一大步了。即使你最终拿不出解决办法，不得不寻找外援，隔离问题也会节省你大量的时间。

为了说渣键明册返诊断网络故障的一般过程，本文例举了几种故障情形，有的是常见的小问题，有的是比较艰巨的挑战。当你遇到类似的问题时，就可以按照本文例子的介绍，先问如姿巧自己几个简单的问题，逐步隔离问题所在，最后找到真正的问题根源。

求IBM服务器故障判断详解？

故障提示：

ps 指示灯：当此指示灯发亮时，表明电源2 出现故障。

temp 指示灯：当此指示灯发亮时，表明系统温度超出阈值级别。

fan：当此指示灯点亮时，表明散热风扇或电源风扇出现故障或运行太慢。风扇发生故斗握障还会导致over temp 指示灯发亮。

link指示灯：当此指示灯发亮时，网卡出现故障。

vrm 指示灯：当此指示灯发亮时，表明微处理器托盘上的某个vrm 出现故障。

cpu 指示灯：当此指示灯发亮时，表明某个微处理器出现故障。

pci 指示灯：当此指示灯发亮时，表明某个pci 总线发生错误。

mem 指示灯：当此指示灯发亮时，表明发生内存错误。

dasd 指示灯：当此指示灯发亮时，表明某个热插拔硬盘驱动器出现故障。

nmi 指示灯：当此指示灯发亮时，表明出现一个不可屏蔽中断（nmi）。

sp 指示灯：当此指示灯发亮时，表明服务处理器遇到错误。扒销高

brd 指示灯：当此指示灯发亮时，表明某个连接的i/o 扩展单元出现故障。

log 指示灯：当此指示灯发亮时，表明您应该查看事件日志或remotesupervisor。

cnfg指示灯：当此指示灯发亮时，表明BIOS配置错误

。

raid 指示灯：当此指示灯发亮时，表明阵列卡故障。

over spec 指示灯：当此指示灯发亮时，表明对电源的需求超过了指定的电源供应。

remind 按钮：按下此按钮可重新设置操春尺作员信息面板上的系统错误指示灯并将服务器置于提醒方式。在提醒方式下，故障并没有清除但系统错误指示灯会闪烁（每2 秒闪烁一次）而不是持续发亮；如果出现另一个系统错误，则系统错误指示灯将会持续发亮。

断风扇和电源问题 1：x445开机加电无显示故障故障现场：开机加电无显示故障；双电源、双CPU、8条内存操作内容：单CPU测试 1.去掉一颗CPU和VRM测试，开机正常 2.加入去掉的CPU和VRM测试，开机正常 3.刷新BIOS 问题总结：多CPU配置机器大部分时候开机加电无显示大多都是由于CPU的VRM接触不良导致，在有能力的情况下做单CPU测试 2：故障现场：X345的信息颂手指示灯亮灯报错，但光路LED没亮灯操作内容：F2查看ErrorLog，里面有Single Bit Error，更换内存问题总结：日志里面有Single Bit Error，更换内存就好了。 3：故障现场：X346的信息指示灯亮灯报错，具体显示PS2错误或光诊断面板没有出现相关的硬件报错信息操作内容：确定不是硬件问题，F1进入BIOS 看post envent log 为空进入adv –> BMC setting 清除BMC log 。关闭服务器红灯消失。重起现象还存在，把电源去电几分钟就好了这个是ibm 服务器的bmc 的一个 bug 现在可以更新bmc解决这个问题。一般换电源背板就可以解决，在单电源状态下，故障现象：PS2灯报错。有部分机器出厂时就有这个问题：标配单电源，却误报第二个电源未接，所以PS2灯亮。是电源背板微码识别错误，导致误报。将电源背板更换成07版本以上就可以了。可打800报修，上门更换。若加载两个正常的电源,原故障消失,但又出现”Fan”故障。你所加载的电源，肯定是直接从别的X346机器上拔下来的。事实上如果加插冗余电源，则X346要求风扇也必须满配，否则报错。问题总结：X346通病，电源换一个位置就差不多没问题了，或者试试关掉电源几分钟再开机 4：关于cpu不同级问题故障现场：X366-1RC ，使用1个标配的CPU时正常，当加入第二个CPU时出现不定时无故重起操作内容：” The CPUs in this multiprocessor system are not all the same revision level. To use all processors the operating system restricts itself to the features of the least capable processor in the system. Should problems occur with this system, contact the CPU manufacturer to see if this mix of processors is supported. “－－－系统日志。F1进入Bios，进入cpu信息p1 levels 17 ,p2 levels 2 相差太远了解决方法更换第二个cpu 问题总结：CPU 不在一个等级上（服务器的cpu都是xeon话支持p技术，但是一样的CPU 使用时一定要确定是否在一个等级） 5：故障现场：X260的服务器8IRAID卡,通过SERVERGUIDE光盘进入进行RAID配置进,行RAID配置的过程中却没有发现任何磁盘操作内容：下载了SERVERRAID8.20光盘后。给客户的升级了13N2227的FIRMWARE和BIOS后问题总结：X260服务器内部架构属于X3架构，与X366内部类似。同样安装了8IRAID卡。X260为新机型需要用FRU号为39R8729的那块卡才行，原先的13N2227这块卡不行。或升级13N2227这块卡的FIRMWARE和BIOS。通过SERVERRAID8.20启动后能够正常认出硬盘并进行了RAID配置 6：X236+6M认不出盘故障现场：X236+了6M卡和6块146GSCSI盘操作内容：在读取6M阵列卡BIOS时却一直处于6分钟的搜索硬盘过程，但一个盘都没有认出，进入CTRL+I对6M卡的BIOS进行了RESTOR FACTOR，但是却一直卡在PROSSING的这个过程中。6M卡进行了重新插拔，更换PCI槽口，以及野慎嫌更换SCSI槽口结果仍然没有效果。咨询提示孝察提示： 1、先把所有硬盘拔下。 2、开机进6M卡BIOS重新进行RESTOR FACTOR。 3、一块一块的逐个添加磁盘。成功问题总结：每次新添加一块磁盘的时候在6M卡BIOS读秒的时候大概是需要1分10秒左右。其中有一次我是一下子添加了2块盘用掉2分钟多点。那是不是因为6块盘一起上的时候6M卡搜索磁盘的读秒时间不够所造成磁盘没有搜索到呢有待证实。 7：HBA卡驱动错误故障现场：服务器NMI/PCI/LOG灯亮，进系统时蓝屏操作内容：刷新BIOS/BMC/CPLD/DIAGNOSTIC。 1.抓去BMC日志保存 2.检查机器内部PCI卡，PCI4槽位上接了一块Qlogic的HBA卡，这张卡接的非常松，感觉根本没有插上 3.拔掉HBA卡开机测试一切正常，清空日志，断电再将HBA卡重新插回去开机测试，在windows2023自检硬件过程中系统又蓝屏，同时NMI/PCI/LOG灯亮。 4.重新去除HBA卡开机后正常进入系统，考虑机器微码比较老，先把微码用update express4.05光盘刷到最新版本，再接回HBA后正常进入系统，但是这时在系统中提示要重新安装HBA卡的驱动程序，客户自行找了一个驱动安装上后重新启动，重启后检测硬件故障又出现了。这样可以判断应该是HBA卡驱动的问题。 5.开机按F8进入操作系统，将HBA卡驱动删除，然后查看HBA型号，安装针对该型号驱动后，一切正常，多次重启都无故障。问题总结：硬件故障的排除步骤 8：更换8863机器硬盘服务故障现场：88631RC，5块硬盘，RAID5，ID0硬盘频繁离线，每次重新拔插都能正常rebuild 操作内容：1.安装serveraid manager 8.40版，安装过程无报错，在重新启动服务器关闭操作系统过程中有几个软件的报错 2.重启过程中在通过windows2023启动进度条之后系统蓝屏，蓝屏代码c，上一次正确配置、安全模式均出现次故障 3.查看raid卡日志并未发现有明显的报错，想查看阵列是否有坏条带，但是在8i日志中并未看到有坏条带这一相关信息，向同事请教也未发现有相关信息；将raid卡BIOS和Firmware同样升级到8.40（5.20.11835）后故障同样。客户有相同机器，安装的系统版本也一致，通过另外一台机器创建紧急修复磁盘对操作系统进行紧急修复（手动和快速两种方式）后故障依旧。通过internet上搜索，有朋友通过故障恢复控制台进入使用chkdsk /r指令修复了该故障，尝试相同方法，故障依旧。（网上的朋友是单硬盘模式，可以修复该类硬盘坏区故障，由于客户使用的是raid5阵列，所以这种修复无效） 4.考虑客户数据问题，在原有操作系统上覆盖安装windows 2023server后先把重要数据备份出来，之后再重新安装了一遍操作系统 5.然后使用serveraid support cd 8.40光盘引导服务器将ID0硬盘手工设置为defunct状态，再将其拔出，插上新硬盘，硬盘这时开始自动rebuild，由于硬盘中数据量不是很大，5块73.4G硬盘同步时间大约为30分钟，同步全为后台自动操作，在同步期间服务器重启多次，重启到检测阵列卡过程中停止，提示阵列卡发现有硬盘missing或者array is rebuilding，提示三种操作：a.直接安回车，接受现在的状态；b.按ctrl＋h（后面忘了是什么，等待查hmm）；c.按ctrl＋m（后面忘了是什么，等待查hmm）；所以在每次重启过程中都需要手动按下回车之后才会进入操作系统 6.刷新5个硬盘的微码到同一版本T107，结束服务

怎么检测服务器故障的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于怎么检测服务器故障,服务器故障检测指南：用什么检测服务器故障？,服务器的路由器故障检查步骤是怎么样的？,求IBM服务器故障判断详解？的信息别忘了在本站进行查找喔。

数据运维技术 » 服务器故障检测指南：用什么检测服务器故障？ (怎么检测服务器故障)

分享到：

服务器的路由器故障检查步骤是怎么样的？

求IBM服务器故障判断详解？

相关推荐