F5的风扇故障
今天偶然发现F5上有大量报警:
Chassis fan 101:status (0) is bad.
Chassis fan 102:status (0) is bad.
Chassis fan 103:status (0) is bad.
Chassis fan 104:status (0) is bad.
Chassis fan 105:status (0) is bad.
Chassis fan 106:status (0) is bad.
开始觉得这种报警是误报,于是没太在意,因为反正还有Slave在,因此我顺便检查了一下Slave,发现居然一样的错误非常多,顿时我傻眼了。
于是,重新检查了一下:
#system_check
010d0005:3: Chassis fan 101:status (0) is bad.
010d0005:3: Chassis fan 102:status (0) is bad.
010d0005:3: Chassis fan 103:status (0) is bad.
010d0005:3: Chassis fan 104:status (0) is bad.
010d0005:3: Chassis fan 105:status (0) is bad.
010d0005:3: Chassis fan 106:status (0) is bad.
# b platform
CHASSIS FAN
(101) DOWN! (102) DOWN! (103) DOWN! (104) DOWN! (105) DOWN! (106) DOWN!
Master和Slave的6个风扇全部为DOWN。靠,简直是噩梦。
让IDC同事马上到机房检查情况,发现也是很多报警信息在液晶屏上。而且机房通风情况良好,b platform输出的CPU温度为50摄氏度样子。
联系厂家,按照惯例,我们保存了配置,收集了相关信息。开始重启Slave,准备进行EUD检查(End User Diagnostics)。结果发现重启后起码10分钟没起来,无奈再次重启,很幸运,这次顺利起来了。再次进入系统发现6个Fan都是Active,
Shit!一次可耻的误报!
切换Master,在Master上进行和Slave一样的操作,遇到一样的问题,重启2次后问题解决。到此,警报解除,我们都如释重负。
PS:发现2台F5都有大量报警时,我非常紧张,想到了很多严重的后果。明天要好好做下F5的自动报警。