/ 中存储网

HP9000小型机系统故障后的诊断思路和方法分享

2018-04-17 14:35:43 来源:中存储网

做运维,要有清晰的思路,遇到问题,不要慌,要根据自己的经验进行有条理的分析,逐步检查和排除故障。

如果发现你的hpux系统工作不正常,可以先观察硬件状态指示灯的情况。

开机后系统将自动完成自测试,诊断及引导启动代码。检测顺序大致为:中央处理器,总线,内存,I/O设备。当检测到相关的硬件时,对应的显示灯会亮。

具体的指示灯的含义可以参见support网站上知识中心《HP 小型机及存储面板指示灯专题V1.0-20050401-B》 。

1.CPU 的检查

#  top

System: hp3440a                                       Fri Feb 24 13:51:07 2006

Load averages: 0.00, 0.00, 0.01

102 processes: 93 sleeping, 8 running, 1 zombie

Cpu states:

CPU   LOAD   USER   NICE    SYS   IDLE  BLOCK  SWAIT   INTR   SSYS

0        0.00        0.0%    0.0%     0.0%  100.0%   0.0%    0.0%       0.0%    0.0%

1        0.00        0.0%    0.0%     0.0%  100.0%   0.0%    0.0%       0.0%    0.0%

---   ----  -----  -----  -----  -----  -----  -----  -----  -----

avg   0.00         0.0%     0.0%     0.0% 100.0%   0.0%   0.0%         0.0%    0.0%

可以看到系统现在有几个CPU在运行,看有没有少CPU。

2. Disk 的检查

#ioscan  -fnCdisk | more

Class    I  H/W Path     Driver   S/W State     H/W Type     Description

==============================================================

disk      0  0/0/1/1.2.0  sdisk    CLAIMED     DEVICE          SEAGATE ST39204LC

/dev/dsk/c1t2d0   /dev/rdsk/c1t2d0

disk      1  0/0/2/1.2.0  sdisk    CLAIMED     DEVICE          HP               DVD-ROM 305

/dev/dsk/c3t2d0   /dev/rdsk/c3t2d0

disk      5  0/6/0/0.8.0.110.1.0.0  sdisk    CLAIMED         DEVICE       HP      A6189B

/dev/dsk/c10t0d0   /dev/rdsk/c10t0d0

disk      6  0/6/0/0.8.0.110.1.0.1  sdisk    NO_HW            DEVICE       HP      A6189B

/dev/dsk/c10t0d1   /dev/rdsk/c10t0d1

disk      7  0/6/0/0.8.0.110.1.0.2  sdisk    NO_HW            DEVICE       HP      A6189B

/dev/dsk/c10t0d2   /dev/rdsk/c10t0d2

在上面的例子中,磁盘状态是“NO_HW“代表此盘在主机最初启动时是正常的,可被系统正常访问;但现在系统核心已找不到这个物理盘体。造成此状态的具体原因有可能是:

1)物理磁盘损坏。

2)到这个磁盘的硬件连接通道有问题(SCSI卡,SCSI 线,光纤卡,光纤线, 光纤交换机…)。

3)这个磁盘被在线移掉。

3. I/O 的检查

#ioscan  -fn  | more

Class       I  H/W Path      Driver    S/W State   H/W Type     Description

============================================================================

root        0                          root      CLAIMED     BUS_NEXUS   

ioa          0   0                     sba       CLAIMED     BUS_NEXUS    System Bus Adapt

er (582)

ba           0   0/0                  lba       CLAIMED     BUS_NEXUS    Local PCI Bus Ad

apter (782)

lan          0   0/0/0/0            btlan     CLAIMED     INTERFACE    HP PCI 10/100Bas

e-TX Core

/dev/diag/lan0  /dev/ether0     /dev/lan0    

ext_bus  0   0/0/1/0            c720      CLAIMED     INTERFACE    SCSI C896 Ultra

Wide Single-Ended target      0  0/0/1/0.3     tgt       CLAIMED     DEVICE      

tape        0   0/0/1/0.3.0      stape     NO_HW       DEVICE       HP      C1537A

target     1   0/0/1/0.7         tgt       CLAIMED     DEVICE      

ctl           0   0/0/1/0.7.0      sctl      CLAIMED     DEVICE       Initiator

/dev/rscsi/c0t7d0

target          7  0/0/2/1.15    tgt       CLAIMED     DEVICE      

disk            2  0/0/2/1.15.0  sdisk   CLAIMED     DEVICE       HP 36.4GATLAS10K

3_36_SCA

/dev/dsk/c3t15d0   /dev/rdsk/c3t15d0

Unknown  -1  0/0/3/0                    UNCLAIMED   UNKNOWN      PCI

tty         0  0/0/4/0       asio0            CLAIMED     INTERFACE    PCI Serial (103c

1048)

/dev/GSPdiag1   /dev/mux0       /dev/tty0p1  

/dev/diag/mux0  /dev/tty0p0     /dev/tty0p2

*在 “ioscan –fn“ 的输出结果中,造成I/O 设备的状态是Unclaimed或  Unknown的原因是:

1)此设备的Driver 没有加载到核心里;所以操作系统无法识别和驱动这个I/O设备。

2)也可能是由于没有安装相应I/O 设备的Patch. 

*在“ioscan –fn“的输出结果中,I/O设备的状态是“NO_HW“代表此I/O外设在主机最初启动时是正常的,可被系统正常访问;但现在系统核心已找不到这个I/O设备。 

1)  I/O 设备物理损坏。

2)  到这个I/O外设的硬件连接通道有问题。

3)  这个I/O外设被在线移掉(例如:磁带机,DVD-ROM 被在线拔走)。