做运维,要有清晰的思路,遇到问题,不要慌,要根据自己的经验进行有条理的分析,逐步检查和排除故障。
如果发现你的hpux系统工作不正常,可以先观察硬件状态指示灯的情况。
开机后系统将自动完成自测试,诊断及引导启动代码。检测顺序大致为:中央处理器,总线,内存,I/O设备。当检测到相关的硬件时,对应的显示灯会亮。
具体的指示灯的含义可以参见support网站上知识中心《HP 小型机及存储面板指示灯专题V1.0-20050401-B》 。
1.CPU 的检查
# top
System: hp3440a Fri Feb 24 13:51:07 2006
Load averages: 0.00, 0.00, 0.01
102 processes: 93 sleeping, 8 running, 1 zombie
Cpu states:
CPU LOAD USER NICE SYS IDLE BLOCK SWAIT INTR SSYS
0 0.00 0.0% 0.0% 0.0% 100.0% 0.0% 0.0% 0.0% 0.0%
1 0.00 0.0% 0.0% 0.0% 100.0% 0.0% 0.0% 0.0% 0.0%
--- ---- ----- ----- ----- ----- ----- ----- ----- -----
avg 0.00 0.0% 0.0% 0.0% 100.0% 0.0% 0.0% 0.0% 0.0%
可以看到系统现在有几个CPU在运行,看有没有少CPU。
2. Disk 的检查
#ioscan -fnCdisk | more
Class I H/W Path Driver S/W State H/W Type Description
==============================================================
disk 0 0/0/1/1.2.0 sdisk CLAIMED DEVICE SEAGATE ST39204LC
/dev/dsk/c1t2d0 /dev/rdsk/c1t2d0
disk 1 0/0/2/1.2.0 sdisk CLAIMED DEVICE HP DVD-ROM 305
/dev/dsk/c3t2d0 /dev/rdsk/c3t2d0
disk 5 0/6/0/0.8.0.110.1.0.0 sdisk CLAIMED DEVICE HP A6189B
/dev/dsk/c10t0d0 /dev/rdsk/c10t0d0
disk 6 0/6/0/0.8.0.110.1.0.1 sdisk NO_HW DEVICE HP A6189B
/dev/dsk/c10t0d1 /dev/rdsk/c10t0d1
disk 7 0/6/0/0.8.0.110.1.0.2 sdisk NO_HW DEVICE HP A6189B
/dev/dsk/c10t0d2 /dev/rdsk/c10t0d2
在上面的例子中,磁盘状态是“NO_HW“代表此盘在主机最初启动时是正常的,可被系统正常访问;但现在系统核心已找不到这个物理盘体。造成此状态的具体原因有可能是:
1)物理磁盘损坏。
2)到这个磁盘的硬件连接通道有问题(SCSI卡,SCSI 线,光纤卡,光纤线, 光纤交换机…)。
3)这个磁盘被在线移掉。
3. I/O 的检查
#ioscan -fn | more
Class I H/W Path Driver S/W State H/W Type Description
============================================================================
root 0 root CLAIMED BUS_NEXUS
ioa 0 0 sba CLAIMED BUS_NEXUS System Bus Adapt
er (582)
ba 0 0/0 lba CLAIMED BUS_NEXUS Local PCI Bus Ad
apter (782)
lan 0 0/0/0/0 btlan CLAIMED INTERFACE HP PCI 10/100Bas
e-TX Core
/dev/diag/lan0 /dev/ether0 /dev/lan0
ext_bus 0 0/0/1/0 c720 CLAIMED INTERFACE SCSI C896 Ultra
Wide Single-Ended target 0 0/0/1/0.3 tgt CLAIMED DEVICE
tape 0 0/0/1/0.3.0 stape NO_HW DEVICE HP C1537A
target 1 0/0/1/0.7 tgt CLAIMED DEVICE
ctl 0 0/0/1/0.7.0 sctl CLAIMED DEVICE Initiator
/dev/rscsi/c0t7d0
target 7 0/0/2/1.15 tgt CLAIMED DEVICE
disk 2 0/0/2/1.15.0 sdisk CLAIMED DEVICE HP 36.4GATLAS10K
3_36_SCA
/dev/dsk/c3t15d0 /dev/rdsk/c3t15d0
Unknown -1 0/0/3/0 UNCLAIMED UNKNOWN PCI
tty 0 0/0/4/0 asio0 CLAIMED INTERFACE PCI Serial (103c
1048)
/dev/GSPdiag1 /dev/mux0 /dev/tty0p1
/dev/diag/mux0 /dev/tty0p0 /dev/tty0p2
*在 “ioscan –fn“ 的输出结果中,造成I/O 设备的状态是Unclaimed或 Unknown的原因是:
1)此设备的Driver 没有加载到核心里;所以操作系统无法识别和驱动这个I/O设备。
2)也可能是由于没有安装相应I/O 设备的Patch.
*在“ioscan –fn“的输出结果中,I/O设备的状态是“NO_HW“代表此I/O外设在主机最初启动时是正常的,可被系统正常访问;但现在系统核心已找不到这个I/O设备。
1) I/O 设备物理损坏。
2) 到这个I/O外设的硬件连接通道有问题。
3) 这个I/O外设被在线移掉(例如:磁带机,DVD-ROM 被在线拔走)。