/ 中存储网

IBM P系列小型机日常维护/故障定位/故障排除手册

2018-04-13 13:55:52 来源:中存储网

IBM P系列小型机日常维护/故障定位/故障排除手册

IBM P系列小型机日常维护/故障定位/故障排除手册

1.1.IBM P系列小型机

1.2.日常维护/故障定位/故障排除手册

2.   机房环境及物理检查

2.1.机房内环境要求

2.1.1. 温度与湿度:

最佳工作温度:20-25摄氏度

极限工作温度:10-40摄氏度 

湿度: 8-80%(在23摄氏度条件下)

如果不是工作在最佳温度,请注意改善机房环境

2.1.2. 机房要保证清洁.

机房应保持清洁,若空气灰尘过多,很容易造成资源读写错误及磁盘机中磁盘或读写磁头毁损。

2.1.3. 电源要求

电压: 要求电压稳定, 尖峰电压会损坏设备

电压范围: 220V +/- 10%, 即200-240V, 50-60Hz

电源功率: 视机器类型和系统配置而定

电源线 : 标准的零, 地, 火三相电, 其中零, 地电压不得超过1.0V.

电源接驳: 用符合电流要求的空气开关或其他设备和主机电源线接驳,保证计算机系统的可靠工作应使用稳压电源和UPS,并建议配备发电机组;对于冗于电源的接入,建议采用两路单独输入.

2.2.硬件检查

检查服务器、磁阵的安装、电源线、7133和主机接线符合要求。

2.3.服务器状态检查及其相关命令

2.3.1.外观状态检查:

1.当服务器处于启动和正常工作状态时,其前面板上的液晶显示屏上应无信息显示。

2.    当液晶显示器上出现带数字和字母的信息时,说明有硬件告警。可以通过查询相关机型的Service Guide查到相应告警原因,情况严重的,则要立即通知IBM技术专家进行问题排查。

2.3.2. 命令状态检查

1、运行lsdev 命令配以各种参数,所列各种设备状态都应为Available。

#lsdev –C –H –S a           列出系统中可用设备。

#lsdev –Cc processor      列出系统中的所有CPU。

#lsdev –Cc memory     列出系统中的所有内存。

#lsdev –Cc disk           列出系统中的所有硬盘。

#lsdev -Cc adapter | grep ent  列出系统中的所有网卡

#lsdev -Cc adapter | grep scsi 列出系统中的所有SCSI卡。

#lsdev -Cc adapter | grep ssa  列出系统中的所有SSA卡。

2、lspv命令

#lspv       显示系统中可用的PV。

#lspv hdiskn   显示hdiskn的具体信息。

#lsdev –Cc pdisk 显示磁盘阵列的硬盘的具体信息。

对SSA硬盘的检测:在对主机进行工作之前可以先把磁盘阵列上电,等主机完全启动后,登录到主机上,运行以下命令“ lsdev –Cc pdisk “,应该可以看到所有SSA硬盘,并且状态应为Available.。

3、 lsattr命令

# lsattr –E –l mem0 列出系统中内存mem0的大小,本项目中内存有4GB。

4 、lsvg命令

#lsvg       列出系统中所有的vg。

#lsvg rootvg   列出rootvg的详细信息。

#lsvg –o     列出激活的vg

5、 oslevel命令

#oslevel    显示操作系统版本信息。

6、 netstat命令

#netstat –in   显示系统中各网卡的配置。可查看网卡的IP配置好了没有。

7、 # diag 命令

通过运行# diag 命令运行硬件诊断程序检测主机内所有硬件,检测结果为 “No trouble found ”显示各部分工作正常。

8、 使用#diag命令

(选择:Task Selection-> SSA Service Aids)对SSA硬盘链路连接的校验,可以通过SSA 工具里的Link Verification 来检测。如有必要,可以用 Certify Disk运行硬盘诊断部分进行硬盘的表面分析测试 ,由1% 至100%,检测结果显示主机内置硬盘的所有扇区均读写正常。

9、 lsps –a 查看PAGING SPACE的使用情况

如果使用率超过70%,就需要采取措施。

10、 lsvg –o | lsvg –il | grep –i stale

查看有无stale的lv,如果输入该命令之后有输出结果,就需要采取措施

11、 有否发给root用户的错误报告(mail)。

12、 检查双机状态

lssrc –g cluster 检查ha三个工作进程是否激活,/usr/sbin/cluster/clstat –a检查双机状态是否up,并检查hacmp.out日志,看是否有异常信息。

13、 用vmstat, topas,sar 命令检查系统性能

检查cpumemoyrIO ,是否存在性能瓶颈。

14、 检查能否顺利进入CDE界面

如果不能进入的话,要检查/etc/hosts表中有否错误的项目。

15、 用smitty ssaraid 查看磁盘阵列RAID盘的状态是否是Good。

如果是degrade或其他状态表示RAID盘出现问题了

16、 用sysdumpdev –l 查看系统的DUMP设置是否正常。

17、 用instfix –ik | grep ML

当前操作系统补丁版本补丁程序(PTF)是否满足稳定运行的需要。一般要求433操作系统补丁要打到10以上,5.1操作系统补丁要打到5以上

18 、使用df –kP查看磁盘空间占用率

请确保以下文件系统的占用率高于80%立即上报:

/ /var /usr /home /tmp /zxindata/zxinbak,其余文件系统的占用率高于95%立即上报

也可以到各文件系统下使用组合命令:find . –size +2048 –o ctime 1 –exec ls –l {} ; 查出大于1M或一天之内修改过的文件。

19、系统性能

内存:svmon、lsps -a

Cpu :sar

硬盘:iostat

文件系统:filemon

其他命令: vmstat、topas、lvmstat

20、磁带机是否需要清洗

/usr/lpp/diagnostics/bin/utape -cd rmt0 –n

显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗

21、syncd 参数

值: 缺省值:60;范围:1 到任何正整数

显示: grep syncd /sbin/rc.boot 或 vi /sbin/rc.boot

更改: 更改在下次引导后有效,而且是永久有效。备用方法是使用命令 kill 来终止守护程序

syncd 并用命令 /usr/sbin/syncd interval 从命令行重新启动它。

诊断: 当 syncd 正在运行时,文件的 I/O 被阻塞了。

调整: 在缺省级别上,这个参数几乎不影响性能。不推荐对这个参数进行更改。为了保持数据完整

性对于 HACMP而使 syncd interval 明显缩小,会导致性能下降。

更改命令为: #vi /sbin/rc.boot

22、检查 errdaemon, srcmstr 是否正常运行

# ps -ef|grep err

# ps -ef|grep src

2.4.性能监控与调优

通过命令vmstat 1 来观察.

kthr memory         page          faults    cpu

----- ----------- ------------------------ ------------ -----------

r b   avm   fre re pi po fr   sr cy in   sy cs us sy id wa

命令解析:vmstat 命令的输出可以反映系统整体运行状况,包括cpu、内存、虚拟页面、系统进程和系统调用情况。

检查CPU是否为瓶颈,分别检查CPU的四项数值和kthr的两项数值.

检查MEM是否为瓶颈,分别检查Memory的两项数值和Page 的六项数值.

命令解析: sar可以用来收集反映系统运行状况,在这里主要是查看CPU的运行状况,CPU是否负载均衡,是否存在分配不均的情况。

通过命令ps gv | more来观察。

PIDTTY STAT TIME PGIN SIZE   RSS   LIM TSIZ   TRS %CPU %MEM COMMAND

0  - A 4:20712 14516xx 0 14504 0.0 5.0 swapper

1  - A 1:33 103 78952 79044 327682536 0.0 29.0 /etc/init

命令解析:ps可以用来查看进程的当前状态。在这里通过参数的配搭,可以观察目前正在运行的进程所耗的时间,CPU和memory 量.其中,%CPU表示进程所占用的CPU资源情况,%MEM表示进程所占用的内存情况。主要检查是否有标示为<defunc>的僵尸进程耗用系统资源,以及informix 数据库的oninit进程的系统消耗情况。

在机器上用dd命令进行磁盘阵列的写操作校验,与此同时用iostat 1 –d hdiskX观察磁盘。

Disks:    % tm_act Kbps  tpsKb_read   Kb_wrtn

命令解析: iostat可以用来查看系统的 I/O的输入输出情况,在这里主要查看阵列上的硬盘的每秒读写量,同时估算磁盘阵列读写速度HHhHhh   

通过命令netstat –a 进行查看。

Active Internet connections (including servers)

Proto Recv-Q Send-Q Local Address      Foreign Address      (state)

命令解析: netstat可以用来查看系统的网络情况,在这里主要是查看网络客户端连接的情况和开销,检查参数为state,如有死连接,state状态为fin_wait, 这样耗用系统网络资源,从而导致网络性能下降构成瓶颈。

2.5.安全工作守则

a.系统定期进行系统备份,系统盘建议镜像。

b.当有系统变更或进行操作系统补丁安装的时候,必须作一次系统备份。

c.在7133和shark发现有硬盘故障的时候,请提醒客户注意当天的数据备份。在更换硬盘的时候,请确认当天数据备份已经完成。

d.在更换敏感的电子元件,时候一定要防静电。

e.在插拔外围设备的时候,请把外围设备下电。

f.在进行主机微码升级时候,请留意微码的完整性。

g.在进行文件删除的时候,请留意当前路径是否正确。

h.在进行文件解压缩的时候,请留意参数和路径。

3.   系统日常维护流程

3.1.系统启动

系统启动正常顺序如下:

首先对外设(磁盘阵列、磁带库等)加电。

待所有外设加电自检完成后, 主机加电正常起机。主机加电后,系统进行自检,在液晶显示屏显示”ok”后,才能按白色POWER键起机.

启动主机HACMP,启动后可用命令 tail -f /tmp/hacmp.out 来检查启动情况,在HACMP未完全启动前不要进行下一步。

检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。

检查各项应用是否工作正常。

3.2.系统关闭

停止HACMP ( smitty clstop)。

查看HACMP的状态,检查服务器的网络地址,路由表(可用netstat -i , netstat -rn 等),检查文件系统,逻辑卷(可用 mount , lsvg -o 等)。在HACMP未完全停止前不要进行下一步。

关闭主机 (shutdown –F)。重启系统可以使用:shutdown -Fr

如有必要的话,按磁盘阵列前方的白色按钮关闭磁盘阵列。

3.3.查看系统的错误记录

在系统运行时,一些系统错误会记录在errlog 中,其中有些错误还会在终端上显示。检查错误日志可用以下命令:

#errpt|more 查看系统所有的记录

IDENTIFIER TIMESTAM P T C RESOURCE_NAME DESCRIPTION

E85C5C4C0426104399   P   S   CFGLFT   SOFTWARE PROGRAM ERROR

2BFA76F60426104099   T   S   SYSPROC  SYSTEM SHUTDOWN BY USER

9D4CF6E70426104399   T   O   errdemon   ERROR LOGGING TURNED ON

1E2AC07E0426103999   T   O   errdemon   ERROR LOGGING TURNED OFF

1E5EER4T0423132999   T   O   clstrmgr    OPERATOR NOTIFICATION     

其中

IDENTIFIER 为错误编号,当需要检查详细信息时常会用到。

TIME STAMP 为时间标签,它记录的是出错时间,其格式:月月日日时时分分年年

T 为Type , 它记录的是错误类型

P :为永久错误,需引起注意

T :为临时错误。

C 为Class, 它记录的是错误种类,如

H : Hardware

S : Software

O : Errloger command messages

U : undetermined

RESOURCE_NAME 为错误来源

DESCRIPTION 为错误描述

#errpt -aj <IDENTIFIER> 查看系统详细记录内容

其中IDENTIFIER为错误编号,如 #errpt -aj 0426104399

#errpt -dH         查看系统所有的硬件出错记录

3.4.系统与数据备份

有效及时的系统备份是系统管理的非常重要的一环。当系统出现故障时,特别是文件系统被严重损坏或硬盘损坏时,常需要使用系统备份来恢复系统。在以下情况下应做系统备份:

1、新装机。在硬件及系统软件安装完成后,应做系统备份。

2、软件改动。系统软件或应用软件有改动时,应做系统备份。

3、定期备份。对系统进行定期备份,最好每两或三个月做一次备份

备份注意事项:

进行系统备份无须停止业务,业务可以继续进行。

建议客户进行定期的系统备份(使用命令smitty mksysb)。客户也可根据需要利用SMIT对系统的特定的VG或FS进行备份。

smitty mksysb只备份rootvg中mount起来的文件系统,其它文件系统或数据并没有做备份,所以数据备份需要另外完成(建议客户使用TAR格式)

在条件允许的情况下,最好有一盘以上备份带,以防止磁带损坏。

系统备份过程中有时候会提示有些/tmp目录下的文件无法备份,显示如下:

Creating list of files to back up...

Backing up 34025 files..............................

1694 of 34025 files (4%)..............................

2733 of 34025 files (8%).........backup: 0511-449 An error occurred accessing ./

tmp/sh34736.1: A file or directory in the path name does not exist.

backup: 0511-449 An error occurred accessing ./tmp/sh34736.2: A file or director

y in the path name does not exist.

backup: 0511-449 An error occurred accessing ./tmp/sh34736.3: A file or director

y in the path name does not exist.

.....................

15458 of 34025 files (45%)..............................

31920 of 34025 files (93%)...........

0512-003 mksysb may not have been able to archive some files.

The messages displayed on the Standard Error contained additional

information.

这是正常现象,备份成功。

3.5.系统恢复

当系统发生比较严重的故障以致采取一般性维护手段不能在短期内恢复原系统,在与客户进行蹉商后,可将最近一次的系统备份带倒回机器内以全面恢复系统到最近一次做备份时的系统环境,然后可将当日的数据备份再倒回系统内。至此,系统可恢复正常运行。此后,客户应当与IBM工程师再进行整个事件的全面分析与回顾,以期找到故障发生的原因,并采取相应措施以杜绝类似事件再次发生。

3.6.DUMP

当系统运行出现软件故障导致系统down机时,机器的液晶显示器会出现 888 102 xxx 0c0 (xxx可能为700或其它),AIX常会将当时系统的运行情况记录下来,这就是DUMP。

当DUMP产生后,请将磁带放入磁带机,用命令 # snap -a -o /dev/rmt0将DUMP 文件拷贝到磁带设备/dev/rmt0 中。注明磁带机的block size, DUMP产生的日期和机器的型号及序列号。同时,请用# errpt -a >/tmp/err.log 将errorlog 记在/tmp/err.log中,并将 /tmp/err.log 和 /tmp/hacmp.* 拷贝到软盘或磁带上。将磁带和软盘交给IBM工程师。

4.   故障定位、故障排除

根据我们在实际商用系统中碰到问题,我们总结出了以下几种常见故障及其定位方式和解决方法。

4.1.硬件故障

硬件故障有很多种,对系统产生的影响也不一样,这里按其故障对系统的影响程度分:致命影响的硬件故障和只影响功能的硬件故障两类进行硬件分类:

其损坏对系统产生致命影响(将使机器宕机或无法启动)的硬件包括:

主板、CPU、I/O柜(包含本地盘、光驱、PCI插槽等的柜子)或CEC柜(包含CPU/MEMORY等的柜子)、I/O柜与CEC柜的接线、电源模块、风扇、本地硬盘、内存损坏等等

注:I/O柜和CEC柜一般在比较高端的小型机才有,如M80,低端的是合一的。

这些设备的损坏等将使系统无法完成自检、引导和启动,液晶显示屏上都将有错误信息,可根据液晶显示屏上的错误码对照Service Guide查的错误原因,如果是工作状态下出现这些硬件损坏,则系统将被挂起或宕机。

其损坏对仅对系统产生功能影响(机器不会宕机并能正常启动)的硬件包括:

网卡、本地硬盘有坏块、显卡、SSA卡和其他外围设备

这些设备的损坏只影响特定功能,如网络功能、显示功能、访问磁阵的功能等,对于本地硬盘有坏块的情况,则要看坏块中是否包含了重要的系统文件,如果不是重要系统文件,则系统功能不受影响,但也建议立即更换该硬盘。

故障定位和排除:

以上硬件故障信息都可以使用:

液晶屏上的错误码或:

errpt –dH 查看到

根据错误码确定是什么硬件出了故障,对商用系统来讲,由于是双机系统,如果损坏机器是主机可以将此服务器切换成备机,然后修复故障机器,恢复系统。

4.2.磁阵故障

磁阵引起的故障是目前碰到的最频繁、危害最大的故障,据不完全统计,其故障覆盖到总故障的70%以上,具体来讲,可能引起磁阵故障的环节包括:

磁阵硬盘、7133柜子、主机上的SSA卡、连接7133与主机的SSA线、硬盘的位置和ssa线的接线方式、以及盘柜使用的电压及周围磁场、磁阵/硬盘/ssa卡的微码等都可能造成7133的异常。

7133磁阵的问题是最复杂的,一般有物理损坏的原因也有环境原因,这是主因,如接线、插盘位置不符合要求、未及时查看系统告警等造成系统中断等辅因。按照我们的经验,不管是什么硬件故障导致7133故障,系统都会产生告警,如果能及时发现问题并采取措施,一般都能防止故障的发生。

故障定位:

7133硬件故障也可以使用:

errpt –dH 查看到

伴随的错误码有:

B4C00618   0115140004 P H ssa0  RESOURCE UNAVAILABLE

FE9E9357   0401082304 P H ssa0  DISK OPERATION ERROR

FE9E9357   1205000803 P H pdisk3DISK OPERATION ERROR

03913B94   1122031103 U H LVDD  HARDWARE DISK BLOCK RELOCATION ACHIEVED

613E5F38   1121125103 P H LVDD  I/O ERROR DETECTED BY LVM

625E6B9A   0401090004 P H ssa0  ADAPTER DETECTED OPEN SERIAL LINK

26CA120B   0206081104 P H ssa0  CACHE STORAGE CARD

所有的错误码都预示着7133有异常,红色部分则表示肯定出现了硬件故障,需要立即进行检查并采取措施,否则磁阵将很快不能访问。对于蓝色部分:

625E6B9A   0401090004 P H ssa0  ADAPTER DETECTED OPEN SERIAL LINK

表示ssa出现了开环,出现开环不仅影响IO性能,也增加了风险,即如果另一个环路也出现问题,将不能访问磁阵。

开环一般有两种情况:1)如果625E6B9A报错比较频繁,如每天几次,则表示系统很有可能出了硬件故障,虽然不会导致访问磁阵失败,但需要立即查出原因并解决。查错方法可以参考下面的描述。2)如果 625E6B9A错误偶尔报一次,则要具体情况具体对待,有可能是读写忙出现的误报,也按下面方法进行排查,如果没有查出具体的原因,则可以继续观察。

26CA120B   0206081104 P H ssa0  CACHE STORAGE CARD

该错误一般是在:SSA卡带write cache并打开FastWrite,而ssa卡上用于write cache供电的可充电镍镉电池达到或接近安全寿命的情况下产生的。这类错误产生将影响IO写性能,并且由于在FastWrite打开的情况下,主备机需要同步ssa卡上的write cache,所以甚至会影响到主备机同步。具体解决方法可参考下文。

故障排除:

对于红色部分错误的问题排除,一般可以使用diag命令进行进一步诊断:

#diag -> Task Selection -> SSA Service Aids -> Link Verification

检查环路中是否出现了???的盘符或状态不是good的硬盘

或使用:

#smitty ssaraid -> List All Defined SSA RAID Arrays

查看磁盘阵列RAID盘的状态是否是Good。如果是degrade或其他状态表示RAID盘出现问题了

这时候不建议再进行单独硬盘的Certify,而是赶紧通知IBM准备好相同型号和大小的硬盘(至少两块)到现场进行进一步的诊断和坏盘更换。

625E6B9A   0401090004 P H ssa0  ADAPTER DETECTED OPEN SERIAL LINK的排查方法:

1、要求将7133中未插硬盘的槽位全部插上dummy盘。 (dummy盘:哑元盘,就是那个空壳子,相当于代替SSA硬盘装在磁盘阵列的塑料模型,当磁盘阵列的16个槽位没有被SSA硬盘插满时才用到.)

2、看看Loop状态:diag--->Task Selection-->SSA Service Aids-->Link Verification.正常Adapter Port下的两列数字是连续不间断的排列,且Status都为good,如果Physical列有???????符号.或Status不是good,则说明已经存在硬盘或链路故障,这种情况则要立即采取行动,做进一步检查以确定是否要更换硬盘。检查单盘是否有问题的方法如下:

diag--->Task Selection-->SSA Service Aids-->Certify Disk

选择认为存在故障的硬盘进行检查

3、如果7133存在硬件故障时,可从状态灯上观察到:

当单块硬盘出现故障或未被使用时,其面板上的硬盘状态灯会不亮 阵列的状态灯黄灯会亮 或接SSA线的端口的指示灯也会熄灭

如果通过以上三种方法都未发现问题,而系统仍报Open Serial Link错误,建议继续跟踪。

26CA120B   0206081104 P H ssa0  CACHE STORAGE CARD的处理方法:

背景介绍:

IBM小型机上连接7133磁阵所配置的SSA卡一般都带有一块充电电池,该电池用于在突然停电的情况下保护ssa卡上的fast write cache中的信息不丢失,这块电池的安全寿命一般是22000小时,差不多两年半的时间,也就是说,当fast write模式启动的情况下,一般两年半以后需要更换这块电池。

问题表现:

对ssa卡上的电池保护是通过卡上的一个计数器实现的,每运行一小时该计数器会增加一,当该计数接近或超过22000时,系统会有26CA120B硬件报警:

26CA120B   0206120904 P H ssa1       CACHE STORAGE CARD

可以用如下命令检查ssa卡上的状态:(-a 后带上卡的逻辑设备名,这里假设是ssa0)

ssa_fw_status -a ssa0 -p (检查电池已经工作的时间,小时为单位)

ssa_fw_status -a ssa0 -l (检查电池安全工作寿命,小时为单位)

ssa_fw_status -a ssa0 -c (检查ssa卡上的fast write功能是否被激活)

处理步骤: (按优选方式列出,从中选择一种即可)

1)更换电池

选择系统闲时,更换主备机ssa卡电池,可以采用:

停备机-》更换备机ssa卡电池-》起备机(双机服务)-》主备倒换-》

停原主机-》更换原主机ssa卡电池-》起原主机(双机服务)

2)如果系统出现26CA120B电池告警,使用ssa_fw_status -a ssa0 -c 检查主用ssa卡(一般是ssa0)的Fast Write是否处于inactive(未被激活)状态,如果是,则以root执行如下命令:

ssa_format -l ssa0 -b

errclear 0

/usr/lib/errstop

/usr/lib/errdemon

可以暂缓更换电池时间,等有电池后再更换,但这段时间对磁阵读写性能会有所影响。

3)如果短期内不能更换电池,同时主机主用卡的Fast Write仍然处于Active状态,建议手工屏蔽fast write功能

1)先停止双机

2)在1号机修改hdisk该属性:

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

3)在1号机激活卷组

varyonvg zxinvg

4)在1号机去激活卷组

varyoffvg zxinvg

5)在2号机上执行

smitty dev->ssa disks->ssa logical disks->change /show characters of ... -> [choose hdisk2] -> fast write [no]

检查fast write是否已经改为no (只要1号机做了2好机就不用再修改了)

6)在2号机上执行

rmdev -dl hdisk2

cfgmgr -v

7)在2号机上执行

lspv (查看hdisk2是否已找到)

8)然后执行

varyonvg zxinvg

varyoffvg zxinvg

9)重新启动双机

对于出现错误:

B4C00618   0115140004 P H ssa0  RESOURCE UNAVAILABLE

而不伴随其他红色标出错误的情况,则通过以下方式排查:

可能是hdisk中将‘enable user of hot spare’打开了,而实际并没有配置hot spare盘,

可以通过如下方式解决:

检查RAID的状态:

#smitty ssaraid                                                       

list all defined SSA RAID arrays : all are in status good (ssa0 )      

检查是否配置了hot spare:

list/identify SSA Physical disks-->List hot spares : none

修改每个ssa卡所配置的hdisk的属性:

: set "enable use of hot spare" to "no"

然后再执行:

# /usr/lib/errstop

# cp /var/adm/ras/errlog   /var/adm/ras/errlog.bak

#/usr/lib/errdemon

#errclear 0

对于物理硬盘的接法可参考如下说明:(有可能老局未配置hot spare,则连线方法按未配置hot spare盘的个数计算)

分以下几种情况讲述:

1)数据盘小于等于6块,建议配置一块hotspare

2)数据盘大于等于8块小于等于10块,建议配置两块hotspare

3)数据盘大于等于12块小于等于14块,建议配置两块hotspare

l数据盘小于等于6块,配置一块hotspare的接线和配置规则:

a)   主机A1、A2接磁阵1、8位置;备机A1、A2接磁阵4、5位置

b)   保证磁阵前排1458硬盘位置一定要插盘,其余的盘可以挑空位插,注意1-4、5-8两侧的数据盘保持轴对称关系插入(如1和8是轴对称的、4和5是轴对称的)

c)   没有插硬盘的位置一定要插上dummy盘

d)   做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

pdisk0   Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1   Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2   Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3   Available 11-08-1641-08-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示

pdisk0-pdisk3对应的物理槽位分别是前排1548的位置,所以在使用smitty ssaraid做RAID0+1时,需将18位置的硬盘(pdisk0/pdisk3)做成镜像、45位置的硬盘(pdisk2/pdisk1)做成镜像,所以选择Primary Disks/Secondary Disks时如下:

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks  [需要选择:pdisk0 pdisk2]-- 14槽位的硬盘作为主盘

Secondary Disks[需要选择:pdisk3 pdisk1]-- 85槽位的硬盘作为从盘

该要求只是从性能考虑,并不增加其他特性。 

e)   hot spare盘插入位置可以找前排8个位置中的空位插入即可。无特殊位置要求,制作方法如下:使用lsdev -C |grep pdisk方式找出其pdisk号,如pdisk5 然后使用如下方式将其做成hot spare盘。

smitty ssaraid->Change Use of Multiple SSA Physical Disks->选择ssa卡(连接磁阵的ssa卡,缺省为ssa0)

->选择作为hotspare的pdisk,如pdisk6 ->New Use->选择 hot spare 按回车创建即可

l数据盘大于等于8块小于等于10块,配置两块hotspare的接线和配置规则:

a)主机A1、A2接磁阵1、12位置;备机A1、A2接磁阵8、9位置

b)保证磁阵前排1-8位置插满数据盘,9-12位置的数据盘和hot spare盘位置可任意。

c)没有插硬盘的位置一定要插上dummy盘

d)做RAID0+1时,考虑到性能问题,请将1-4、5-8以轴对称方式一一对应做硬盘镜像,

9-12位置中有数据盘的,将其对应做镜像,其余两块做hot spare,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

pdisk0   Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1   Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2   Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3   Available 11-08-1641-08-P SSA160 Physical Disk Drive

pdisk4   Available 11-08-1641-02-P SSA160 Physical Disk Drive

pdisk5   Available 11-08-1641-03-P SSA160 Physical Disk Drive

pdisk6   Available 11-08-1641-07-P SSA160 Physical Disk Drive

pdisk7   Available 11-08-1641-06-P SSA160 Physical Disk Drive

pdisk8   Available 11-08-1641-09-P SSA160 Physical Disk Drive

pdisk9   Available 11-08-1641-11-P SSA160 Physical Disk Drive

pdisk10  Available 11-08-1641-10-P SSA160 Physical Disk Drive

pdisk11  Available 11-08-1641-12-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示

pdisk0-pdisk11对应的物理槽位分别是154823769111012的位置,所以在使用smitty ssaraid做RAID0+1时,前面八块盘按1-4、5-8轴对称方式对应做mirror,9-12中如选择9(pdisk8)/12(pdisk11)位置做mirror

所以选择Primary Disks/Secondary Disks时如下:

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks[选择:pdisk0 pdisk4 pdisk5 pdisk2 pdisk8] 物理1-4,9槽位

Secondary Disks [选择:pdisk3 pdisk6 pdisk7 pdisk1 pdisk11]物理8-5,12槽位

该要求只是从性能考虑,并不增加其他特性。 

e)剩余物理位置10(pdisk10)/11(pdisk9)盘做成hot spare,方法同上e)步骤

l数据盘大于等于12块小于等于14块,配置两块hotspare的接线和配置规则:

a)主机A1、A2接磁阵1、16位置;备机A1、A2接磁阵8、9位置

b)空出3、14位置插hot spare,如果是12块数据盘,空出2、15位置插dummy盘,其余都插入数据盘;如果是14块数据盘,则将剩余的14个位置全部插上数据盘

c)做RAID0+1时,考虑到性能问题,请将1-8、9-16以轴对称方式一一对应做硬盘镜像, hot spare也满足轴对称关系,举例如下:

ibm对pdisk的排序与实际的物理位置是不同的,所以必须先通过lsdev -C |grep pdisk的方式找出其对应关系并记录下来,如:

pdisk0   Available 11-08-1641-01-P SSA160 Physical Disk Drive

pdisk1   Available 11-08-1641-05-P SSA160 Physical Disk Drive

pdisk2   Available 11-08-1641-04-P SSA160 Physical Disk Drive

pdisk3   Available 11-08-1641-08-P SSA160 Physical Disk Drive

pdisk4   Available 11-08-1641-02-P SSA160 Physical Disk Drive

pdisk5   Available 11-08-1641-03-P SSA160 Physical Disk Drive

pdisk6   Available 11-08-1641-07-P SSA160 Physical Disk Drive

pdisk7   Available 11-08-1641-06-P SSA160 Physical Disk Drive

pdisk8   Available 11-08-1641-09-P SSA160 Physical Disk Drive

pdisk9   Available 11-08-1641-11-P SSA160 Physical Disk Drive

pdisk10  Available 11-08-1641-10-P SSA160 Physical Disk Drive

pdisk11  Available 11-08-1641-12-P SSA160 Physical Disk Drive

pdisk12  Available 11-08-1641-16-P SSA160 Physical Disk Drive

pdisk13  Available 11-08-1641-13-P SSA160 Physical Disk Drive

pdisk14  Available 11-08-1641-15-P SSA160 Physical Disk Drive

pdisk15  Available 11-08-1641-14-P SSA160 Physical Disk Drive

看第三列中间字符中有-01-的字样,表示其物理硬盘位置,以上对应关系表示

pdisk0-pdisk15对应的物理槽位分别是15482376911101216131514的位置,所以在使用smitty ssaraid做RAID0+1时,以1-8、9-16以轴对称创建mirror所以选择Primary Disks/Secondary Disks时如下:

smitty ssaraid-> Add an SSA RAID Array -> ...

Primary Disks   [选择:pdisk0 pdisk4 pdisk2 pdisk1 pdisk7 pdisk6 pdisk3]

物理1-8槽位,除3位置以外

Secondary Disks [选择:pdisk12 pdisk14 pdisk13 pdisk11 pdisk9 pdisk10 pdisk8]

物理16-9槽位,除14位置以外

该要求只是从性能考虑,并不增加其他特性。

剩余物理位置3(pdisk5)/14(pdisk15)盘做成hot spare,方法同上e)步骤

4.3.网络故障

由于我们应用对网络依赖很强,所以当网络出现全阻或瞬断都将对系统产生重大影响,网络故障一般可分为硬件故障(如网卡故障和交换机、路由器故障)和软件故障(网络中有IP包攻击或网络拥塞)两种情况。

硬件故障:

1.网卡

对于网卡故障,由于商用系统中都是采用IBM的HA双机系统,而且每台机器都配置有至少两块网卡,所以当单块网卡或网线出现问题时,HA软件都将采取措施实现Service IP切换。

网卡故障定位方法:使用errpt –dH 可查看到网卡服务中断的错误,再使用diag进行网卡诊断

网卡故障排查方法:如果诊断出网卡有问题,则关闭系统后进行更换。(如果是主机,则先手工切换为备机后再操作)

2.交换机

我们的网络一般都采取双网双平面的结构,所以当一个网络平面的交换机出现问题时,也不会中断网络服务,但值得重视的是:主、备交换机之间的直连线要保持畅通,否则一单发生IBM服务器主机或SIU主机的网卡切换,将导致IBM服务器主机和SIU主机断链,从而导致业务全阻。

还有一种情况,有些地方为了网络安全,对连到switch上的不同设备划分了不同的VLAN,同时又将主、备switch之间改成通过两个口连接,并划分在一个channel group里,当时碰到的一种情况是:

1)当时IBM服务器的主网卡从缺省VLAN0到VLAN6实现迁移时,网络将出现15秒~30秒的瞬断

2)当时主、备交换机之间的channel group工作不正常,链路不通。

当1)发生时,IBM双机发生主、备网卡倒换,但由于2)的问题,导致IBM主机无法与SIU建链。

问题排查及建议:

1)建议开局时一定要做双网双平面中一个平面的swith发生掉电的故障测试

2)建议一定要做主、备交换机之间的设备之间的网络互访测试,确保畅通

3)尽量不要在白天在switch上进行配置修改,如果需要修改,也要在晚上进行,并有严格的方案

软件故障:

1.网络拥塞

由于系统在封闭网络中运行,所以发生网络拥塞的可能性比较小,但如果网络拓扑比较复杂的话,也可能发生这种情况,在主机上的表现为ping主机丢包严重,主机到SIU之间链路时通时断,数据包丢失,设备功能异常。

问题排查及建议:

1)尽量使NT/2000的机器从网络上隔离出去

2)如果情况仍未改善,建议启动SIU应急流程

3)在恢复呼叫的前提下,使用网络工具抓包,找出攻击源、逐步将设备恢复到网络。

2.切换失败

现场碰到过一种情况,当发生主、备机切换时老是切换不成功,检查发现是备机的主网卡绑定浮动IP老是失败,再进一步排查,发现失败的原因是备机主网卡绑定MAX地址失败,由于IBM双机配置时需要将Service IP配置为一个固定的MAC地址,规则是取主机主网卡的MAC地址,将最后两位改为固定的两个数字(要求与原主网卡地址不同,如定制为89)。但这样的规则在现场不成功

问题排除:最后修改了HA 拓扑图中以太网配置中Service Adapter配置,去掉MAC地址的配置(置为空),让后同步双机,再进行倒换,一切OK

由于网络故障出现会导致远程登录失效,所以无法进行系统维护。所以建议任何一套IBM服务器都要配置一个维护台。

4.4. OS故障

AIX是一个比较稳定的操作系统,出现故障一般是人为因素引起的:

1.没按要求打OS补丁,如433打了09的补丁造成内存泄漏

2.应用程序或数据库消耗内存太多或存在内存泄漏导致物理内存和paging space被耗尽导致系统挂起

3.人为删除了重要的目录或文件,如:/dev、/usr、/bin、/sbin、/etc等

故障排查:

1.查操作系统补丁是否符合要求(433要求10以上,5.1要求5以上)

2.检查内存、paging space的使用情况(使用lsps –a查看使用率要小于20%)

3.检查shell命令执行时是否有报错,errpt有无相关报错

4.5. HA故障

对于HA安装时出现的故障,如同步拓扑图失败,要求检查以下条款看是否符合要求:

1.对于4.4.1版本的HA一定要打上15以上的补丁,4.5版本的HA要求打上9以上的补丁

2.网络相关的配置文件一定要按照安装手册去设置

3.网络ip配置要正确并且保证物理链路畅通

4.所有4.4.1、4.4.0版本一律使用标准版

5.不能在同一台机器中同时安装标准版或ES版

6. 打补丁时请使用smitty update_all方式,不要选择打所有补丁,因为标准版和ES版的补丁往往在一起,这样会导致版本不一致

如果是新开局,一定要保证做双机倒换测试并确保成功。

如果在后续使用中,进行了如下操作,以后再做双机切换会失败:

1.在主机上做过磁阵RAID或共享VG相关信息的修改,如:增加了新的RAID盘,修改了共享VG的配置

2.在共享VG中增加了新的FS、增加了新LV

3.以上配置或修改只在主机上进行了操作,而未将共享VG信息及时同步到备机

4.备机虽然导入了新的共享VG信息,但未修改共享VG属性为系统启动时不自动启动

5.未在共享VG激活、共享文件系统mount状态下修改备机共享文件系统、裸设备的权限改为数据库可操作的权限

以下是HA的正常操作流程和异常情况下的处理,供参考:

HA正常操作流程

a、启动HA前必须保证:

双机结构组件物理连接正确无误

操作系统运行正常

HA软件安装配置正确,拓扑结构和资源组同步成功完成

系统当前无任何HA进程如clstrmgr、clsmuxpd或clinfo运行,如果有则首先执行HA关闭操作

系统当前无任何HA资源组中定义的应用进程或设备击活,如共享磁盘vg未挂接在任何节点上、属于资源组的数据库和应用进程未启动等

b、HA启动过程是clstrmgr被击活后由它在后台调用执行相关脚本完成,所以启动过程是否结束不能单看cluster进程是否被击活,最好方法是跟踪hacmp.out日志记录:

# tail -f /tmp/hacmp.out

启动结束标志:hacmp.out记录HACMP Event Summary(任何动作结束标志)

建议主备节点顺序启动,不可主备机同时启动HA

c、任何事件操作必须等待该事件完全执行完毕后方可执行下一个事件

d、HA结合服务器的冗余部件可以完全消除双机系统中的单点故障,但当系统出现多点故障时并不保证系统正常运行,多点故障包括双机同时出现多个与HA相关部件错误,或者双机出现某个错误引起HA启动相应事件脚本切换后又出现另一个错误需要再次切换资源,此时,需要看具体情况人工干预引导系统正常运行

e、在关闭HA时,需要确保HA彻底关闭后才执行后续操作,是否完成关闭动作可查看:

# lssrc -g cluster

无任何进程运行

# tail -f /tmp/hacmp.out

hacmp.out记录HACMP Event Summary

# lsvg -o

共享vg不在挂接与任何一个节点服务器上

f、任何事件默认须在360秒内执行完成,否则HA将自动启动config_too_long事件。

g、如果在执行任何事件脚本时出现异常或错误,HA将挂死而无法完成后续事件脚本,经过360秒钟后,HA将自动启动config_too_long脚本,hacmp.out将记录此事件的执行

异常情况应急处理

在执行任何事件脚本出现异常而无法正常运行HA时,采取以下步骤:

a、关闭所有有关HA的应用进程,如手工停止智能网进程,手工停止数据库等

b、umount所有共享vg上的文件系统

c、执行varyoffvg将共享vg从服务器离线

d、执行smitty clstop选择Shutdown mode为"forced"方式关闭HA

e、用命令

 # ps -ef

 # lsvg -o

 # lssrc -g cluster

 # netstat -i

等查看以上操作是否执行完整,如果有些相关进程未关闭可以使用kill将其杀掉(不能保证系统保持运行正常,可能出现系统宕机)

f、查看双机系统物理连接是否完好

g、通过以上命令关闭所有有关HA进程后,重启HA smitty clstart,重新验证HA是否正常

h、通过以上各个步骤的操作HA依然不能正常工作,关机重启系统

4.6.其他故障

其他故障包括

1.无法正常使用sar、svmon、topas等系统命令导致无法获取CPU、MEM等统计信息

处理方法:

只要检查如下两个包:

lslpp –l |grep “perfagent.tools”

lslpp –l |grep “bos.acct”

如果没有,则安装

另外注意/usr/lib/sa目录下的文件有执行权限;

/usr/bin/svmon有u+s权限

2.夏时制设置问题导致时间无法同步

我们商用的系统不能设置为夏时制,如果设置为夏时制的话,将导致时间同步功能出现问题。

可以用echo $TZ看时区来判断,时区以DT结尾的就使用了夏时制。

如果不想用,可以通过smit->system environment->change show date and time->change time zone using system defined values来改变,在弹出的USE DAYTIME SAVING对话框中选择No,选好相应的时区后重启机器既可。

3.异步IO没有配置

如果异步IO没打开,将严重影响IO性能,检查方法如下:

lsdev -Cc aio |grep "aio0 Available" 如果有返回,表示已经配置了

否则执行:

mkdev -l aio0

chdev -P -l aio0 -a autoconfig='available'

进行配置

对于磁阵访问IO状况不好的,还可以进一步调整异步IO的参数,原则如下:

smity aio-> Change / Show Characteristics of Asynchronous I/O

MINIMUM number of servers   --设置为 磁阵物理数据盘个数 * 5

MAXIMUM number of servers --设置为 磁阵物理数据盘个数 * 10 (超过80设置为80)