(주)레디시스템
Home
홈으로 회사소개 시스템 웹 사이트맵 헬프데스크
 
 
작성일 : 06-02-28 09:59
시스템 패닉메시지 Score05/Score95
 글쓴이 : 관리자
조회 : 7,448  
시스템 패닉메시지 score05/score95
시스템에 패닉이 발생하면서 리부팅 될때는 여러가지 원인이 있을 수 있습니다.
그중 한가지 유형의 분석을 돕기 위해서 아래의 패치들에 추가된 기능이
있습니다.

Solaris 2.5.1 : 103640-34
Solaris 2.6 : 105181-23
Solaris 7 : 106541-13
Solaris 8 : 108528-04

아래의 메세지를 자세히 보시면 (score 05)라는 부분이 있습니다.
이것은 위의 패치들이 적용되 있을 경우에만 나타나는 메세지로
메세지에 나타나는 CPU가 패닉의 원인을 제공한것인지의 여부에 대한
점수를 100점 만점의 수치로 보여줍니다.  점수는 05 에서 95중
어느 값을 가질 수도 있지만 거의 항상 05나 95점 둘중에 하나가
지정됩니다.(score 05: 패닉을 유발하지 않음, score 95: 패닉 유발/교체 대상)

WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0000(score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
    UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800

점수는 AFSR(Asynchronous Fault Status Register)에 저장되어 있는
비트값에 의거하여 지정됩니다.  CPU와 CPU에서 데이타를
서로 주고 받을 때 하드웨어/소프트웨어의 문제로 인해
데이타의 완결성이 깨질수가 있습니다.  데이타가 깨진 것을 발견하면
그때의 상황에 따라 AFSR 레지스터에 각각의 비트가 세팅됩니다.
(80200000 = 10000000001000000000000000000000)

AFSR의 값을 확인해 보면 어떤 CPU가 데이타를 요청했고 어떤 CPU가
데이타를 보내는 것이 였는지를 확인할 수가 있습니다.  데이타를
요청한 CPU는 불량이 아니겠지요. 그러나 일일이 32비트 값을 항상 확인할
수는 없고 따라서 필드 엔지니어들의 업무를 수월하게 하기 위해서 시스템은
패닉으로 리부팅되면서 자체 분석을 통해서 점수를 보여주는 것입니다.

시스템에 패닉이 발생할 때 패닉 메세지를 자세히 확인해 보시기 바랍니다.
AFSR 0x00000000.######## 의 패턴을 갖는 메세지가 있는지 확인하시고
있다면 시스템에서 자체적으로 분석한 점수(score ##)를 확인하시기 바랍니다.

/var/adm/messages 또는

# adk -k unix.0 vmcore.0
$<msgbuf

를 통해서 확인하실 수 있습니다.


예 1) CPU10번 교체대상

WARNING: [AFT1] WP event on CPU10, errID 0x000d99f1.038e8d48
    AFSR 0x00000000.00800400<WP> AFAR 0x000001c4.f8800030
    AFSR.PSYND 0x0400(score 95) AFSR.ETS 0x00 Fault_PC 0x100826b0
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0000 UDBL.ESYND 0x00
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.1f00daa0
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
    AFSR.PSYND 0x0000(score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
    UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
    UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.1f00daa0 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.1f00daa0 PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.1f00daa0: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.1f00daa0 Above Error detected by protected Kernel code
    that will try to clear error from system
WARNING: [AFT1] Uncorrectable Memory Error on CPU11 Data access at TL=0, errID 0
x000d99f2.21d007bc
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.7ae96330
    AFSR.PSYND 0x0000(score 05) AFSR.ETS 0x00 Fault_PC 0x10027214
    UDBH 0x0203<UE> UDBH.ESYND 0x03 UDBL 0x0051 UDBL.ESYND 0x51
    UDBH Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000d99f2.21d007bc Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f2.21d007bc PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
[AFT3] errID 0x000d99f2.21d007bc: cannot schedule clearing of error on page 0x00
000000.7ae96000; page not in VM system
[AFT3] errID 0x000d99f2.21d007bc Above Error detected by protected Kernel code
    that will try to clear error from system
WARNING: [AFT1] errID 0x000d99f5.a9d4e269 Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000d99f5.a9d4e269 PA=0x00000000.7ae96330
    E$tag 0x00000000.1cc00f5d E$State: Exclusive E$parity 0x0e
[AFT2] E$Data (0x00): 0x7017d0e8.00000000
[AFT2] E$Data (0x08): 0x11594340.11594240
[AFT2] E$Data (0x10): 0x11594300.11594300
[AFT2] E$Data (0x18): 0x00000000.206f0000
[AFT2] E$Data (0x20): 0x00000000.00010000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.00035271 *Bad* PSYND=0xff00
[AFT2] E$Data (0x38): 0x030208c0.00000000
syncing file systems...panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944

예 2) CPU 14번 교체대상

WARNING: [AFT1] Uncorrectable Memory Error on CPU10 Data access at TL=0, errID 0
x000db615.44f55a6b
    AFSR 0x00000000.80200000<PRIV,UE> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0000(score 05) AFSR.ETS 0x00 Fault_PC 0x10034be8
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x0203<UE> UDBL.ESYND 0x03
    UDBL Syndrome 0x3 Memory Module Board 5 J3100 J3200 J3300 J3400 J3500 J3600
J3700 J3800
WARNING: [AFT1] errID 0x000db615.44f55a6b Syndrome 0x3 indicates that this may n
ot be a memory module problem
[AFT2] errID 0x000db615.44f55a6b PA=0x00000000.490b9038
    E$tag 0x00000000.0fc00921 E$State: Modified E$parity 0x07
[AFT2] E$Data (0x00): 0x00000000.701d7b24
[AFT2] E$Data (0x08): 0x00000000.baddcafe
[AFT2] E$Data (0x10): 0x00000000.00000000
[AFT2] E$Data (0x18): 0x728f4f20.728f4f20
[AFT2] E$Data (0x20): 0x00000000.00000000
[AFT2] E$Data (0x28): 0x00000000.00000000
[AFT2] E$Data (0x30): 0x00000000.baddcafe
[AFT2] E$Data (0x38): 0x00000000.00100000 *Bad* PSYND=0x00ff
WARNING: [AFT1] CP event on CPU14 (caused Data access error on CPU10), errID 0x0
00db615.44f55a6b
    AFSR 0x00000000.01000004<CP> AFAR 0x00000000.490b9038
    AFSR.PSYND 0x0004(score 95) AFSR.ETS 0x00
    UDBH 0x0000 UDBH.ESYND 0x00 UDBL 0x00c8 UDBL.ESYND 0xc8
WARNING: [AFT2] errID 0x000db615.44f55a6b No cache dump available
panic[cpu10]/thread=701d7b20: [AFT1] errID 0x000db615.44f55a6b UE Error(s)
    See previous message(s) for details
syncing file systems...WARNING: tmp_putapage: err 5

  [21] 4WARNING: tmp_putapage: err 5

  [21] 2panic[cpu10]/thread=40077e60: panic sync timeout
dumping to /dev/dsk/c0t0d0s1, offset 839122944



-----------------------------------------------------------------------------------------

The 2 pieces of info that you need to concern yourself with are:
WP event on CPU1
(score 95)

This means it is 95% likely that CPU1 was responsible for the "event" due to a WP event (Writeback Parity error). Sun's Best Practices would have you "log" CPU1 on the first occurance and replace it if it re-occured on CPU1 within 6 months. Otherwise, do nothing.

 
 

Total 185
번호 제   목 글쓴이 날짜 조회
110 prstat
관리자
2005/10/20 7482
109 솔라리스 7 , 8 , 9 , 10
관리자
2005/12/13 7521
108 듀얼 모니터 설정
관리자
2006/02/09 7534
107 *** 프로세스 상태 추적 관리 ***
관리자
2006/02/11 7547
106 [Solaris10] Telnet Daemon 루트 인증 취약성 패치하기
관리자
2007/07/10 7547
105 E4900 power on & power off 순서
관리자
2008/03/18 7561
104 압축명령 zip 파일에 password 설정
관리자
2008/03/05 7601
103 solaris 10 /etc/inet/ipnodes
관리자
2007/12/10 7609
102 disksuite raid 5 구성.
관리자
2006/04/11 7627
101 solaris x86 bootloader 복구
관리자
2007/05/14 7628
100 fcal disk 교체
관리자
2006/04/03 7691
99 SunLink X.25 설치 방법
관리자
2006/10/12 7751
98 rsync .....
관리자
2005/12/12 7760
97 sendmail
관리자
2008/06/30 7770
96 sendmail 반송 메일 의미
관리자
2006/02/01 7888
 1  2  3  4  5  6  7  8  9  10    
 
문서 상단으로
 
 
Administrator Login
웹마스터