Superuser

Autor Thema: Harwareproblem mit meiner E450?  (Gelesen 4663 mal)

chamaeleo

  • Gast
Harwareproblem mit meiner E450?
« am: 29. Dezember 2006, 10:44:47 »
Hi,

hab da mal eine kurze frage, und zwar habe ich ein problem mit meiner E450. Ich kann leider nicht genau sagen seit wann das der Fall ist, also seit welcher Hardwareerweiterung, aber meine E450 rebootet im schnitt 1x pro Tag von selber, was sehr lästig ist.

Kann man irgendwo in einer log sehen was die letzten einträge sind oder welcher Fehler sie dazu "gezwungen" hat einen reboot zu machen? Ich dachte immer das eine E450 einen sehr hohen "selbsterhaltungstrieb" hat, also bis zu letzt versucht sich und das system am leben zu halten.

wäre dankbar für jede hilfe.

greetz,

sonnenblen.de - Das unabhängige Sun User Forum

Harwareproblem mit meiner E450?
« am: 29. Dezember 2006, 10:44:47 »

chamaeleo

  • Gast
Re: Harwareproblem mit meiner E450?
« Antwort #1 am: 29. Dezember 2006, 12:14:09 »
Habe mir jetzt mal die messages log in " var/adm " angesehen, und zwar diese zeilen wo ich weiß das ein reboot gemacht wurde. da ist mir aufgefallen das immer die cpu1 einen error meldet:

Dec 25 16:18:23 unknown SUNW,UltraSPARC-II: [ID 606962 kern.warning] WARNING: [AFT1] Uncorrectable Memory Error on CPU1 Data access at TL=0, errID 0x00005385.ee
13c797
Dec 25 16:18:23 unknown     AFSR 0x00000000.80300000<PRIV,UE,CE> AFAR 0x00000000.c4dcb008
Dec 25 16:18:23 unknown     AFSR.PSYND 0x0000(Score 05) AFSR.ETS 0x00 Fault_PC 0x1032f48
Dec 25 16:18:23 unknown     UDBH 0x0008 UDBH.ESYND 0x08 UDBL 0x03c0<UE,CE> UDBL.ESYND 0xc0
Dec 25 16:18:23 unknown     UDBL Syndrome 0xc0 Memory Module 160x
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 382462 kern.info] [AFT2] errID 0x00005385.ee13c797 PA=0x00000000.c4dcb008
Dec 25 16:18:24 unknown     E$tag 0x00000000.0dc0189b E$State: Modified E$parity 0x06
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x00): 0x000002a1.0007dd40
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 989652 kern.info] [AFT2] E$Data (0x08): 0x00000300.00fdda78 *Bad* PSYND=0x00ff
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x10): 0x00000000.008bf9d2
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x18): 0x00000000.008bf9d3
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x20): 0x00000000.00000000
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x28): 0x3fffffff.ff93ea51
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x30): 0x7fffffff.fffd4b21
Dec 25 16:18:24 unknown SUNW,UltraSPARC-II: [ID 359263 kern.info] [AFT2] E$Data (0x38): 0x00000000.00000000
Dec 25 16:18:24 unknown unix: [ID 836849 kern.notice]
Dec 25 16:18:24 unknown ^Mpanic[cpu1]/thread=2a10007dd40:
Dec 25 16:18:24 unknown unix: [ID 224267 kern.notice] [AFT1] errID 0x00005385.ee13c797 UE Error(s)
Dec 25 16:18:24 unknown     See previous message(s) for details
Dec 25 16:18:24 unknown unix: [ID 100000 kern.notice]
Dec 25 16:18:25 unknown genunix: [ID 723222 kern.notice] 000002a10007d200 SUNW,UltraSPARC-II:cpu_aflt_log+52c (2a10007d30b, 1, 2a10007d520, 10, 11652e0, 1165308
)
Dec 25 16:18:25 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000000 000002a10007d448 0000000000000010 0000000000000003
Dec 25 16:18:25 unknown   %l4-7: 000003000008a4d8 000003000008a4e0 000002a10007d2be 0000000000000000
Dec 25 16:18:25 unknown genunix: [ID 723222 kern.notice] 000002a10007d450 SUNW,UltraSPARC-II:cpu_async_error+8d4 (19, 2a10007d520, 8, 3c0, 0, 1437800)
Dec 25 16:18:25 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000001 0000000000200000 0000000001475330 065e001080300000
Dec 25 16:18:25 unknown   %l4-7: 00000000c4dcb000 0000000000000000 00000000032f0008 000000000000cbc0
Dec 25 16:18:26 unknown genunix: [ID 723222 kern.notice] 000002a10007d620 unix:ktl0+48 (300001cb000, 0, a, a, 0, 3000006a508)
Dec 25 16:18:26 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000000 0000000000001400 0000009900001607 000000000115c850
Dec 25 16:18:26 unknown   %l4-7: 0000000001436c00 0000000001456178 000000000000000a 000002a10007d6d0
Dec 25 16:18:26 unknown genunix: [ID 723222 kern.notice] 000002a10007d770 genunix:callout_schedule_1+4 (300001cb000, 1432800, 30001734ad0, 1, 1, 0)
Dec 25 16:18:26 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000008 0000000000000002 0000000000000001 00000000014003f8
Dec 25 16:18:26 unknown   %l4-7: 0000000001400000 0000000000000016 00000000014007e8 000002a10007d7f0
Dec 25 16:18:27 unknown genunix: [ID 723222 kern.notice] 000002a10007d820 genunix:callout_schedule+50 (300007050c0, 2a10007dd40, 20, 1171f, 11a42c58, 0)
Dec 25 16:18:27 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000000000002 0000000000000000 0000000000000000 000000000144d158
Dec 25 16:18:27 unknown   %l4-7: 000000000144d0d0 0000000000000006 0000000000000001 000002a10007d7f0
Dec 25 16:18:27 unknown genunix: [ID 723222 kern.notice] 000002a10007d8d0 genunix:clock+684 (300007050c0, 300016f2ac8, 0, 1441800, 142ac00, 1437800)
Dec 25 16:18:27 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000001476000 0000030001656040 0000000000000000 0000000000000000
Dec 25 16:18:27 unknown   %l4-7: 0000000001478400 0000000000000000 0000000000000000 0000000000000000
Dec 25 16:18:28 unknown genunix: [ID 723222 kern.notice] 000002a10007d9b0 genunix:cyclic_softint+b0 (1077eb4, 8bf9d1, 3, 10, 1, 30000070670)
Dec 25 16:18:28 unknown genunix: [ID 179002 kern.notice]   %l0-3: 00000300001e3ed0 0000030000070608 0000030000070608 00000300001e3ea8
Dec 25 16:18:28 unknown   %l4-7: 00000300001e3ea8 00000300001f16b0 0000000000000004 0000000000000000
Dec 25 16:18:28 unknown genunix: [ID 723222 kern.notice] 000002a10007daa0 unix:cbe_level10+8 (0, 803, 1400000, 2a10007dd40, 10060, 100b23c)
Dec 25 16:18:28 unknown genunix: [ID 179002 kern.notice]   %l0-3: 0000000001076854 0000000000000001 0000000001456178 0000000001456190
Dec 25 16:18:28 unknown   %l4-7: 0000000001456000 00000300001f16b0 0000000000000004 0000000000000000
Dec 25 16:18:29 unknown unix: [ID 100000 kern.notice]
Dec 25 16:18:29 unknown genunix: [ID 672855 kern.notice] syncing file systems...
Dec 25 16:18:29 unknown genunix: [ID 904073 kern.notice]  done
Dec 25 16:18:30 unknown genunix: [ID 111219 kern.notice] dumping to /dev/dsk/c0t0d0s4, offset 429850624, content: kernel
Dec 25 16:18:49 unknown genunix: [ID 409368 kern.notice] ^M100% done: 8950 pages dumped, compression ratio 4.08,
Dec 25 16:18:49 unknown genunix: [ID 851671 kern.notice] dump succeeded
Dec 25 16:20:33 unknown genunix: [ID 540533 kern.notice] ^MSunOS Release 5.9 Version Generic 64-bit
Dec 25 16:20:33 unknown genunix: [ID 172905 kern.notice] Copyright 1983-2002 Sun Microsystems, Inc.  All rights reserved.
Dec 25 16:20:33 unknown Use is subject to license terms.

und hier sieht man das die cpu1 nicht "online" ist:

Dec 25 16:20:37 unknown ebus: [ID 521012 kern.info] su1 at ebus0: offset 14,3062f8
Dec 25 16:20:37 unknown genunix: [ID 936769 kern.info] su1 is /pci@1f,4000/ebus@1/su@14,3062f8
Dec 25 16:20:38 unknown pcipsy: [ID 370704 kern.info] PCI-device: SUNW,m64B@4, m640
Dec 25 16:20:38 unknown genunix: [ID 936769 kern.info] m640 is /pci@1f,4000/SUNW,m64B@4
Dec 25 16:20:38 unknown m64: [ID 308573 kern.info] m64#0: 1152x900, 2M mappable, rev 4754.9a
Dec 25 16:20:38 unknown unix: [ID 987524 kern.info] cpu1: SUNW,UltraSPARC-II (upaid 1 impl 0x11 ver 0x20 clock 296 MHz)
Dec 25 16:20:38 unknown unix: [ID 987524 kern.info] cpu2: SUNW,UltraSPARC-II (upaid 2 impl 0x11 ver 0x20 clock 296 MHz)
Dec 25 16:20:38 unknown unix: [ID 721127 kern.info] cpu 2 initialization complete - online
Dec 25 16:20:38 unknown unix: [ID 987524 kern.info] cpu3: SUNW,UltraSPARC-II (upaid 3 impl 0x11 ver 0x20 clock 296 MHz)
Dec 25 16:20:38 unknown unix: [ID 721127 kern.info] cpu 3 initialization complete - online
Dec 25 16:20:38 unknown ebus: [ID 521012 kern.info] se0 at ebus0: offset 14,400000
Dec 25 16:20:38 unknown genunix: [ID 936769 kern.info] se0 is /pci@1f,4000/ebus@1/se@14,400000
Dec 25 16:20:39 unknown hme: [ID 517527 kern.info] SUNW,hme0 : PCI IO 2.0 (Rev Id = c1) Found
Dec 25 16:20:39 unknown pcipsy: [ID 370704 kern.info] PCI-device: network@1,1, hme0
Dec 25 16:20:39 unknown genunix: [ID 936769 kern.info] hme0 is /pci@1f,4000/network@1,1
Dec 25 16:20:43 unknown hme: [ID 517527 kern.info] SUNW,hme0 : Internal Transceiver Selected.
Dec 25 16:20:43 unknown hme: [ID 517527 kern.info] SUNW,hme0 :   100 Mbps Full-Duplex Link Up
Dec 25 15:20:46 unknown /sbin/dhcpagent[27]: [ID 929444 daemon.warning] configure_if: no IP broadcast specified for hme0, making best guess
Dec 25 16:20:48 unknown genunix: [ID 454863 kern.info] dump on /dev/dsk/c0t0d0s4 size 2049 MB
Dec 25 16:20:51 unknown pseudo: [ID 129642 kern.info] pseudo-device: devinfo0
Dec 25 16:20:51 unknown genunix: [ID 936769 kern.info] devinfo0 is /pseudo/devinfo@0
Dec 25 16:21:07 unknown savecore: [ID 570001 auth.error] reboot after panic: [AFT1] errID 0x00005385.ee13c797 UE Error(s)

kann es sein das die cpu1 defekt ist?

paraglider242

  • Gast
Re: Harwareproblem mit meiner E450?
« Antwort #2 am: 29. Dezember 2006, 12:32:53 »
Nimm die CPU, welche den Fehler verursacht raus und lass die Kiste laufen. Wenn sie nicht mehr crasht liegts an der CPU...

Offline Jonny

  • Global Moderator
  • Sobl Guru
  • *****
  • Beiträge: 1063
Re: Harwareproblem mit meiner E450?
« Antwort #3 am: 29. Dezember 2006, 13:01:40 »
Ist die Maschine im großen und ganzen viel Idle?
In grauer Vorzeit war mal was von wegen CPU-Cache Problemen in Mehrprozessor Konfigurationen die oft Idle sind und zum Crash führen.
Wir hatten so eine Maschine und nach ewigen Teile Tausch Aktionen habe wir die im SUN Lab abgegeben und nach 2 Wochen wieder bekommen. Frag mich nicht was die mit der Schüssel gemacht haben, aber das Problem war weg.
"sun e450 ecache panic problem" bei Google bringt einiges zu Tage, keine Ahnung, ob da eine Lösung dabei ist.
Einen Firmware Update würde ich auf alle Fälle mal in Betracht ziehen.

Gruß
Jonny
solaris is like a wigwam :
no windows, no gates and a apache inside !

chamaeleo

  • Gast
Re: Harwareproblem mit meiner E450?
« Antwort #4 am: 15. Januar 2007, 21:35:54 »
So, wollte nur mal bekannt geben das sich das Problem erledigt hat. Die Ursache war nur ein defekter Speicherbaustein. Nachdem ich die ausgetauscht habe die ich als letztes einbaute geht wieder alles ohne probleme.  ;D

derchris

  • Gast
Re: Harwareproblem mit meiner E450?
« Antwort #5 am: 22. Januar 2007, 23:43:37 »
Fuer sowas ist cediag ganz nuetzlich.