Superuser

Autor Thema: Fehlereingrenzung bei einer Ultra5  (Gelesen 4543 mal)

astaroth

  • Gast
Fehlereingrenzung bei einer Ultra5
« am: 03. Mai 2003, 04:41:59 »
Hallo zusammen!

Leider muss ich meinen Einstand in diesem Forum gleich mit einer lästigen Bitte um Hilfe feiern:

Ich versuche an einer defekten Ultra5 eine Fehlereingrenzung vorzunehmen: weder bootet die Workstation, noch zeigt sich irgendetwas auf dem Schirm. Das Netzteil scheint in Ordnung zu sein, ebenfalls das RAM. Damit erschöpfen sich meine Untersuchungen bereits und ich hoffe auf Tipps aus dem Forum, um dem guten Stück wieder Leben einzuhauchen.

Ein Terminal am ser. Port A zeigt folgende Meldungen:

Software Power ON

@(#) Sun Ultra 5/10 UPA/PCI  3.15 Version 2 created 1998/11/10 10:35
Clearing E$ Tags  Done
Clearing I/D TLBs Done
Probing Memory Done
MEM BASE = 0000.0000.1000.0000
MEM SIZE = 0000.0000.0800.0000
11-Column Mode Enabled
MMUs ON
Copy Done
PC = 0000.01ff.f000.1fec
PC = 0000.0000.0000.2030
Decompressing into Memory Done
Size = 0000.0000.0000.0ed2
RED State Exception

TL=0000.0000.0000.0005 TT=0000.0000.0000.0030
  TPC=0000.0000.0000.4200 TnPC=0000.0000.0000.4204 TSTATE=0000.0099.1500.1500
TL=0000.0000.0000.0004 TT=0000.0000.0000.0010
  TPC=0000.0000.0000.4604 TnPC=ffff.ffff.ffa1.93dc TSTATE=0000.0099.1504.1400
TL=0000.0000.0000.0003 TT=0000.0000.0000.0030
  TPC=0000.0000.0000.4200 TnPC=0000.0000.0000.4204 TSTATE=0000.0099.1500.1500
TL=0000.0000.0000.0002 TT=0000.0000.0000.0010
  TPC=0000.0000.f005.238c TnPC=0000.0000.f005.2390 TSTATE=0000.0099.1504.1400
TL=0000.0000.0000.0001 TT=0000.0000.0000.0030
  TPC=0000.0000.0000.2908 TnPC=0000.0000.0000.290c TSTATE=0000.0000.1500.0401

Wobei sich der Absatz ab (und inkl.) RED State Exception endlos wiederholt. Wird die Workstation etwas länger aus- und dann wieder eingeschaltet, so erhalte ich folgende Ausgabe:

Hardware Power ON

@(#) Sun Ultra 5/10 UPA/PCI  3.15 Version 2 created 1998/11/10 10:35
Probing keyboard Done
%o0 = 0000.0000.0000.4001

Executing Power On SelfTest

@(#) Sun Ultra 5/10 (Darwin) POST 2.3.1 (Build No. 521) 16:33 on 08/07/98

CPU: UltraSPARC-LC (MHz: 270 Ecache Size:  256KB)

Init POST BSS
     Init System BSS
NVRAM
     NVRAM Battery Detect Test
     NVRAM Scratch Addr Test
     NVRAM Scratch Data Test
DMMU TLB Tags
     DMMU TLB Tag Access Test
DMMU TLB RAM
     DMMU TLB RAM Access Test
Probe Ecache
     Probe Ecache
Ecache Tests
     Ecache RAM Addr Test
     Ecache Tag Addr Test
     Ecache RAM Test
     Ecache Tag Test
All CPU Basic Tests
     V9 Instruction Test
     CPU Tick and Tick Compare Reg Test
     CPU Soft Trap Test
     CPU Softint Reg and Int Test
All Basic MMU Tests
     DMMU Primary Context Reg Test
     DMMU Secondary Context Reg Test
     DMMU TSB Reg Test
     DMMU Tag Access Reg Test
     DMMU VA Watchpoint Reg Test
     DMMU PA Watchpoint Reg Test
     IMMU TSB Reg Test
     IMMU Tag Access Reg Test
All Basic Cache Tests
     Dcache RAM Test
     Dcache Tag Test
     Icache RAM Test
     Icache Tag Test
     Icache Next Test
     Icache Predecode Test
Sabre MCU Control & Status Regs Init and Tests
     Init Sabre MCU Control & Status Regs
           Initializing SC registers in SabreIO
Memory Probe and Init
     Probe Memory
           bank 0:        0MB
           INFO:    128MB Bank 2
INFO: MC0 = 0x00000000.80001483, MC1 = 0x00000000.0626168a
     Ecache Access Test
     Malloc Post Memory
     Memory Addr with Ecache
     Load Post In Memory
     Run POST from MEM
     .........
loaded POST in memory

RED State Exception

TL=0000.0000.0000.0005 TT=0000.0000.0000.0080
  TPC=ffff.ffff.f008.310c TnPC=ffff.ffff.f008.3110 TSTATE=0000.0099.8000.1500
TL=0000.0000.0000.0004 TT=0000.0000.0000.0010
  TPC=ffff.ffff.f008.7e08 TnPC=ffff.ffff.f008.7e0c TSTATE=0000.0099.8000.1400
TL=0000.0000.0000.0003 TT=0000.0000.0000.0010
  TPC=ffff.ffff.f008.7e08 TnPC=ffff.ffff.f008.7e0c TSTATE=0000.0099.8000.1406
TL=0000.0000.0000.0002 TT=0000.0000.0000.0010
  TPC=ffff.ffff.f008.7e08 TnPC=ffff.ffff.f008.7e0c TSTATE=0000.0099.8000.1404
TL=0000.0000.0000.0001 TT=0000.0000.0000.0010
  TPC=ffff.ffff.f008.7e08 TnPC=ffff.ffff.f008.7e0c TSTATE=0000.0000.8000.1602


SIR Reset (wiederholt sich ewig...)

Wer könnte mir eine Hilfeleistung bieten, die fehlerhafte Komponente zu lokalisieren? Bin froh um jeden Rat!

Viele Grüsse

Patrick

sonnenblen.de - Das unabhängige Sun User Forum

Fehlereingrenzung bei einer Ultra5
« am: 03. Mai 2003, 04:41:59 »

hplehner

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #1 am: 03. Mai 2003, 13:56:16 »
Hallo Patrick,

auf den ersten Blick schaut die Sache für mich nach einem Memory Problem aus:
Memory Probe and Init
    Probe Memory
          bank 0:        0MB
          INFO:    128MB Bank 2
Sieht so aus, als wäre die Bank 0 nicht bestückt.

Schau dir mal folgendes PDF an:
http://sunsolve.sun.com/handbook_pub/Systems/U5/docs.html

Kapitel 10.5 beschreibt die Memory Geschichten. Es muß paarweise mit identischen Modulen bestückt werden.

Gruß
Hans-Peter

astaroth

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #2 am: 03. Mai 2003, 16:58:18 »
Hallo Hans-Peter

Danke für Deinen Ratschlag! Die Bank 0 ist tatsächlich nicht bestückt, da der Log-Mitschnitt aus einem Versuch stammt, bei dem ich die DIMMs von der ersten in die zweite Bank verschoben habe um einen defekten DIMM-Sockel als Fehlerquelle auszuschliessen. Die Symptome bleiben somit dieselben, wenn die Bank 0 bestückt ist. Vermutlich scheiden auch die DIMMs selbst als Fehlerquelle aus, da ich versuchsweise 2x 256MB-Riegel aus einer Ultra10 eingesetzt habe und der Startvorgang an derselben Stelle abgebrochen hat.

Die Sun-Dokumentation ist leider auch keine Hilfe, ebenso das offizielle Sun-Forum. Bis jetzt habe ich zwar meine Frage noch nicht dorthin plaziert, aber bei ähnlichen Problemen, sprich Fehlermeldung "RED State Exception", lautet die Antwort jeweils lapidar, dass der Sun-Techniker das Mainboard ersetzt habe, und dann alles wieder in Ordnung gewesen sei. Leider kann ich keinen Sun-Techniker aufbieten... :-(

Gruss und nochmals Danke für Deine Hilfe

Patrick

hplehner

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #3 am: 03. Mai 2003, 17:23:17 »
Es ist noch nicht aller Tage Abend.

Leider schaut die Sache dann aber nach einem CPU-Problem aus.
Es gab da mal Kontakt Probleme zwischen CPU-Modul und Mainboard.
Bau mal die CPU aus und überprüfe die Kontakte. Ist ein Beinchen beschädigt, oder ist ev. Schmutz bei einer
früheren Bastelei in die Stecker gekommen.
Sei bitte vorschichtig beim Abziehen, an allen Ecken rund rum a bisserl lupfen, bis sich das Ganze löst.
Ist an der Maschine früher mal heftig gebastelt worden?
Es gab auch mal Boards und CPUs die mechanisch nicht gepasst haben (waren aber glaube ich nur 440er Module).
Ich meine, dass dein Darwin Board das Passende zur 270er ist.

astaroth

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #4 am: 03. Mai 2003, 20:36:47 »
Hallo Hans-Peter

Dass an der Maschine jemals herumgebastelt wurde, halte ich für unwahrscheinlich, da sie aus Firmenbesitz stammt. Ich habe bereits einmal das CPU-Modul entfernt und oberflächlich inspiziert, ohne dass mir etwas verdächtiges dabei aufgefallen ist.
Aber ich werde das Modul nochmals genauer unter die Lupe nehmen...

Allerdings wundere ich mich, dass bei einem defekten CPU-Modul überhaupt etwas am Terminal erscheint.

Gruss

Patrick

hplehner

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #5 am: 03. Mai 2003, 21:20:29 »
Eine "RED State Exception" hatte ich schon mal bei einer im Staub erstickten Ultra 1.
Da ist die CPU scheinbar nur teilweise abgefackelt.
Die Meldung trat auch manchmal bei den Ultra 10 auf, wo Board und CPU mechanisch nicht passten.
Der POST (von dem alle die gezeigten Meldungen stammen) kommt scheinbar mit wenigen funktionierenden
Teilen der CPU aus.
Wenn du noch ein passendes OBP-Prom von einer anderen Maschine hast, kann das auch mal einen Versuch wert sein.
Nur leicht eindrücken reicht, dann klappts besser mim Rausnehmen.

astaroth

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #6 am: 05. Mai 2003, 03:26:20 »
Schlechte Aussichten für die Ultra... :-(

Sämtliche Hinweise, welche ich zum Thema "RED State Exception" finden konnte, laufen darauf hinaus, dass die CPU und/oder das Mainboard zu ersetzen ist, was in beiden Fällen mit einigen Unkosten verbunden ist. Blindlings einen Ersatz für das CPU-Modul zu erwerben, ist finanziell eher gewagt.

Was hat es sich mit dem OBP-Prom auf sich? Inwiefern könnte ein zweites Prom hilfreich sein? Die Frage stellt sich nur der Neugier halber, da mir leider kein Ersatz-Prom zur Verfügung steht.

Da es sich bei dem guten Stück um ein Geschenk handelt, bin ich mir ziemlich unschlüssig, ob ich grössere Beträge investieren möchte, um sie wieder in Schwung zu bringen, zumal ich nicht weiss, welche Komponente (oder Komponenten) defekt ist/sind.

Trotzdem nochmals vielen Dank für Deine Hilfe!

Ach ja, im Verlauf der Woche werde ich zwei SS5 erhalten. Hoffentlich bereiten mir diese weniger Probleme... ;-)

Gruss

Patrick

hplehner

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #7 am: 05. Mai 2003, 03:53:29 »
Hi Patrick,

Die folgenden Aussagen geben meine persönlichen Erfahrungen wieder.
"RED State" habe ich bisher nur bei kaputter CPU oder Mainboard gesehen.
Memory würde ich vom Gefühl her auch mal in der Richtung sehen, habe ich aber noch nicht mit der Meldung gehabt.
OBP Defekte können die seltsamsten Fehler auslösen, gehören also auch zu den üblichen Verdächtigen.
Die letzten beiden Teile hat man eher mal irgend wo rumliegen und kann testen.
Bei CPU und Mainboard ist das ein eher exklusiver Spaß.

Schade um die Maschine :'(

Gruß
Hans-Peter
« Letzte Änderung: 05. Mai 2003, 03:54:49 von hplehner »

Offline spud

  • Sobl Newbie
  • *
  • Beiträge: 15
  • Ich mag keine Signaturen!
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #8 am: 06. Mai 2003, 03:03:36 »
moin !

also, die "red state exception" tritt fast immer nur bei speicherfehlern auf, wenn z.b. ein modul von einem speicherpaar oder -quartett kaputt ist. das muß aber nicht zwangsweise am speicher liegen, sondern evtl. auch an der verbindungsstelle zum motherboard : sprich memory-slot !

schau dir doch mal die einzelnen slots an, ob da vielleicht was verbogen oder verdreckt ist. nur in den seltensten fällen war es bei einer "red state exception" wirklich die cpu !

gruß,

spud

astaroth

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #9 am: 06. Mai 2003, 05:07:48 »
Hallo zusammen!

Heilfroh um jeden weiteren Hinweis, komme ich nicht umhin meine Verwirrung auszudrücken: die bisherigen Kommentare widerspiegeln ziemlich entgegengesetzte Lager. Kann man also bei einer RED State Exception weder CPU/Mainboard noch das RAM als Fehlerquelle gänzlich ausschliessen? Das macht die Sache nicht einfacher...

@ Spud: Natürlich wäre mir ein Defekt an einem DIMM wesentlich willkommener als am CPU-Modul, aber ich glaube, ein defektes DIMM / ein defekter Memory-Slot wäre mir beim Umstecken bzw. Auswechseln der DIMMs aufgefallen. Es sei denn, die 2x256MB DIMMs, welche ich aus der U10 entlehnt habe, waren wider Erwarten doch nicht kompatibel.

Ich werde aber dem guten Stück trotzdem nochmals unter die Haube schauen. Vielleicht fällt mir doch noch etwas auf an den Steckverbindungen des CPU-Moduls bzw. der Memory-Slots.

Kämen evtl. auch kalte Lötstellen in Frage? Soweit ich weiss, fiel die U5 im normalen Betrieb aus. Meines Wissens führen verschmutzte Steckkontakte nicht zu spontanen Ausfällen, sondern sind eher die Folge von menschlichen Eingriffen.

Kann man denn aus den Zeilen, welche der Message "RED State Exception" folgen, nichts nützliches entlocken? Irgendetwas werden doch wohl die lustigen Zahlen bedeuten? :-)

BTW: Kennt irgendjemand die Pinbelegung der CPU- und Memory-Slots?

Grüsse & gute Nacht!

Patrick

sonnenblen.de - Das unabhängige Sun User Forum

Re: Fehlereingrenzung bei einer Ultra5
« Antwort #9 am: 06. Mai 2003, 05:07:48 »

Offline Sparky

  • Sobl Moderator
  • Sobl Guru
  • *****
  • Beiträge: 3260
  • HyperSPARC ! Das fetzt......
    • HyperSTATION
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #10 am: 06. Mai 2003, 10:59:32 »
Hallo,
du erwartest Antworten,
welche selbst ein SUN-Service-Techniker nur aus Handbüchern beantworten kann.
Die meisten hier betreiben ihre SUN "nebenbei" oder als "Hobby".
Solch tiefgreifendes Wissen ist dazu nicht erforderlich.
Sei also nicht ungehalten oder Enttäuscht,
wenn du hier im Forum keine passende Auskunft bekommst.
Gruß
Jürgen
www.hyperstation.de
alles zu HyperSPARC, SBus-Karten und AG-10E Howto

astaroth

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #11 am: 06. Mai 2003, 14:57:12 »
Hallo zusammen!

Weder werde ich ungehalten noch enttaeuscht sein, wenn ich keine Antworten erhalte. Aber diese Fragen brannten mir einfach unter den Naegeln...

Im weiteren ist es ja nicht ausgeschlossen, dass ein Hobbyist durch Zufall oder Forschungsdrang an solche Informationen gelangt.

Wer nicht fragt, der nicht gewinnt. Oder so aehnlich... ;-)

Gruesse

Patrick

Offline maal

  • Global Moderator
  • Sobl Guru
  • *****
  • Beiträge: 1529
  • Ich mag keine Signaturen!
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #12 am: 06. Mai 2003, 15:47:32 »
Hallo,

unserer Erfahrung nach deutet es eben auf eine defekte CPU hin, so unangenehm das auch klingen mag.

Mir ist keine Dokumentation zu den RED State Exception bekannt. Auch ein Techniker wechselt nur das Teil und schickt es ein. Für eine tiefergreifende Analyse bleibt überhaupt keine Zeit.

Warum läßt sich nur schwer unterscheiden ob es die CPU oder nur der Speicher ist ?
Die Platine auf der die CPU sitzt enthält auch den Cache-(Speicher). Ein Haupt-Speicherfehler kann auch dort seine Ursache haben.

Michael

astaroth

  • Gast
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #13 am: 08. Mai 2003, 05:01:25 »
Hallo zusammen!

Da ich doch noch leihweise eine zweite Ultra5 auftreiben konnte, stellte sich nun heraus, dass tatsächlich das CPU-Modul defekt ist, während das Mainboard und der Speicher in Ordnung sind. Damit bin ich nun zwar um eine Erkenntnis reicher, aber ohne Ersatzmodul kriege ich die Maschine nicht flott. Mal schauen, wo ich ein solches einigermassen günstig auftreiben kann. Hat vielleicht grad jemand aus dem Forum ein solches rumliegen und möchte es veräussern?

Herzlichen Dank an alle, welche mir mit Rat zur Seite gestanden sind!

Gruss

Patrick

Offline maal

  • Global Moderator
  • Sobl Guru
  • *****
  • Beiträge: 1529
  • Ich mag keine Signaturen!
Re: Fehlereingrenzung bei einer Ultra5
« Antwort #14 am: 08. Mai 2003, 12:11:45 »
Hallo,

die 270 MHz Module sollen recht preiswert zu bekommen sein, allerdings nicht bei Händlern.

Für ein 333 MHz 2 MB bzw 360 MHz 256KB habe ich jew. ca 160 Euro bezahlt.

Das mit der defekten CPU beruht auf eigener Erfahrung. Ich habe ein jeweils defektes M-Bus-Modul für eine SS10/20 und ein UltraSPARC IIi 333 MHz, die eben einen defekten Cache haben.

6.11.2003: Inzwischen hat sich herausgestellt, daß beim UltraSPARC IIi 333 MHz nicht der Cache, sondern der CPU-Chip defekt war. Ich habe dann auf eBay aus Singapur (!) zwei dieser Chips ersteigert (ich dachte natürlich es handelt sich um zwei komplette Module). Nach dem Auswechseln läuft das Modul wieder.

Michael
« Letzte Änderung: 06. November 2003, 14:34:43 von maal »