Autor Thema: Sunfire V445 verliert 75% Speicher nach poweroff/poweron  (Gelesen 5783 mal)

Offline dornroeschen

  • Sobl Junior
  • **
  • Beiträge: 64
Sunfire V445 verliert 75% Speicher nach poweroff/poweron
« am: 01. Oktober 2012, 14:49:02 »
Moin, moin

ich hatte gerade einen etwas strangen Vorfall mit einer V445 (4 CPUs, 16GB Speicher). Die Maschine musste wegen Umbauarbeiten in einen anderen Serverraum umziehen. Nach einem "poweroff" via Betriebssystem wurde sie ausgebaut, transportiert und wieder eingebaut. Nach einem "poweron" via ALOM stellt sich heraus, dass 12 der verbauten 16 DIMMs den POST nicht überstehen.

Ich habe die restlichen 4 Dimms auf mehreren der 4 CPU-Boards getestet und kann daher ausschließen, dass es sich um einen Fehler der CPU-Boards handelt. Verbaut ist der seinerzeit schweineteure SUN Speicher:

PC2700R, DDR, 333, CL2.5 ECC, REG, 16x1GB Part, 370-7973-01 Rev 50

Hat jemand schon Ähnliches beobachtet? Was könnte da passiert sein?

Gruß, Rainer

sonnenblen.de - Das unabhängige Sun User Forum

Sunfire V445 verliert 75% Speicher nach poweroff/poweron
« am: 01. Oktober 2012, 14:49:02 »

Offline stiefkind

  • Sobl Bachelor
  • ***
  • Beiträge: 144
    • Synapseninferno
Re: Sunfire V445 verliert 75% Speicher nach poweroff/poweron
« Antwort #1 am: 10. Oktober 2012, 15:25:21 »
Ich habe die restlichen 4 Dimms auf mehreren der 4 CPU-Boards getestet und kann daher ausschließen, dass es sich um einen Fehler der CPU-Boards handelt.

Hast Du denn die vermeintlich defekten DIMMs auch mal in den Steckplätzen getestet, wo die vier "guten" DIMMs drin stecken?

Bei Transport lockern sich gerne mal Komponenten in ihren Steckplätzen. Aber gleich 12 DIMMs auf einmal lockern sich da nicht... :-)

Die CPUs sind aber alle da am ALOM? So von wegen defekte Centerplane oder sowas? Haarriss auf der Platine durch Erschütterung beim Transport wäre jetzt nichts so ausgesprochen ungewöhnliches. Der Memory Controller ist bei allem >= UltraSPARC III in der CPU. Wenn also die CPU eine Macke hätte, würde auch das dran hängende Memory nicht erkannt werden.

Du kannst im OBP die POST-Settings einstellen (z. B. diag-level auf max) und dann mal einen diag-boot fahren: Entweder diag-mode oder diag-boot auf true setzen (weiß grade nicht, wie der Parameter genau heißt) oder den Schlüsselschalter auf den Diagnose-Modus stellen (das Bildchen mit dem stilisierten Oszilloskop) und dann das System einschalten. Dabei am besten den Console-Output irgendwo hin mitloggen (können eigentlich alle Terminal-Programme, egal welches Betriebssystem). Evtl. wird daraus ersichtlich, was mit dem Memory los ist. Achtung: im Diag-Boot steht das Boot-Device normalerweise auf 'net', die Maschine wird in dem Fall versuchen, von einem Install Server zu booten. Ein Break bringt die Maschine auf den ok-Prompt. Schlüsselschalter zurück drehen, 'reset-all' machen und es sollte wieder auf "normales booten" stehen.

Mit ALOM habe ich nicht so viel gemacht, ich komme noch aus der Zeit, wo man direkt seriell an das System ging ohne Service Processor. Aber hat's da nicht auch wo die Möglichkeit, sich zu den FRUs und einzelnen Komponenten Details anzuschauen? Fehler-Logs?

wolfgang