sonnenblen.de - Das unabhängige Sun User Forum
Hardware => Sun SPARC => Thema gestartet von: tassilo am 16. April 2008, 18:41:01
-
moin
und schon wieder stehe ich vor einem problem. meine e3500 hat sich gerade neugestartet. ist das normal ? ich hab zwar von "selbstheilenden" systemen gehört die sich im problemfall rebooten aber wieso macht sie es ? der schlüssel war im "debug modus" und "autoboot" war off also musste ich erst zur maschiene laufen und sie booten.
die ausgaben sind hier zu finden : http://tassilo.i7c.org/2008/04/16/debug-e3500/
(es sind fast 400 zeilen k.a. ob es gewünscht ist hier das zu posten).
meine fragen wären wieso bootet sich die e3500 neu? gibts irgendwo ein log wo steht warum sie es getan hat ? (ja ich weis google und sunsolve sind meine freunde, aber nach was sucht man da ? "automatic reboot" o.ä. zeigt da nicht viel, oder zu viel an...) ich würde mich ja schon darüber freuen wenn mir jemand sagen kann wie dieser "mechanismus" heist damit ich mich da mal schlau machen kann...
was mich auch beunruhigt sind zeilen wie diese hier : Testing only Tachyon registers
F_LSTAT1 error
SelfTest Failed
wenn jemand einen tipp hätte würd ich mich sehr freuen und diesmal gibts auch schnellere rückmeldung ;)
grüße
tassilo
-
Interessant wäre, was in /var/adm/messages bevor dem "syncing file systems… done" steht - oft findet sich da ein Hinweis auf den Reboot.
-
hallo
errm das ist nun doch etwas komisch... ich hab einträge dieser art :
Apr 16 13:03:56 e3500 genunix: [ID 540533 kern.notice] ^MSunOS Release 5.10 Version Generic_118833-33 64-bit
Apr 16 13:03:56 e3500 genunix: [ID 172907 kern.notice] Copyright 1983-2006 Sun Microsystems, Inc. All rights reserved.
Apr 16 13:03:56 e3500 Use is subject to license terms.
....
und der eintrag davon ist das hier :
Apr 8 07:51:30 e3500 genunix: [ID 408114 kern.info] /pseudo/zconsnex@1/zcons@6 (zcons6) online
Apr 8 07:51:38 e3500 genunix: [ID 408114 kern.info] /pseudo/zconsnex@1/zcons@7 (zcons7) online
Apr 8 16:40:52 e3500 genunix: [ID 408114 kern.info] /pseudo/zconsnex@1/zcons@2 (zcons2) online
also Zwischen Apr. 8 16:40:52 und Apr. 16 13:03:56 gibt es *keine* einträge ? ist das normal ?
also apr 16 12:06 war die e3500 noch da da ich mich da eingelogged hab und um 12:46 ca hab ich gemerkt das sie "weg" war....
komisch...
grüße
tassilo
-
als du dies bemerkt hast, wie war der status der maschine??? ausgeschaltet?? obp??
sieht fast so aus als hättest du ein stromunterbruch gehapt oder was ähnliches?!
-
hallo
als ichs merkte und zur maschiene rüber ging stand sie am prompt des obp. stromunterbrechung kann sein, aber an der gleichen dose hängen auch noch normale kisten und die laufen und laufen....
grüße
markus
-
ok ein stromunterbruch würde ich jetzt auch ausschliessen.
hast du die Explorer Software installiert???
-
Also die Meldung scheint vom FC HBA herzukommen. Und zwar interessanterweise von BEIDEN. Frage mich, ob das wirklich ein Problem darstellt. Ist selten, dass gerade zwei Komponenten gleichzeitig kaputtgehen.
Wenn die Maschine im OBP steht und Du nichts über den Zustand weisst (ob rebooted, panic'ed etc), kann es helfen, einfach mal 'sync' einzugeben. Dann schreibt er das Memory und die Register ins Swap und der Dumpcore holt sich die Informationen beim nächsten Reboot.
Was etwas seltsam aussieht:
Invalid wwn number 21000020 37f8487c
Boot device: vx-rootmirror File and args:
Invalid wwn number 21000020 37f8690f
Evaluating: boot
Was sagt denn probe-scsi-all? Siehst Du Deine Disks?
Gruss
Dominik
-
Hallo !
da ich nicht weis was die "Explorer Software" ist, würd ich jetzt einfach sagen das ich sie nicht installiert habe jedenfalls nicht wissentlich. Es läuft ein "standart" solaris 10 wenn es da automatisch dabei ist ...
grüße
tassilo
-
Hallo
k.a. ob das wichtig ist aber zum hintergund... als ich die maschiene bekommen habe war sie mit 3 "io boards mit massig gbics" und 2 cpu boards bestückt. als bei uns noch eine 2te maschiene "abgefallen" ist habe ich 2 io boards entfernt und 2 cpu boards eingebaut damit ich dann 4 cpu boards hatte.
als ich dann die maschiene startete kahmen einige fehlermeldungen aber sie bootete. dort hatte ich dann ein "touch /reconfigure;init6" eingegeben und danach waren die fehler weg.
ich hatte auch noch das problem das ich die oberen 4 disks nicht gefunden habe und hier im forum wurde wir gesagt das ich dazu ein 2tes gbit und 2tes kabel brauche. also habe ich eines aus den ausgebauten karten ausgebaut und dann sah ich auch alle 8 platten.
vielleicht hab ich dabei was kaput gemacht ? oder ein falsches gbic ? auf der anderen seite wenn es kaputt oder falsch wär hätte es gar nicht funktioniert oder ? (sind ja alles mutmassungen von mir)
zur frage ob ich alle platten sehe würd ich sagen ja hab mal die ausgabe von metastat kopiert...
-bash-3.00# metastat
d0: Spiegel
Untergeordneter Spiegel 0: d1
Status: Benötigt Wartung
Untergeordneter Spiegel 1: d2
Status: OK
Kontrolllauf: 1
Leseoption: roundrobin (Standard)
Schreiboption: parallel (Standard)
Größe: 11067462 Blöcke (5,3 GB)
d1: Untergeordneter Spiegel von d0
Status: Benötigt Wartung
Aufrufen: metareplace d0 c0t0d0s0 <Neues Gerät>
Größe: 11067462 Blöcke (5,3 GB)
Stripe 0:
Gerät Startblock Daten Status Wiede Hot-Spare
c0t0d0s0 0 Nein Wartung Ja
d2: Untergeordneter Spiegel von d0
Status: OK
Größe: 11067462 Blöcke (5,3 GB)
Stripe 0:
Gerät Startblock Daten Status Wiede Hot-Spare
c0t1d0s0 0 Nein OK Ja
d3: RAID
Status: OK
Interlace: 32 Blöcke
Größe: 88370919 Blöcke (42 GB)
Originalgerät:
Größe: 88372800 Blöcke (42 GB)
Gerät Startblock Daten Status Wiede Hot-Spare
c0t2d0s7 3921 Nein OK Ja
c0t3d0s7 3921 Nein OK Ja
c2t4d0s7 3921 Nein OK Ja
c2t5d0s7 3921 Nein OK Ja
c2t6d0s7 3921 Nein OK Ja
c2t7d0s7 3921 Nein OK Ja
Device Relocation Information:
Device Reloc Device ID
c0t1d0 Ja id1,ssd@n200000203716e3dc
c0t0d0 Ja id1,ssd@n20000020370da84d
c0t2d0 Ja id1,ssd@n200000203716e4ba
c0t3d0 Ja id1,ssd@n20000020370da692
c2t4d0 Ja id1,ssd@n20000020370da963
c2t5d0 Ja id1,ssd@n200000203716e32b
c2t6d0 Ja id1,ssd@n200000203707b3bc
c2t7d0 Ja id1,ssd@n200000203716e4fb
ich werd auch mal später ein probe-scsi-all machen aber die maschiene wird grad von einem kollegen von mir benutzt und da möchte ich sie ungern runterfahren (muss ich doch um ins obp zu kommen ?)
der "kaputte d0" spiegel passierte als wir mal als wir die erste platte (sollte imho bootplatte sein) im betrieb rausgezogen haben um zu gucken ob das mit dem spiegeln der bootplatte funktioniert.
hat es nicht. es gab nach ein paar sek wirre zeichen am schirm und die maschiene bootete sich neu (ok hier versteh ichs auch). danach haben wir dann von der 2ten platte gebootet. die 2 platten wieder "syncron" zu bekommen ist uns bis heute nicht gelungen leider. aber die e3500 lief auch wirklich mehrere wochen 24h lang durch und muckste kein bischen bis zu o.g. "unerklärlichen" reboot.
ok hoffe das diese infos vielleicht hilfreich sind.
danke für all die hilfe und mühen bisher und grüße
tassilo
p.s.: auf die frage wieso man platten im laufenden betrieb zieht oder 9gb platten verwendet: dies ist eine "spielmaschiene" z.Zt für uns (mein kollege azubi fachinformatik systemintegration und ich ein anwendungsentwickler) da wir uns mal in solaris und sun allgeinem mal etwas "verstehen" wollen...
-
Möchte nicht pedantisch erscheinen, aber offiziell war damals die Mixed-Speed Bestückung nicht supported. Glaube aber nicht, dass das etwas mit Deinen derzeitigen Problemen zu tun hat.
Gruss
Dominik
-
Hallo
was meinst du mit "mixed speed" im sinne von cpu's oder den gbics ? oder was anderes ?
zu den cpu's die melden sich alle mit 400mhz und die gbics sehen zumindest äusserlich genau so aus wie die die schon drinnen waren...
grüße
tassilo
-
mist ich seh erst jetzt das das 336 und 400mhz cpu's sind.. ich hätte schwören können das da mal bei allen 8 400 stand. naja ok. das könnte ein problem sein. werde die morgen gleich austauschen...
grüße
tassilo