Superuser

Autor Thema: automatischer reboot e3500  (Gelesen 5131 mal)

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
automatischer reboot e3500
« am: 16. April 2008, 18:41:01 »
moin

und schon wieder stehe ich vor einem problem. meine e3500 hat sich gerade neugestartet. ist das normal ? ich hab zwar von "selbstheilenden" systemen gehört die sich im problemfall rebooten aber wieso macht sie es ? der schlüssel war im "debug modus" und "autoboot" war off also musste ich erst zur maschiene laufen und sie booten.

die ausgaben sind hier zu finden : http://tassilo.i7c.org/2008/04/16/debug-e3500/
(es sind fast 400 zeilen k.a. ob es gewünscht ist hier das zu posten).

meine fragen wären wieso bootet sich die e3500 neu? gibts irgendwo ein log wo steht warum sie es getan hat ? (ja ich weis google und sunsolve sind meine freunde, aber nach was sucht man da ? "automatic reboot" o.ä. zeigt da nicht viel, oder zu viel an...) ich würde mich ja schon darüber freuen wenn mir jemand sagen kann wie dieser "mechanismus" heist damit ich mich da mal schlau machen kann...

was mich auch beunruhigt sind zeilen wie diese hier : Testing only Tachyon registers
F_LSTAT1 error
SelfTest Failed

wenn jemand einen tipp hätte würd ich mich sehr freuen und diesmal gibts auch schnellere rückmeldung ;)

grüße

tassilo

sonnenblen.de - Das unabhängige Sun User Forum

automatischer reboot e3500
« am: 16. April 2008, 18:41:01 »

paraglider242

  • Gast
Re: automatischer reboot e3500
« Antwort #1 am: 16. April 2008, 18:59:03 »
Interessant wäre, was in /var/adm/messages bevor dem "syncing file systems… done" steht - oft findet sich da ein Hinweis auf den Reboot.

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
Re: automatischer reboot e3500
« Antwort #2 am: 16. April 2008, 21:53:59 »
hallo

errm das ist nun doch etwas komisch... ich hab einträge dieser art :
Apr 16 13:03:56 e3500 genunix: [ID 540533 kern.notice] ^MSunOS Release 5.10 Version Generic_118833-33 64-bit
Apr 16 13:03:56 e3500 genunix: [ID 172907 kern.notice] Copyright 1983-2006 Sun Microsystems, Inc.  All rights reserved.
Apr 16 13:03:56 e3500 Use is subject to license terms.
....
und der eintrag davon ist das hier :
Apr  8 07:51:30 e3500 genunix: [ID 408114 kern.info] /pseudo/zconsnex@1/zcons@6 (zcons6) online
Apr  8 07:51:38 e3500 genunix: [ID 408114 kern.info] /pseudo/zconsnex@1/zcons@7 (zcons7) online
Apr  8 16:40:52 e3500 genunix: [ID 408114 kern.info] /pseudo/zconsnex@1/zcons@2 (zcons2) online

also Zwischen Apr. 8 16:40:52 und Apr. 16 13:03:56 gibt es *keine* einträge ? ist das normal ?

also apr 16 12:06 war die e3500 noch da da ich mich da eingelogged hab und um 12:46 ca hab ich gemerkt das sie "weg" war....

komisch...

grüße

tassilo

beta17

  • Gast
Re: automatischer reboot e3500
« Antwort #3 am: 17. April 2008, 09:07:45 »
als du dies bemerkt hast, wie war der status der maschine??? ausgeschaltet?? obp??

sieht fast so aus als hättest du ein stromunterbruch gehapt oder was ähnliches?!

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
Re: automatischer reboot e3500
« Antwort #4 am: 17. April 2008, 10:58:30 »
hallo

als ichs merkte und zur maschiene rüber ging stand sie am prompt des obp. stromunterbrechung kann sein, aber an der gleichen dose hängen auch noch normale kisten und die laufen und laufen....

grüße

markus

beta17

  • Gast
Re: automatischer reboot e3500
« Antwort #5 am: 17. April 2008, 11:26:03 »
ok ein stromunterbruch würde ich jetzt auch ausschliessen.
hast du die Explorer Software installiert???

Offline dominik

  • Sobl Bachelor
  • ***
  • Beiträge: 182
  • Me, myself & I
    • Meine Heimseite
Re: automatischer reboot e3500
« Antwort #6 am: 17. April 2008, 13:17:17 »
Also die Meldung scheint vom FC HBA herzukommen. Und zwar interessanterweise von BEIDEN. Frage mich, ob das wirklich ein Problem darstellt. Ist selten, dass gerade zwei Komponenten gleichzeitig kaputtgehen.

Wenn die Maschine im OBP steht und Du nichts über den Zustand weisst (ob rebooted, panic'ed etc), kann es helfen, einfach mal 'sync' einzugeben. Dann schreibt er das Memory und die Register ins Swap und der Dumpcore holt sich die Informationen beim nächsten Reboot.

Was etwas seltsam aussieht:
Zitat
Invalid wwn number 21000020 37f8487c
Boot device: vx-rootmirror File and args:
Invalid wwn number 21000020 37f8690f
Evaluating: boot

Was sagt denn probe-scsi-all? Siehst Du Deine Disks?

Gruss
Dominik

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
Re: automatischer reboot e3500
« Antwort #7 am: 17. April 2008, 14:39:18 »
Hallo !

da ich nicht weis was die "Explorer Software" ist, würd ich jetzt einfach sagen das ich sie nicht installiert habe jedenfalls nicht wissentlich. Es läuft ein "standart" solaris 10 wenn es da automatisch dabei ist ...

grüße

tassilo

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
Re: automatischer reboot e3500
« Antwort #8 am: 17. April 2008, 15:08:00 »
Hallo

k.a. ob das wichtig ist aber zum hintergund... als ich die maschiene bekommen habe war sie mit 3 "io boards mit massig gbics" und 2 cpu boards bestückt. als bei uns noch eine 2te maschiene "abgefallen" ist habe ich 2 io boards entfernt und 2 cpu boards eingebaut damit ich dann 4 cpu boards hatte.
als ich dann die maschiene startete kahmen einige fehlermeldungen aber sie bootete. dort hatte ich dann ein "touch /reconfigure;init6" eingegeben und danach waren die fehler weg.
ich hatte auch noch das problem das ich die oberen 4 disks nicht gefunden habe und hier im forum wurde wir gesagt das ich dazu ein 2tes gbit und 2tes kabel brauche. also habe ich eines aus den ausgebauten karten ausgebaut und dann sah ich auch alle 8 platten.
vielleicht hab ich dabei was kaput gemacht ? oder ein falsches gbic ? auf der anderen seite wenn es kaputt oder falsch wär hätte es gar nicht funktioniert oder ? (sind ja alles mutmassungen von mir)

zur frage ob ich alle platten sehe würd ich sagen ja hab mal die ausgabe von metastat kopiert...

-bash-3.00# metastat
d0: Spiegel
    Untergeordneter Spiegel 0: d1
      Status: Benötigt Wartung
    Untergeordneter Spiegel 1: d2
      Status: OK
    Kontrolllauf: 1
    Leseoption: roundrobin (Standard)
    Schreiboption: parallel (Standard)
    Größe: 11067462 Blöcke (5,3 GB)

d1: Untergeordneter Spiegel von d0
    Status: Benötigt Wartung
    Aufrufen: metareplace d0 c0t0d0s0 <Neues Gerät>
    Größe: 11067462 Blöcke (5,3 GB)
    Stripe 0:
        Gerät      Startblock   Daten       Status Wiede Hot-Spare
        c0t0d0s0          0     Nein       Wartung    Ja


d2: Untergeordneter Spiegel von d0
    Status: OK
    Größe: 11067462 Blöcke (5,3 GB)
    Stripe 0:
        Gerät      Startblock   Daten       Status Wiede Hot-Spare
        c0t1d0s0          0     Nein            OK    Ja


d3: RAID
    Status: OK
    Interlace: 32 Blöcke
    Größe: 88370919 Blöcke (42 GB)
Originalgerät:
    Größe: 88372800 Blöcke (42 GB)
        Gerät      Startblock   Daten       Status Wiede  Hot-Spare
        c0t2d0s7       3921      Nein           OK    Ja
        c0t3d0s7       3921      Nein           OK    Ja
        c2t4d0s7       3921      Nein           OK    Ja
        c2t5d0s7       3921      Nein           OK    Ja
        c2t6d0s7       3921      Nein           OK    Ja
        c2t7d0s7       3921      Nein           OK    Ja

Device Relocation Information:
Device   Reloc  Device ID
c0t1d0   Ja     id1,ssd@n200000203716e3dc
c0t0d0   Ja     id1,ssd@n20000020370da84d
c0t2d0   Ja     id1,ssd@n200000203716e4ba
c0t3d0   Ja     id1,ssd@n20000020370da692
c2t4d0   Ja     id1,ssd@n20000020370da963
c2t5d0   Ja     id1,ssd@n200000203716e32b
c2t6d0   Ja     id1,ssd@n200000203707b3bc
c2t7d0   Ja     id1,ssd@n200000203716e4fb

ich werd auch mal später ein probe-scsi-all machen aber die maschiene wird grad von einem kollegen von mir benutzt und da möchte ich sie ungern runterfahren (muss ich doch um ins obp zu kommen ?)

der "kaputte d0" spiegel passierte als wir mal als wir die erste platte (sollte imho bootplatte sein) im betrieb rausgezogen haben um zu gucken ob das mit dem spiegeln der bootplatte funktioniert.
hat es nicht. es gab nach ein paar sek wirre zeichen am schirm und die maschiene bootete sich neu (ok hier versteh ichs auch). danach haben wir dann von der 2ten platte gebootet. die 2 platten wieder "syncron" zu bekommen ist uns bis heute nicht gelungen leider. aber die e3500 lief auch wirklich mehrere wochen 24h lang durch und muckste kein bischen bis zu o.g. "unerklärlichen" reboot.

ok hoffe das diese infos vielleicht hilfreich sind.

danke für all die hilfe und mühen bisher und grüße

tassilo

p.s.: auf die frage wieso man platten im laufenden betrieb zieht oder 9gb platten verwendet: dies ist eine "spielmaschiene" z.Zt für uns (mein kollege azubi fachinformatik systemintegration und ich ein anwendungsentwickler) da wir uns mal in solaris und sun allgeinem mal etwas "verstehen" wollen...

Offline dominik

  • Sobl Bachelor
  • ***
  • Beiträge: 182
  • Me, myself & I
    • Meine Heimseite
Re: automatischer reboot e3500
« Antwort #9 am: 17. April 2008, 15:36:12 »
Möchte nicht pedantisch erscheinen, aber offiziell war damals die Mixed-Speed Bestückung nicht supported. Glaube aber nicht, dass das etwas mit Deinen derzeitigen Problemen zu tun hat.


Gruss
Dominik

sonnenblen.de - Das unabhängige Sun User Forum

Re: automatischer reboot e3500
« Antwort #9 am: 17. April 2008, 15:36:12 »

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
Re: automatischer reboot e3500
« Antwort #10 am: 17. April 2008, 17:28:04 »
Hallo

was meinst du mit "mixed speed" im sinne von cpu's oder den gbics ? oder was anderes ?
zu den cpu's die melden sich alle mit 400mhz und die gbics sehen zumindest äusserlich genau so aus wie die die schon drinnen waren...

grüße

tassilo

Offline tassilo

  • Sobl Master
  • ****
  • Beiträge: 437
    • Freie Jobbörse rund um Linux
Re: automatischer reboot e3500
« Antwort #11 am: 18. April 2008, 01:32:37 »
mist ich seh erst jetzt das das 336 und 400mhz cpu's sind.. ich hätte schwören können das da mal bei allen 8 400 stand. naja ok. das könnte ein problem sein. werde die morgen gleich austauschen...

grüße

tassilo