Superuser

Autor Thema: Kernel-Panic mit Solaris  (Gelesen 24148 mal)

mj

  • Gast
Kernel-Panic mit Solaris
« am: 17. März 2007, 23:56:49 »
Nachdem es uns letztens das S-ATA RAID zerschossen hat und wir jetzt darauf verzichtet haben, gibt es die nächste Probleme. Das System kriegt alle paar Tage einen Kernel Panic:

dasboot2 ^Mpanic[cpu0]/thread=fffffe80000adc80:
dasboot2 genunix: [ID 920532 kern.notice] page_unlock: page fffffffffa8c8ac8 is not locked
dasboot2 unix: [ID 100000 kern.notice]
--
dasboot2 savecore: [ID 570001 auth.error] reboot after panic: page_unlock: page fffffffffa8c8ac8 is not locked
dasboot2 savecore: [ID 748169 auth.error] saving system crash dump in /var/crash/dasboot2/*.0
dasboot2 scsi: [ID 193665 kern.info] sd3 at ata0: target 0 lun 0


Eine Dumpanalyse bringt folgendes:

bash-3.00# cd /var/crash/dasboot2/ ; echo '$c' | adb -k unix.0 vmcore.0
physmem fb78e
vpanic()
0xfffffffffb8404c9()
segmap_unlock+0xe5()
segmap_fault+0x2db()
snf_smap_desbfree+0x76()
dblk_lastfree_desb+0x17()
dblk_decref+0x66()
freeb+0x7b()
tcp_rput_data+0x1986()
tcp_input+0x38()
squeue_enter_chain+0x16e()
ip_input+0x18c()
i_dls_link_ether_rx+0x153()
mac_rx+0x46()
bge_receive+0x98()
bge_intr+0xaf()
av_dispatch_autovect+0x78()
intr_thread+0x50()


Was könnte das Problem sein? Weiß hier jemand Bescheid bevor wir negative PR für Sun betreiben und den Rotz wieder runterhauen? Den neuesten Patch, der eigentlich genau dieses Problem beheben soll, haben wir vorgestern installiert. Trotzdem gab es heute wieder einen Kernel Panic.

sonnenblen.de - Das unabhängige Sun User Forum

Kernel-Panic mit Solaris
« am: 17. März 2007, 23:56:49 »

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #1 am: 18. März 2007, 05:55:03 »
Hallo,

auf welcher Hardware?
Welcher Ausgangsversion von Solaris?
Auf welchem Patchstand habt ihr Solaris gebracht?
Stehen sämtliche Komponenten in der Sun Hardware Compatibility List  http://www.sun.com/bigadmin/hcl/ ?
Korrelliert das Problem zu irgendwelchen bekannten Aktitiväten im System ?

Nebenbei gefragt: Habt ihr einen Supportplan für das Solaris? Klar koennt Ihr das auch ohne betreiben, aber da das für euch businesskritisch ist, lohnt sich das immer. Man kann da für kleines Geld wirklich extrem guten Support kaufen. Ihr koenntet da dann einen Case aufmachen, Dump einschicken, und dann kümmert sich da jemand drum. Und das schöne ist: Man hat einen Hals zum Würgen :) http://www.sun.com/service/subscriptions/index.xml

Gruesse
 Joerg

Offline Freud-Schiller

  • Sobl Guru
  • *****
  • Beiträge: 927
Re: Kernel-Panic mit Solaris
« Antwort #2 am: 18. März 2007, 10:35:49 »
Und das schöne ist: Man hat einen Hals zum Würgen :)
Oder zum Küssen!

mj

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #3 am: 18. März 2007, 14:17:48 »
Einen Business Plan nur um einen Crash Dump zu analyiseren? Dann lieber eine weitere Downtime von einem Tag und wir installieren wieder Linux auf dem Teil - das lief nämlich wenigstens und hat keine Zicken gemacht.

Patchstand ist der neueste, smpatch analyze bringt nichts mehr. Kernel Generic_125101-03. Sämtliche Komponenten stehen auf der HCL, alle sind sogar certified. Das System lief bisher mit Linux über ein Jahr lang stabil und ohne Probleme, seit Solaris macht es Streß. Zusätzlich zur System Neuinstallation haben wir noch die Prozessoren getauscht (zwei Opteron 246 gegen zwei Opteron 290) sowie den RAID-Controller (ICP Vortex) aus dem System geschmissen, da er von Solaris nicht unterstützt wird.

Das ganze läuft auf einem Tyan S2882D, zwei Opteron 290, 4GB DDR400 Registered ECC, ein Adaptec 29320, zwei 10.000rpm 140GB SCSI-Platten (System, Apache, Logs), zwei 15.000rpm 36GB SCSI-Platten (MySQL), zwei 120GB P-ATA Platten (Backup, Daten). Als Ethernet-Schnittstelle kommt der Broadcom BCM5704 zum Einsatz, der zweite BCM5704 sowie der 100-MBit Intel Ethernet sind im BIOS deaktiviert. BIOS-Setup ist das neueste drauf, Probleme mit der Hardware können wir ausschließen - sie lief schließlich problemlos bis Solaris installiert wurde, seitdem gibt's Ärger.

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #4 am: 18. März 2007, 14:21:27 »
So .... CeBIT ist vorbei ...

also  damit man halbwegs etwas sieht, bitte ich dich mal einen anständigen Debugger zu nutzen, adb ist doch schon so alt, das ist doch schon garnicht mehr wahr ;)

also:
mdb -k unix.0 vmcore.0

zunächstmal bitte folgende Infos:
::showrev
::showstatus
$C

Gruesse
 Joerg

mj

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #5 am: 18. März 2007, 14:28:15 »
bash-3.00# mdb -k unix.4 vmcore.4
Loading modules: [ unix krtld genunix specfs dtrace cpu.AuthenticAMD.15 uppc pcplusmp ufs md ip sctp usba fcp fctl nca lofs cpc fcip random crypto zfs logindmux ptm sppp nfs ipc ]
> ::showrev
Hostname: dasboot2
Release: 5.10
Kernel architecture: i86pc
Application architecture: amd64
Kernel version: SunOS 5.10 i86pc Generic_125101-03
Platform: i86pc
> $C
fffffe80000b9650 vpanic()
fffffe80000b9670 0xfffffffffb840459()
fffffe80000b96e0 segmap_unlock+0xe5()
fffffe80000b97a0 segmap_fault+0x2db()
fffffe80000b97c0 snf_smap_desbfree+0x76()
fffffe80000b97e0 dblk_lastfree_desb+0x17()
fffffe80000b9800 dblk_decref+0x66()
fffffe80000b9830 freeb+0x7b()
fffffe80000b99b0 tcp_rput_data+0x1986()
fffffe80000b99d0 tcp_input+0x38()
fffffe80000b9a10 squeue_enter_chain+0x16e()
fffffe80000b9ac0 ip_input+0x18c()
fffffe80000b9b50 i_dls_link_ether_rx+0x153()
fffffe80000b9b80 mac_rx+0x46()
fffffe80000b9bd0 bge_receive+0x98()
fffffe80000b9c10 bge_intr+0xaf()
fffffe80000b9c60 av_dispatch_autovect+0x78()
fffffe80000b9c70 intr_thread+0x50()
>




Ein ::showstatus gibt's nicht, meinst du ::kmstats?

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #6 am: 18. März 2007, 14:35:46 »
Nein ... ich meinte

::status

Bitte zusätzlich noch mal

::msgbuf
::panicinfo

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #7 am: 18. März 2007, 14:43:07 »

mj

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #8 am: 18. März 2007, 14:44:42 »
Zitat
> ::status
debugging crash dump vmcore.4 (64-bit) from dasboot2
operating system: 5.10 Generic_125101-03 (i86pc)
panic message: page_unlock: page fffffffff9082bf8 is not locked
dump content: kernel pages only



Zitat
> ::msgbuf
MESSAGE
sd5 at adpu3200: target 5 lun 0
sd5 is /pci@0,0/pci1022,7450@b/pci9005,44@3/sd@5,0
pseudo-device: lockstat0
lockstat0 is /pseudo/lockstat@0
pcplusmp: ide (ata) instance 0 vector 0xe ioapic 0x4 intin 0xe is bound to cpu 3
pcplusmp: ide (ata) instance 0 vector 0xe ioapic 0x4 intin 0xe is bound to cpu 0
pseudo-device: llc10
llc10 is /pseudo/llc1@0
        ATAPI device at targ 0, lun 0 lastlun 0x0
        model TSSTcorpDVD-ROM SH-D162C
sd6 at adpu3200: target 6 lun 0
sd6 is /pci@0,0/pci1022,7450@b/pci9005,44@3/sd@6,0
pseudo-device: fcp0
fcp0 is /pseudo/fcp@0
pseudo-device: fcsm0
fcsm0 is /pseudo/fcsm@0
pseudo-device: lofi0
lofi0 is /pseudo/lofi@0
pseudo-device: dtrace0
dtrace0 is /pseudo/dtrace@0
pseudo-device: profile0
profile0 is /pseudo/profile@0
pseudo-device: systrace0
systrace0 is /pseudo/systrace@0
pseudo-device: fbt0
fbt0 is /pseudo/fbt@0
pseudo-device: sdt0
sdt0 is /pseudo/sdt@0
pseudo-device: fasttrap0
fasttrap0 is /pseudo/fasttrap@0
PCI-device: ide@0, ata0
ata0 is /pci@0,0/pci-ide@7,1/ide@0
pcplusmp: ide (ata) instance #1 vector 0xf ioapic 0x4 intin 0xf is bound to cpu
0
pcplusmp: ide (ata) instance #1 vector 0xf ioapic 0x4 intin 0xf is bound to cpu
0
        IDE device at targ 0, lun 0 lastlun 0x0
        model WDC WD1200BB-00DWA0
        ATA/ATAPI-6 supported, majver 0x7e minver 0x0
ata_set_feature: (0x66,0x0) failed
        IDE device at targ 1, lun 0 lastlun 0x0
        model Maxtor 4G120J6
        ATA/ATAPI-6 supported, majver 0x7e minver 0x18
PCI-device: ide@1, ata1
ata1 is /pci@0,0/pci-ide@7,1/ide@1
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        UltraDMA mode 5 selected
        UltraDMA mode 6 selected
sd3 at ata0: target 0 lun 0
sd3 is /pci@0,0/pci-ide@7,1/ide@0/sd@0,0
Disk1:  <Vendor 'Gen-ATA ' Product 'WDC WD1200BB-00D'>
cmdk1 at ata1 target 0 lun 0
cmdk1 is /pci@0,0/pci-ide@7,1/ide@1/cmdk@0,0
Disk2:  <Vendor 'Gen-ATA ' Product 'Maxtor 4G120J6  '>
cmdk2 at ata1 target 1 lun 0
cmdk2 is /pci@0,0/pci-ide@7,1/ide@1/cmdk@1,0
pseudo-device: zfs0
zfs0 is /pseudo/zfs@0
pseudo-device: power0
power0 is /pseudo/power@0
pseudo-device: fssnap0
fssnap0 is /pseudo/fssnap@0
pseudo-device: winlock0
winlock0 is /pseudo/winlock@0
pseudo-device: vol0
vol0 is /pseudo/vol@0
pseudo-device: pm0
pm0 is /pseudo/pm@0
pseudo-device: pool0
pool0 is /pseudo/pool@0
IP Filter: v4.0.3, running.
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        ATA DMA off: disabled.  Control with "atapi-cd-dma-enabled" property
        PIO mode 4 selected
        UltraDMA mode 5 selected
        UltraDMA mode 6 selected
dump on /dev/dsk/c1t1d0s1 size 4102 MB
pseudo-device: devinfo0
devinfo0 is /pseudo/devinfo@0
xsvc0 at root
xsvc0 is /xsvc
pcplusmp: asy (asy) instance 0 vector 0x4 ioapic 0x4 intin 0x4 is bound to cpu 1
ISA-device: asy0
asy0 is /isa/asy@1,3f8
pcplusmp: asy (asy) instance #1 vector 0x3 ioapic 0x4 intin 0x3 is bound to cpu
1
ISA-device: asy1
asy1 is /isa/asy@1,2f8
pseudo-device: ramdisk1024
ramdisk1024 is /pseudo/ramdisk@1024
pseudo-device: llc10
llc10 is /pseudo/llc1@0
pseudo-device: fcp0
fcp0 is /pseudo/fcp@0
pseudo-device: fcsm0
fcsm0 is /pseudo/fcsm@0
pseudo-device: lofi0
lofi0 is /pseudo/lofi@0
pseudo-device: fssnap0
fssnap0 is /pseudo/fssnap@0
pseudo-device: winlock0
winlock0 is /pseudo/winlock@0
pseudo-device: pm0
pm0 is /pseudo/pm@0
pseudo-device: rsm0
rsm0 is /pseudo/rsm@0

panic[cpu0]/thread=fffffe80000b9c80:
page_unlock: page fffffffff9082bf8 is not locked


fffffe80000b9670 unix:mutex_exit_critical_size+11ee1 ()
fffffe80000b96e0 genunix:segmap_unlock+e5 ()
fffffe80000b97a0 genunix:segmap_fault+2db ()
fffffe80000b97c0 sockfs:snf_smap_desbfree+76 ()
fffffe80000b97e0 genunix:dblk_lastfree_desb+17 ()
fffffe80000b9800 genunix:dblk_decref+66 ()
fffffe80000b9830 genunix:freeb+7b ()
fffffe80000b99b0 ip:tcp_rput_data+1986 ()
fffffe80000b99d0 ip:tcp_input+38 ()
fffffe80000b9a10 ip:squeue_enter_chain+16e ()
fffffe80000b9ac0 ip:ip_input+18c ()
fffffe80000b9b50 dls:i_dls_link_ether_rx+153 ()
fffffe80000b9b80 mac:mac_rx+46 ()
fffffe80000b9bd0 bge:bge_receive+98 ()
fffffe80000b9c10 bge:bge_intr+af ()
fffffe80000b9c60 unix:av_dispatch_autovect+78 ()
fffffe80000b9c70 unix:intr_thread+50 ()

syncing file systems...
 3
 done
dumping to /dev/dsk/c1t1d0s1, offset 65536, content: kernel
NOTICE: adpu320: bus reset



Zitat
> ::panicinfo
             cpu                0
          thread fffffe80000b9c80
         message page_unlock: page fffffffff9082bf8 is not locked
             rdi fffffffffb8a1a68
             rsi fffffe80000b9580
             rdx fffffffffb842280
             rcx                1
              r8                0
              r9 ffffffff80b65730
             rax fffffe80000b95a0
             rbx fffffe80000b9518
             rbp fffffe80000b9650
             r10                0
             r10                0
             r11                0
             r12 fffffffffbc4f780
             r13 ffffffff80b65730
             r14             3000
             r15 fffffe80c0e2f000
          fsbase ffffffff80000000
          gsbase fffffffffbc240e0
              ds               43
              es               43
              fs                0
              gs              1c3
          trapno                0
             err                0
             rip fffffffffb82dc60
              cs               28
          rflags              282
             rsp fffffe80000b9578
              ss                0
          gdt_hi                0
          gdt_lo         defacedd
          idt_hi                0
          idt_lo         48400fff
             ldt                0
            task               60
             cr0         80050033
             cr2          826d690
             cr3          dfec000
>

mj

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #9 am: 18. März 2007, 14:47:35 »
Sieht uebrigens nach  http://bugs.opensolaris.org/bugdatabase/view_bug.do?bug_id=2140955 aus.
Hmm... wenn ich das richtig gesehen habe, ist der doch bereits fixed, oder? November 2006 ist schon lange nicht mehr wirklich aktuell und wir haben die neueste Version von Solaris (5.10 11/6) installiert sowie sämtliche Patches (smpatch analyze bringt nichts Neues mehr)

sonnenblen.de - Das unabhängige Sun User Forum

Re: Kernel-Panic mit Solaris
« Antwort #9 am: 18. März 2007, 14:47:35 »

Offline Drusus

  • Sobl Master
  • ****
  • Beiträge: 424
  • Intentionally left blank
Re: Kernel-Panic mit Solaris
« Antwort #10 am: 18. März 2007, 15:32:32 »
Moin,

um eine genaue Aussage ueber die Ursache machen zu koennen waere eine Crashdump-Analyse notwendig (d.h. nicht nur Stacktrace, Messages etc sondern selber in den Dump reinschauen). Falls es einen Support-Vertrag gibt, so wende die an Sun und lass den Dump dort analysieren.

Benutzt du ZFS? Dann koennte der Stacktrace auf einen bekannten Bug hinweisen (6438702 wozu der Patch noch in Arbeit ist). Falls ZFS im Einsatz ist und es vorher mal I/O-Probleme dort gab, so wuerde ich ein "zpool scrub" empfehlen...
Ansonsten tritt der Fehler ja bei der Freigabe eines einkommenden IP-Pakets auf: koennte also auch ein Problem in IP Filter (oder aehnlichem - haengt davon ab, was verwendet wird) sein. Ich wuerde einmal empfehlen das Kernel-Memory-Debugging zu aktivieren, d.h. in die /etc/system Datei den Eintrag "set kmem_flags=0x2f" und einmal rebooten um das zu aktivieren.

Tschau,
  Drusus.

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #11 am: 18. März 2007, 15:41:21 »
Sieht uebrigens nach  http://bugs.opensolaris.org/bugdatabase/view_bug.do?bug_id=2140955 aus.
Hmm... wenn ich das richtig gesehen habe, ist der doch bereits fixed, oder? November 2006 ist schon lange nicht mehr wirklich aktuell und wir haben die neueste Version von Solaris (5.10 11/6) installiert sowie sämtliche Patches (smpatch analyze bringt nichts Neues mehr)
Nun ... ohne Wartungsvertrag siehst Du nur eine Teilmenge der vorhandenen Patches. Es kann also durchaus sein, das dir der entsprechende Patch fehlt, sondern nur Security Patches plus noch ein paar kleinigkeiten eingespielt hast. Änderungen aus spätem November sind nicht im Release aus November. Ich werde mal gucken, welchen Patch man braucht ...
« Letzte Änderung: 18. März 2007, 15:50:50 von c0t0d0s0 »

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #12 am: 18. März 2007, 15:48:59 »
Sieht uebrigens nach  http://bugs.opensolaris.org/bugdatabase/view_bug.do?bug_id=2140955 aus.
Hmm... wenn ich das richtig gesehen habe, ist der doch bereits fixed, oder? November 2006 ist schon lange nicht mehr wirklich aktuell und wir haben die neueste Version von Solaris (5.10 11/6) installiert sowie sämtliche Patches (smpatch analyze bringt nichts Neues mehr)

Bitte mal im Debugger
snf_smap_desbfree+0x76::dis
eingeben

mj

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #13 am: 18. März 2007, 15:59:00 »
Bitte mal im Debugger
snf_smap_desbfree+0x76::dis
eingeben
> snf_smap_desbfree+0x76::dis
snf_smap_desbfree+0x47:         ret
snf_smap_desbfree+0x48:         movl   0x18(%rdi),%edx
snf_smap_desbfree+0x4b:         movq   0x20(%rdi),%rcx
snf_smap_desbfree+0x4f:         xorl   %r9d,%r9d
snf_smap_desbfree+0x52:         addq   0x10(%rdi),%rdx
snf_smap_desbfree+0x56:         movq   0xbb99b2b(%rip),%rsi
snf_smap_desbfree+0x5d:         movl   $0x3,%r8d
snf_smap_desbfree+0x63:         andq   0xb843836(%rip),%rdx
snf_smap_desbfree+0x6a:         movq   0xbbbcc9f(%rip),%rdi
snf_smap_desbfree+0x71:         call   +0xb96317f       <segmap_fault>
snf_smap_desbfree+0x76:         jmp    -0x60    <snf_smap_desbfree+0x16>
0xfffffffff0067138:             nop
0xfffffffff006713c:             nop
snf_segmap:                     pushq  %rbp
snf_segmap+1:                   movq   %rsp,%rbp
snf_segmap+4:                   pushq  %r15
snf_segmap+6:                   pushq  %r14
snf_segmap+8:                   pushq  %r13
snf_segmap+0xa:                 pushq  %r12
snf_segmap+0xc:                 pushq  %rbx
snf_segmap+0xd:                 subq   $0x108,%rsp
>



@Drusus:
Ja, wir nutzen tatsächlich ZFS, wir haben drei ZPools aktiv und nutzen diese auch.

c0t0d0s0

  • Gast
Re: Kernel-Panic mit Solaris
« Antwort #14 am: 18. März 2007, 16:04:26 »
Okay ...
dann geb mal

showrev -p | grep "124255"
showrev -p | grep "118855"

ein