jawcruncher
Goto Top

BSOD (STOP 0x0000009F) aller virtuellen Server unter VMware vSphere ESX 4.1 nach MS-Updates

Hallo,

am Wochenende habe ich hier meine Server durchgepatcht (also alle MS-Patches von Juli). Direkt im Anschluss fiel auf, dass einige nicht mehr sauber herunterfahren.

Ich habe es soweit eingrenzen können, dass dies offenbar alle meine Systeme unter Windows 2008 R2 betrifft, jedoch nur virtuelle Server. Konkret: ich habe hier zzt. 8 Systeme unter 2k8R2 laufen, 3 davon sind physische, der Rest virtuell auf 2 VSphere ESX 4.1. Ich habe 3 der 5 virtuellen getestet, alle drei zeigten das Problem. Die drei vServer liegen auf 2 verschiedenen Servern, vCenter kommt nicht zum Einsatz.

Das Problem ist ein Hänger beim Shutdown. Nach 10 Minuten wird der dann durch einen BSOD mit Fehler 0x0000009F (DRIVER_POWER_STATE_FAILURE) abgebrochen und ein Dump geschrieben.

Google brachte keine Erkenntnisse über aktuelle Probleme in dieser Richtung, Supportverträge mit VMware oder MS haben wir nicht, ich ahne auch schon, dass die beiden sich schön gegenseitig den Ball zuspielen werden.

Andere Gemeinsamkeiten die ich außer dem ESX-Server sehe sind die VMware-Tools, der Virenscanner (McAfee VirusScan Enterprise) und der Backup-Client (Backup Exec 2010 R3). Ansonsten haben die Kisten unterschiedliche Aufgaben, also auch andere Software on board.

Ich bin mir recht sicher, dass das Problem vor einem Monat noch nicht existierte, kann aber nicht ausschließen, dass es schon im Rahmen der letzten Serverwartung entstanden ist, da die Server sonst nicht heruntergefahren werden.

Derzeit setzte ich eine jungfräuliche Maschine auf um das Verhalten mit einem nicht produktiven System zu testen, außerdem habe ich schon mal den Memory-Dump einer Maschine in den Debugger gegeben:

0: kd> !analyze -v
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

DRIVER_POWER_STATE_FAILURE (9f)
A driver has failed to complete a power IRP within a specific time (usually 10 minutes).
Arguments:
Arg1: 0000000000000003, A device object has been blocking an Irp for too long a time
Arg2: fffffa8001c9e060, Physical Device Object of the stack
Arg3: fffff80001920748, nt!TRIAGE_9F_POWER on Win7, otherwise the Functional Device Object of the stack
Arg4: fffffa80035ef010, The blocked IRP

Debugging Details:
------------------


DRVPOWERSTATE_SUBCODE:  3

IMAGE_NAME:  pci.sys

DEBUG_FLR_IMAGE_TIMESTAMP:  4ce7928f

MODULE_NAME: pci

FAULTING_MODULE: fffff8800117a000 pci

DEFAULT_BUCKET_ID:  WIN7_DRIVER_FAULT

BUGCHECK_STR:  0x9F

PROCESS_NAME:  System

CURRENT_IRQL:  2

TAG_NOT_DEFINED_c000000f:  FFFFF80001920FB0

STACK_TEXT:  
fffff800`019206f8 fffff800`01b478c2 : 00000000`0000009f 00000000`00000003 fffffa80`01c9e060 fffff800`01920748 : nt!KeBugCheckEx
fffff800`01920700 fffff800`01ae284c : fffff800`01920830 fffff800`01920830 00000000`00000000 00000000`00000001 : nt! ?? ::FNODOBFM::`string'+0x33af0
fffff800`019207a0 fffff800`01ae26e6 : fffffa80`02794c58 fffffa80`02794c58 00000000`00000000 00000000`00000000 : nt!KiProcessTimerDpcTable+0x6c
fffff800`01920810 fffff800`01ae25ce : 000000c8`622b5f0e fffff800`01920e88 00000000`00540c03 fffff800`01c552e8 : nt!KiProcessExpiredTimerList+0xc6
fffff800`01920e60 fffff800`01ae23b7 : fffff800`01c52ec2 fffff800`00540c03 fffffa80`01834050 00000000`00000003 : nt!KiTimerExpiration+0x1be
fffff800`01920f00 fffff800`01adad05 : 00000000`00000000 fffffa80`01d47660 00000000`00000000 fffff800`01b8f420 : nt!KiRetireDpcList+0x277
fffff800`01920fb0 fffff800`01adab1c : 00000000`00000046 fffff800`01ad41f9 fffff800`01c52e80 fffffa80`02f500f8 : nt!KyRetireDpcList+0x5
fffff880`0241b250 fffff800`01b22a1c : 00000000`0002625a 00001f80`00000200 00000000`10480014 fffffa80`02f500f8 : nt!KiDispatchInterruptContinue
fffff880`0241b280 fffff800`01ae0bca : 00000000`00000010 00000000`00000246 fffff880`0241b708 fffffa80`01ff98d0 : nt!KiDpcInterrupt+0xcc
fffff880`0241b410 fffff880`00f469e5 : fffffa80`020e71a0 00000000`00000001 00000000`00000000 fffffa80`020e71a0 : nt!KeReleaseSpinLock+0x2a
fffff880`0241b440 fffff880`00f40321 : 00000000`00000000 00000000`00000000 fffff880`00000032 00000000`c0000000 : NDIS! ?? ::LNCPHCLB::`string'+0x5326
fffff880`0241b520 fffff880`00f41fd1 : 00000000`00000000 00000000`00000000 fffffa80`020e7100 fffff880`0000ff00 : NDIS!ndisPnPNotifyAllTransports+0x1e1
fffff880`0241b690 fffff880`00f420fd : fffff880`0241bae8 00000000`00000000 fffffa80`027faa90 00000000`00000000 : NDIS!ndisInitializeBindingEx+0x9a1
fffff880`0241b980 fffff880`00f3ff72 : 00000000`00000000 fffffa80`020e5600 fffffa80`c0000001 fffff880`0241bae8 : NDIS!ndisInitializeBinding+0x4d
fffff880`0241bab0 fffff880`00f4309a : fffffa80`02f7e3b0 ffffffff`80000770 fffffa80`020e71a0 fffffa80`01f1bad0 : NDIS!ndisCheckAdapterBindings+0x292
fffff880`0241bbf0 fffff880`00eb264a : 00000000`00000080 fffff880`00f04110 fffffa80`027fabd0 00000000`00000000 : NDIS!ndisCheckProtocolBindings+0x13f
fffff880`0241bd10 fffff800`01d75ede : fffffa80`01d47660 fffffa80`018ad9e0 00000000`00000000 fffffa80`01bbd3c0 : NDIS!ndisWorkerThread+0xba
fffff880`0241bd40 fffff800`01ac8906 : fffff880`009b8180 fffffa80`01d47660 fffff880`009c2f40 00000000`dc9fffff : nt!PspSystemThreadStartup+0x5a
fffff880`0241bd80 00000000`00000000 : fffff880`0241c000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiStartSystemThread+0x16


STACK_COMMAND:  kb

FOLLOWUP_NAME:  MachineOwner

FAILURE_BUCKET_ID:  X64_0x9F_3_E1G6032E_IMAGE_pci.sys

BUCKET_ID:  X64_0x9F_3_E1G6032E_IMAGE_pci.sys

Followup: MachineOwner

Riecht für mich nach Netzwerkkartentreiber (die virt. Hardware kann man ja wohl ausschließen face-wink
Unnötig zu sagen, dass der nicht geändert worden ist.

Hat wer eine brauchbare Idee, wie man da weiterkommt?

Danke schon einmal,

Jens

Content-ID: 213388

Url: https://administrator.de/contentid/213388

Ausgedruckt am: 21.11.2024 um 13:11 Uhr

Sascha-1
Sascha-1 07.08.2013 um 17:25:10 Uhr
Goto Top
Hallo Jens,

ich gehe davon aus, es ist "nur" ein Problem beim herunterfahren? Also die Systeme laufen noch?

Würde auch von einem Treiberproblem ausgehen, jedenfalls ist die Fehlermeldung ein Hinweis darauf. Ich gehe einmal davon aus, das es auch zu deinen Aufgaben gehört sich um die ESX zu kümmern!?

Um das einzugrenzen würde ich mir die Patches mal genauer ansehen und den Zusammenhang zu 4.1 in seiner bei die Laufenden Version suchen. Natürlich spielt hier auch die vor Ort verwendete HW eine Rolle.

Sascha
JawCruncher
JawCruncher 07.08.2013 um 21:06:20 Uhr
Goto Top
Hallo Sascha,

Jupp, für die Serverlandschaft bin ich komplett (und alleine) verantwortlich.

Das "nur" Problem beim Herunterfahren führt dann dazu, dass der Server nach dem BSOD wieder startet, VMware aber noch auf das Abschalten wartet. Dann sind keine Snapshots mehr möglich und damit klappt meine Datensicherung nicht mehr.

Ich habe in der Zwischenzeit SEHR viel Zeit in das Problem gesteckt und konnte eingrenzen, dass nach der Deinstallation von KB2850851 das Problem behoben ist, nach Neuinstallation wieder kommt.

Via MSCONFIG habe ich alle nicht-Microsoft-Dienste auf einem Server deaktiviert. Problem behoben. Der Reihe nach wieder aktiviert und den Übeltäter isoliert. Leider war dieser Dienst nur auf diesem einen Server aktiv. Folglich zeigte der Test auf einem weiteren Server einen anderen Verursacher. Also ohne Ergebnis einen Tag in den Sand gesetzt.

Außerdem habe ich einen neuen virtuellen Server aufgesetzt (wie oben schon beschrieben), mit der bei uns üblichen SW betankt und durchgepatcht. Natürlich zeigte sich kein Problem. Wäre ja auch ein Hinweis gewesen, Murphy lässt das aber wohl nicht zu...

3,5 Arbeitstage habe ich da nun reingesteckt ohne Ergebnis. Es bei dem "nur"-Problem beim Shutdown zu belassen behagt mir nicht. Nach meiner Erfahrung fällt einem das dann später auf die Füße (wenn man es noch weniger gebrauchen kann).

Suche nach Patches von VMware werde ich wohl morgen mal angehen. Ich hatte aber vor ein paar Wochen erst die Server auf die U3 gebracht und dabei auch nach anderen Updates gesucht.

Jens
Sascha-1
Sascha-1 09.08.2013 aktualisiert um 10:34:54 Uhr
Goto Top
Hallo Jens,

ich denke, wenn dir die VMs nach der Patchaktion nicht wieder hoch gefahren wären, hättest du einen etwas anderen Stressfaktor. Daher das nur. Solange die Systeme noch laufen, auch wenn ein Fehler auftritt hat man ja noch die Möglichkeit, wie in deinem Fall zu handeln und das Problem ohne den Benutzerstress zu lösen.
Tja das Leben eines Admin. Da sind ein Paar Tage bei einem Problem schon mal weg und bei Aktualisierungen sollte man sich neben dem Samstag auch keine Termine am Sonntag vornehmen, denn unverhofft kommt doch all zu oft.
Halt uns auf dem Laufenden, würde mich interessieren, ob die Aktualisierung der VM Umgebung geholfen hat.

Gruß
Sascha
JawCruncher
JawCruncher 28.08.2013 um 21:18:43 Uhr
Goto Top
So, nach nun doch ein paar Wochen möchte ich dann auch die Auflösung hier hineinschreiben.
Ich hatte einen Case bei Microsoft aufgemacht, das war anstrengend, wenn auch nicht besonders erfolgreich. Unabhängig davon habe ich, unterstützt von einem netten Kollegen, weiter an der Lösung des Problems gearbeitet und sie dann auch gefunden.
Wie schon ganz oben beschrieben, roch es ja schon anfangs nach dem Netzwerkkartentreiber. Ich habe die vNIC der Maschine dann mal geändert auf VMXNET 3 und schon waren die Probleme behoben.

Heute habe ich außerdem ein anderes Problem auf meinen virtualisierten Win 2k8R2-Servern gesucht und isoliert. In diesem Fall war es der McAfee-Virenscanner, der sich nicht mehr aktualisieren wollte. Warum? Weil mir "ipconfig /all" auf den beiden betroffenen Maschinen den Media State mit "Media unoperational" anzeigte. Beide holten sich auch keine neuen Adressen mehr vom DHCP, in ein paar Tagen wäre mir das heftig auf die Füße gefallen bei Ablauf der Lease Time.

Microsoft sieht keinen Bug, das Problem wäre fremdverschuldet (auch wenn der Treiber für die virt. NIC im Lieferumfang von Windows 2008 R2 enthalten ist und das Problem erst durch den Patch KB2850851 ausgelöst wurde). Mir wurscht, auch wenn die Hilfe von Microsoft von dem netten Kollegen als "Pre-Level-0" bezeichnet wurde.

Danke allen, die sich Gedanken gemacht haben, auch wenn sie hier nix geschrieben haben.

Jens