crusher79
Goto Top

Eternus DX100 S3 ESXi 7x Time out VMFS format

Hallo,

habe ein Problem:
FJT Eternus DX 100 S3
ProLiant DL560 Gen8 + HP Smart Array P822

P822 auf neueste Firmeware gebracht und HBA aktiviert. Probleme mit Claim über Vendor gelöst. Claim Error kommt seitdem nicht mehr.
1 TB Test Device auf den ESXi 7.0 U2 zu sehen. Formatieren bricht ab. Im GUI nur ATS Fehler zu sehen.

Via Command Line einmal versucht Speicher einzurichten. Partitionierung i.O. Beim Formatieren läuft es auf einen Timeout. Hier bin ich am verzweifeln. Heartbeat für vmfs5/ 6 auch einmal deakativiert. Aber es kommt noch wie vor der Timeout.

Eternus hat als Response "default". Mir fällt gerade nichts mehr ein.

mfg Crusher

PS:
ScsiClaimrule: 1495: Path vmhba1:C2:T1:L0 is claimed by plugin NMP, but current claimrule number 65531 indicates that it should be claimed by plugin HPP.
ScsiClaimrule: 1495: Path vmhba1:C2:T0:L0 is claimed by plugin NMP, but current claimrule number 65531 indicates that it should be claimed by plugin HPP.

Fixed mit
esxcli storage core claimrule add -r 49 -t vendor -V FUJITSU -M ETERNUS_DXL -P NMP --force-reserved

VMFS Heartbeat:
esxcli system settings advanced set -i 0 -o /VMFS3/UseATSForHBOnVMFS5

Immer noch ATS bzw. Time out Fehler
Fehler beim Erstellen von VMFS-Datenspeicher test - Vorgang fehlgeschlagen, Diagnosebericht: Unable to create Filesystem, please see VMkernel log for more details: Failed to check device /dev/disks/naa.600000e00d2800000028318400000000:4 capable of ATS

[root@esxi02:~] vmkfstools -C vmfs6 -S WD101 "/vmfs/devices/disks/naa.600000e00d2800000028318400000000"
create fs deviceName:'/vmfs/devices/disks/naa.600000e00d2800000028318400000000', fsShortName:'vmfs6', fsName:'WD101'
deviceFullPath:/dev/disks/naa.600000e00d2800000028318400000000 deviceFile:naa.600000e00d2800000028318400000000
Error executing ATS on /dev/disks/naa.600000e00d2800000028318400000000: Connection timed out
Failed to check device /dev/disks/naa.600000e00d2800000028318400000000 capable of ATS
Usage: vmkfstools -C [vmfs5|vmfs6|vfat] /vmfs/devices/disks/vml... or,
vmkfstools -C [vmfs5|vmfs6|vfat] /vmfs/devices/disks/naa... or,
vmkfstools -C [vmfs5|vmfs6|vfat] /vmfs/devices/disks/mpx.vmhbaA:T:L:P
Error: Connection timed out

Content-ID: 2725023220

Url: https://administrator.de/contentid/2725023220

Ausgedruckt am: 23.11.2024 um 11:11 Uhr

cykes
cykes 09.05.2022 um 05:47:08 Uhr
Goto Top
Moin,

also irgendwie werde ich - auch nach 5x durchlesen - nicht so ganz schlau aus Deinen Ausführungen.

Könntest Du die Frage vielleicht ein wenig sortierter formulieren?

Die wichtigste Frage wäre zunächst: Ist das ein Produktivsystem oder Deine (private) Spielwiese bzw. Testumgebung?

Weitere Fragen/Anmerkungen:
- Umgebung etwas ausführlicher beschreiben ...
- Wie wird das Storage angesprochen (NFS, iSCSI ...)?
- Welche Platte(n) sind im Storage verbaut (Hersteller, Modell, Schnittstelle)?
- Der Gen8 HP Server ist offiziell ja nicht mehr in der HCL für VMWare 7.x ...
- Werden für den P822 passende Treiber/Firmnwarekombinationen verwendet?

Grundsätzlich kann es sein, dass Du ATS komplett ausschalten musst, ein paar Links zur VMWare KB zum Thema:
-> https://kb.vmware.com/s/article/2113956?lang=de
-> https://kb.vmware.com/s/article/2146451
-> https://kb.vmware.com/s/article/83249
(hier bitte aber noch weiter recherchieren, Du hast die Kiste vor der Nase)
In jedem Fall auch mal ins vmkernel.log schauen, was da so an Fehlern aufläuft.

Gruß

cykes
Crusher79
Crusher79 09.05.2022 um 08:57:09 Uhr
Goto Top
Hallo,

naja die H/W wurde von Kollegen beschafft. Refurbished und soll produktiv eingesetzt werden. Zur Zeit laufen auf NFS Speicher Maschinen, die später auf dem Storage laufen sollen. Also nocht nicht hoch akut.

Eternus kam so wie es da steht mit SAS Schnittstellen. NFS etc. wäre uns lieber gewesen, aber die Preise für H/W Tausch sind nicht gerade gering. Bzw. gibt es für das Modell nur noch wenige Lieferanten, die "neu" dann projektbezogen ggf. was anzubieten hätten.

Also wurde für den Proliant eine Smart Array P822 besorgt. Neueste Firmware installiert und via CLI auf HBA Modus umgestellt. Kabel müsste ich mich kurz durchwühlen, was da bestellt worden ist. Projekt leider nicht aus einer/ meiner Hand.

Testweise wurde von meinen Kollegen ein RAID und Volume eingerichtet. Affinity aber vergessen, so dass zunächst nichts ging. Ggf. werde ich das einmal platt machen, da hier testweise einfach mal ein RAID, Volume und LUN eingerichtet wurde. Ich ging davon aus - da ich dass Device in ESXi sehe - das hier erstmal nichts zu tun ist.

Anbindung: SAS
CA Ports: CM#0 CA#0 Port#0 und CM#1 CA#0 Port#0
HP Smart Array P822 (HBA Mode) auf beide Enternus Controller:
Port 0 >>> CM#0 CA#0 Port#0 
Port 1 >>> CM#1 CA#0 Port#0 

Affinity: Schein i.O. da ich das Device auf dem ESXi sehe und auch Partitinotabelle bearbeiten kann.

Problem: Über GUI legt es die Partitiontabelle an, bricht dann aber mit ATS Fehler ab.
Kernellog hier zu ist dann:
2022-05-09T06:34:54.424Z cpu1:2098196)NMP: nmp_ThrottleLogForDevice:3861: Cmd 0x89 (0x45b916cab040, 2100797) to dev "naa.600000e00d2800000028318400000000" on path "vmhba1:C2:T0:L0" Failed:  
2022-05-09T06:34:54.424Z cpu1:2098196)NMP: nmp_ThrottleLogForDevice:3869: H:0x7 D:0x0 P:0x0 . Act:EVAL. cmdId.initiator=0x430604128980 CmdSN 0x1
2022-05-09T06:34:54.424Z cpu1:2098196)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.600000e00d2800000028318400000000" state in doubt; requested fast path state update...  
2022-05-09T06:34:54.424Z cpu1:2098196)ScsiDeviceIO: 4325: Cmd(0x45b916cab040) 0x89, CmdSN 0x1 from world 2100797 to dev "naa.600000e00d2800000028318400000000" failed H:0x7 D:0x0 P:0x0  

Ich habe dann das ganze einmal per esxicli gemacht. Also von Hand partitioniert. Das anlegen der Partition lief - im GUI auch- fehlerfrei durch. Im Anschluss wollte ich dann die Partition mit vmfs6 formatieren. Im Gegensatz zu GUI/ Kernel Log kam auf der Konsole "timed out" Meldung - siehe hier:
[root@esxi02:~] vmkfstools -C vmfs6 -S WD101 "/vmfs/devices/disks/naa.600000e00d2800000028318400000000"  
create fs deviceName:'/vmfs/devices/disks/naa.600000e00d2800000028318400000000', fsShortName:'vmfs6', fsName:'WD101'  
deviceFullPath:/dev/disks/naa.600000e00d2800000028318400000000 deviceFile:naa.600000e00d2800000028318400000000
Error executing ATS on /dev/disks/naa.600000e00d2800000028318400000000: Connection timed out
Failed to check device /dev/disks/naa.600000e00d2800000028318400000000 capable of ATS
Usage: vmkfstools -C [vmfs5|vmfs6|vfat] /vmfs/devices/disks/vml... or,
vmkfstools -C [vmfs5|vmfs6|vfat] /vmfs/devices/disks/naa... or,
vmkfstools -C [vmfs5|vmfs6|vfat] /vmfs/devices/disks/mpx.vmhbaA:T:L:P
Error: Connection timed out

Am Anfang - das war vlt. irritierend - kamen noch Claimrule Fehler. Statt auf Location Ebene mit z.B.
esxcli storage core claimrule add --type="location" --rule=210 --plugin="NMP" --adapter=vmhba1 --channel=2 --target=1 --lun=0  

habe ich es mit Vendor Eintrag aufgelöst.
esxcli storage core claimrule add -r 49 -t vendor -V FUJITSU -M ETERNUS_DXL -P NMP --force-reserved

Claimrule Fehler ohne diesen Eintrag wies VMKernelLog auf. Ich ging davon aus das es damit und den erneuten laden der Claimrules erledigt ist. Zumindest kommt der Fehler nicht mehr.

ALUA an/ aus, ATS aus (bei VMFS ??) etc. habe ich viele Artikel von ESXi5 - 7 gefunden. Nur die treffen natürlich auf den ESXi 7.0 U2 nicht zu.

Wegen timed out hab ich mir auch den VMFS Heartbeat vorgenommen und mit
esxcli system settings advanced set -i 0 -o /VMFS3/UseATSForHBOnVMFS5

deaktiviert. Laut Doku ist es immer unter VMFS3 und gilt für VMFS5 und VMFS6.

Ich kann auch gerne die komplette H/W Liste posten, nur das sprengt immer so unschön die Threads.

Allgemein liegt mein FJT PDF für Eternuns und ESXi vor. Laut dem ist aber bei den neueren ESXi Modellen wenig zu tun.

https://www.fujitsu.com/global/support/products/computing/storage/downlo ...

Da stolper ich auch drüber. Leider werde ich aus der Readme nicht schlau. finde die VIB nirgends. Dachte ggf. in FJT Custom VMware Image? Durch die Claimrule hab ich mir eingebildet Multipathing Problem gelöst zu haben.

Ich weiss es ist nicht gerade die ideale Umgebung. Nur wenn der Array Ctr schon zum HBA konfiguriert wurde, ich Device sehen und Partitionen anlegen kann, sollte es doch nicht mehr allzuvieles sein, was in Wege steht....

mfg Crusher
cykes
cykes 09.05.2022 um 09:41:34 Uhr
Goto Top
Moin,

nur kurz hierzu:

Allgemein liegt mein FJT PDF für Eternuns und ESXi vor. Laut dem ist aber bei den neueren ESXi Modellen wenig zu tun.
https://www.fujitsu.com/global/support/products/computing/storage/downlo ...
Da stolper ich auch drüber. Leider werde ich aus der Readme nicht schlau. finde die VIB nirgends. Dachte ggf. in FJT Custom VMware Image? Durch die Claimrule hab ich mir eingebildet Multipathing Problem gelöst zu haben.
Steht im Prinzip in der Readme drin:
How to download and install
1. For use of this software, please contact with FUJITSU sales representativ
Da Du keinen solchen hast, bliebe nur der Weg über die Suche im Fujitsu customized VMWare ESXi Image oder über ein Update Repository (aka vibsdepot), falls vorhanden. Für HPE wäre das bspw. http://vibsdepot.hpe.com/

Bin mir nicht sicher, ob es das von Fujitsu in der Form gibt.

Gruß

cykes
Crusher79
Crusher79 09.05.2022 um 10:40:14 Uhr
Goto Top
Danke. Also Timeout kann es auch nicht sein....

Also wenn ich es monitore - siehe Bild. - rührt es sich 1 Sekunde lang dann sofort 0.0 und weg. Kein Wunder das der Timeout also kommt.

LUN etc. ist nicht gelockt Ist eh nur ein Host dran. Unschön.
09-05-_2022_10-34-11
cykes
cykes 09.05.2022 um 11:03:24 Uhr
Goto Top
Ganz kurze Anmerkung: Ich würde im Screenshot noch die FQDN unkenntlich machen (Steht in der Kopfzeile vom PuTTY).
Crusher79
Lösung Crusher79 11.05.2022 um 20:44:58 Uhr
Goto Top
Hallo cykes,

da du der einzige bist face-big-smile

Es läuft! 0x7 ist ja schon ganz trivial Initiator Error. Nach 1 Sekunde sprang es raus. Der Name war übrigens "Fujitsu Serial Attached ....". Das interne HP Raid fing mit "Local" an.

Ich hab kurz gesagt Response Template auseinander genommen.

Test Unit Ready Command Settings
Reservation Conflict Response: GOOD
Reservation Conflict Response: RESERVATION CONFLICT

ALUA Settings
TPGS Mode: ENABLED
TPGS Mode: DISABLED

Habe versuche gestartet. Da es mit Reboot einhergehen muss war es nervig. An ALUA glaube ich nicht wirklich face-wink Muss ich noch mal testen. Zum Glück waren es nicht viele Settings und man konnte SCSI Type etc. schon fast ausschließen. Hoffe ich hab grad nicht zu einer dicke Lippe und es ist doch auch/oder nur TPGS.

Local FUJITSU Disk (naa.600000e00d2800000028318400010000)

Oder wie der Controller im HBA sagen würde:
Smart Array P822 in Slot 3
   HBA Drives

      physicaldrive 0:0 (box 0:bay 0, SAS HDD, 274 GB, OK)
      physicaldrive 0:0 (box 0:bay 0, SAS HDD, 274 GB, OK)

Es war ja auch alles da. Bei Netzwerken haben wir CSMA-CD und bei SCSI entsprechend ähnliches. LUN/ Controller mit esxtop zeigten es auch: 1 Sekunde Highlife dann Totentanz. Timeout war alles nur Folgefehler, da die Verbindung sofort stoppte.

Formatierung VMFS dann in 2 Sekunden erledigt und fertig.

Fujitsu hat zwar schöne Anleitungen, aber finde die unübersichtlich. Zu allen Überfluß hat VMware ja in den Punten ALUA und Device Claiming einiges geändert. Und Update 2 - kann man nachlesen - hat einige der Bugs.

Somit bleibt noch folgendes zu erwähnen:
esxcli storage core claimrule add -r 49 -t vendor -V FUJITSU -M ETERNUS_DXL -P NMP --force-reserved

Danke für deine Unterstützung.

mfg Crusher
cykes
cykes 12.05.2022 um 05:49:29 Uhr
Goto Top
Moin,

danke für die Rückmeldung, war leider etwas im Stress in den letzten Tagen, so dass ich wenig Zeit für weitere Tipps hatte.

Gruß

cykes