IBM Ultrium HH4 Laufwerk Schreibprobleme.
Hallo Werte Kollegen!
Seit einigen Tagen schlage ich mich hier mit einem (wahrscheinlich) defekten IBM Ultrium HH4 Laufwerk herum. Die nächtlichen Backups schlagen allesamt fehl (ntbackup mit Fehlercodes 8001, 8019).
Zum Aufbau des ganzen: Das Laufwerk ist in einem HP Proliant 150ML G6 Server verbaut und hängt (alleine) an einem Smart Array P212 SAS Controller.
Nun habe ich versucht mit einem full write test mit dem IBM Tape Diagnostic Tool (Graphical Edition) den Fehler zu rekonstruieren und auch hier trat ein "write failure" auf.
Hier der Auszug aus der log-Datei:
Alle anderen Tests liefen ohne Probleme durch. Weder beim "ITDT Standard Test" noch beim "System Test" kam etwas zum Vorschein.
ITDT Standard-Test:
Und der System-Test:
Wie kann ich nun den Fehler weiter eingrenzen?
Sprich:
Ist das Laufwerk defekt oder kann es auch am SAS-Controller liegen?
Ist es evtl. ein defektes/schlechtes Kabel?
Seit einigen Tagen schlage ich mich hier mit einem (wahrscheinlich) defekten IBM Ultrium HH4 Laufwerk herum. Die nächtlichen Backups schlagen allesamt fehl (ntbackup mit Fehlercodes 8001, 8019).
Zum Aufbau des ganzen: Das Laufwerk ist in einem HP Proliant 150ML G6 Server verbaut und hängt (alleine) an einem Smart Array P212 SAS Controller.
Nun habe ich versucht mit einem full write test mit dem IBM Tape Diagnostic Tool (Graphical Edition) den Fehler zu rekonstruieren und auch hier trat ein "write failure" auf.
Hier der Auszug aus der log-Datei:
IBM Tape Diagnostic Tool Standard Edition - Full Write Result
Host Bus ID LUN Model Serial Ucode Changer
+----+----+----+----+--------------+------------+------+------------+
| 3 | 7 | 0 | 0 | ULTRIUM-HH4 | 1K10048130 | 97F1 | |
+----+----+----+----+--------------+------------+------+------------+
Compres- Transfer Data Size Elapsed Data Rate Comp.
sible Size (KB) (MB) Time (s) (MB/s) Ratio
+-------+--------+---------+---------+---------+ +-----+
| No |64 | 277672 | 5662.46 |49.0374 | | 0.99|
+-------+--------+---------+---------+---------+ +-----+
Result:
+----------------------+ +---------------------------+
| ABORTED | Bin Log: | 1K10048130.002.blz |
+----------------------+ +---------------------------+
Code: Dumps: | 1K10048130.002.a |
+----------------------+ | 1K10048130.002.b |
| WRITE FAILURE | +---------------------------+
+----------------------+
Alle anderen Tests liefen ohne Probleme durch. Weder beim "ITDT Standard Test" noch beim "System Test" kam etwas zum Vorschein.
ITDT Standard-Test:
IBM Tape Diagnostic Tool Standard Edition - Text Report
+--------------------+ +--------------------+
Model: | ULTRIUM-HH4 | Serial No: | 1K10048130 |
+--------------------+ +--------------------+
+-----+ +-----+ +---------------+
Host: | 3 | ID: | 0 | Microcode: | 97F1 |
+-----+ +-----+ +---------------+
Bus: | 7 | LUN: | 0 | Changer: | |
+-----+ +-----+ +---------------+
+------------------------------+
Result: | PASSED |
+------------------------------+
Code: | OK |
+------------------------------+
+------------------------------+
Bin Log: | 1K10048130.001.blz |
+------------------------------+
Dumps: | |
| |
| |
| |
+------------------------------+
+-----+ +-----+
1st FSC: | 0000| 2nd FSC: | 0000|
| 2E06| | 0000|
| 2E06| | 0000|
| 5233| | 0000|
| 2C60| | 0000|
| 2E01| | 0000|
| 2C0B| | 0000|
| 2C0B| | 0000|
| 2C0B| | 0000|
| 2E01| | 0000|
+-----+ +-----+
Und der System-Test:
IBM Tape Diagnostic Tool Standard Edition - System Test
Model Serial Ucode Result:
+--------------+------------+------+ +----------------------+
| ULTRIUM-HH4 | 1K10048130 | 97F1 | | PASSED |
+--------------+------------+------+ +----------------------+
Code:
Compres- Transfer Data Size Elapsed Data Rate +----------------------+
sible Size (KB) (MB) Time (s) (MB/s) | OK |
+-------+--------+---------+---------+---------+ +----------------------+
| No |64 | 2000 | 40.969 |48.8174 |
| No |32 | 2000 | 46.594 |42.924 |
| No |16 | 2000 | 62.297 |32.1043 |
| Yes |64 | 2000 | 41.531 |48.1568 |
| Yes |32 | 2000 | 46.673 |42.8513 |
| Yes |16 | 2000 | 61.375 |32.5866 |
| | | | | |
| | | | | | Bin Log:
| | | | | | +----------------------+
| | | | | | | 1K10048130.003.blz |
| | | | | | +----------------------+
| | | | | |
+-------+--------+---------+---------+---------+
Wie kann ich nun den Fehler weiter eingrenzen?
Sprich:
Ist das Laufwerk defekt oder kann es auch am SAS-Controller liegen?
Ist es evtl. ein defektes/schlechtes Kabel?
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 187413
Url: https://administrator.de/contentid/187413
Ausgedruckt am: 22.11.2024 um 08:11 Uhr
6 Kommentare
Neuester Kommentar
Also beim P212 ist das so eine Sache. Die hab ich schon einige Male ersetzt. Da müsste aber im ACU ein Controller-Failure ersichtlich sein. Evtl ist auch die Block-Size schuld. Ab 64k-Blöcke müsste eigentlich ein Cache-Modul auf dem Controller eingesetzt werden, sonst gibt es sporadische Fehler.
Gruss
Gruss
Hallo,
die Geschwindigkeiten bei den Tests sind irgendwie viel zu langsam.
Bei einer Blockgröße von 64Kb und nicht kompremierbaren Daten sollte die Geschwindigkeit bei über 100mb/s liegen, naher der maximalen nativen Geschwindigkeit von 120mb/s.
Wenn die Backups langsamer laufen als 30mb/s, also 1800mb/min, dann geht das Laufwerk in den Start-Stop-Betrieb, und dann verschleißen die Medien sehr schnell, und der Schreib-/Lesekopf des Laufwerkes wird auch schneller abgenutzt.
Wenn das ein Orginal-IBM-Laufwerk ist, dann solltest du mal die Logs und einen Dump an IBM schicken, zur Analyse. Die sollten auch sehen können was die FSCs (Fault Symptom Codes) bedeuten.
K.
die Geschwindigkeiten bei den Tests sind irgendwie viel zu langsam.
Bei einer Blockgröße von 64Kb und nicht kompremierbaren Daten sollte die Geschwindigkeit bei über 100mb/s liegen, naher der maximalen nativen Geschwindigkeit von 120mb/s.
Wenn die Backups langsamer laufen als 30mb/s, also 1800mb/min, dann geht das Laufwerk in den Start-Stop-Betrieb, und dann verschleißen die Medien sehr schnell, und der Schreib-/Lesekopf des Laufwerkes wird auch schneller abgenutzt.
Wenn das ein Orginal-IBM-Laufwerk ist, dann solltest du mal die Logs und einen Dump an IBM schicken, zur Analyse. Die sollten auch sehen können was die FSCs (Fault Symptom Codes) bedeuten.
K.