drretro
Goto Top

IBM Ultrium HH4 Laufwerk Schreibprobleme.

Hallo Werte Kollegen!

Seit einigen Tagen schlage ich mich hier mit einem (wahrscheinlich) defekten IBM Ultrium HH4 Laufwerk herum. Die nächtlichen Backups schlagen allesamt fehl (ntbackup mit Fehlercodes 8001, 8019).
Zum Aufbau des ganzen: Das Laufwerk ist in einem HP Proliant 150ML G6 Server verbaut und hängt (alleine) an einem Smart Array P212 SAS Controller.
Nun habe ich versucht mit einem full write test mit dem IBM Tape Diagnostic Tool (Graphical Edition) den Fehler zu rekonstruieren und auch hier trat ein "write failure" auf.
Hier der Auszug aus der log-Datei:

                                                                              
                                                                               
     IBM Tape Diagnostic Tool Standard Edition  - Full Write Result            
                                                                               
       Host Bus  ID   LUN  Model          Serial       Ucode  Changer          
      +----+----+----+----+--------------+------------+------+------------+    
      | 3  | 7  | 0  | 0  | ULTRIUM-HH4  | 1K10048130 | 97F1 |            |    
      +----+----+----+----+--------------+------------+------+------------+    
                                                                               
   Compres- Transfer  Data Size Elapsed  Data Rate    Comp.                    
    sible   Size (KB)   (MB)    Time (s)   (MB/s)     Ratio                    
   +-------+--------+---------+---------+---------+   +-----+                  
   | No    |64      | 277672  | 5662.46 |49.0374  |   | 0.99|                  
   +-------+--------+---------+---------+---------+   +-----+                  
   Result:                                                                     
   +----------------------+                   +---------------------------+    
   | ABORTED              |         Bin Log:  | 1K10048130.002.blz        |    
   +----------------------+                   +---------------------------+    
   Code:                            Dumps:    | 1K10048130.002.a          |    
   +----------------------+                   | 1K10048130.002.b          |    
   | WRITE FAILURE        |                   +---------------------------+    
   +----------------------+                                                    
                                                                               
                                                                               



Alle anderen Tests liefen ohne Probleme durch. Weder beim "ITDT Standard Test" noch beim "System Test" kam etwas zum Vorschein.

ITDT Standard-Test:
                                                                              
                                                                               
     IBM Tape Diagnostic Tool Standard Edition  - Text Report                  
                                                                               
               +--------------------+                  +--------------------+  
     Model:    | ULTRIUM-HH4        |       Serial No: | 1K10048130         |  
               +--------------------+                  +--------------------+  
                                                                               
               +-----+        +-----+                  +---------------+       
         Host: | 3   |   ID:  | 0   |       Microcode: | 97F1          |       
               +-----+        +-----+                  +---------------+       
         Bus:  | 7   |   LUN: | 0   |       Changer:   |               |       
               +-----+        +-----+                  +---------------+       
                                                                               
               +------------------------------+                                
     Result:   | PASSED                       |                                
               +------------------------------+                                
     Code:     | OK                           |                                
               +------------------------------+                                
               +------------------------------+                                
     Bin Log:  | 1K10048130.001.blz           |                                
               +------------------------------+                                
     Dumps:    |                              |                                
               |                              |                                
               |                              |                                
               |                              |                                
               +------------------------------+                                
               +-----+                  +-----+                                
     1st FSC:  | 0000|        2nd FSC:  | 0000|                                
               | 2E06|                  | 0000|                                
               | 2E06|                  | 0000|                                
               | 5233|                  | 0000|                                
               | 2C60|                  | 0000|                                
               | 2E01|                  | 0000|                                
               | 2C0B|                  | 0000|                                
               | 2C0B|                  | 0000|                                
               | 2C0B|                  | 0000|                                
               | 2E01|                  | 0000|                                
               +-----+                  +-----+                                
                                                                               

Und der System-Test:
                                                                              
                                                                               
     IBM Tape Diagnostic Tool Standard Edition  - System Test                  
                                                                               
   Model           Serial       Ucode                 Result:                  
   +--------------+------------+------+               +----------------------+ 
   | ULTRIUM-HH4  | 1K10048130 | 97F1 |               | PASSED               | 
   +--------------+------------+------+               +----------------------+ 
                                                      Code:                    
   Compres- Transfer  Data Size Elapsed  Data Rate    +----------------------+ 
    sible   Size (KB)   (MB)    Time (s)   (MB/s)     | OK                   | 
   +-------+--------+---------+---------+---------+   +----------------------+ 
   | No    |64      | 2000    | 40.969  |48.8174  |                            
   | No    |32      | 2000    | 46.594  |42.924   |                            
   | No    |16      | 2000    | 62.297  |32.1043  |                            
   | Yes   |64      | 2000    | 41.531  |48.1568  |                            
   | Yes   |32      | 2000    | 46.673  |42.8513  |                            
   | Yes   |16      | 2000    | 61.375  |32.5866  |                            
   |       |        |         |         |         |                            
   |       |        |         |         |         |   Bin Log:                 
   |       |        |         |         |         |   +----------------------+ 
   |       |        |         |         |         |   | 1K10048130.003.blz   | 
   |       |        |         |         |         |   +----------------------+ 
   |       |        |         |         |         |                            
   +-------+--------+---------+---------+---------+                            
                                                                               



Wie kann ich nun den Fehler weiter eingrenzen?

Sprich:
Ist das Laufwerk defekt oder kann es auch am SAS-Controller liegen?
Ist es evtl. ein defektes/schlechtes Kabel?

Content-ID: 187413

Url: https://administrator.de/contentid/187413

Ausgedruckt am: 22.11.2024 um 08:11 Uhr

Penny.Cilin
Penny.Cilin 03.07.2012 um 14:08:50 Uhr
Goto Top
Warum rufst Du keinen Techniker an?

Werden der Server und das Laufwerk privat genutzt?

Gruss Penny
DrRetro
DrRetro 03.07.2012 um 14:16:14 Uhr
Goto Top
Nein - Server und Laufwerk werden kommerziell genutzt. Allerdings ohne Supportvertrag etc. wird es ein wenig haarig von den Kosten her.
Penny.Cilin
Penny.Cilin 03.07.2012 um 14:17:51 Uhr
Goto Top
Das ist natürlich dumm, kommerzielle Nutzung und dann keinen Supportvertrag.
meurs77
meurs77 03.07.2012 um 14:36:33 Uhr
Goto Top
Also beim P212 ist das so eine Sache. Die hab ich schon einige Male ersetzt. Da müsste aber im ACU ein Controller-Failure ersichtlich sein. Evtl ist auch die Block-Size schuld. Ab 64k-Blöcke müsste eigentlich ein Cache-Modul auf dem Controller eingesetzt werden, sonst gibt es sporadische Fehler.

Gruss
DrRetro
DrRetro 03.07.2012 um 15:03:48 Uhr
Goto Top
Hallo meurs77!

Ja, die ACU meldet eine Warnung:
267: An den aktuellen Array-Controller sind keine konfigurierbaren physischen Laufwerke angeschlossen. Wenn dieser Controller lediglich als Host-Controller für Bandgeräte verwendet wird, können Sie diese Warnung ignorieren.

Scheint mir also alles in Ordnung zu sein. Sonst gibt es keine Fehlermeldungen/Warnungen vom P212
Ickmus
Ickmus 14.07.2012 aktualisiert um 21:01:06 Uhr
Goto Top
Hallo,

die Geschwindigkeiten bei den Tests sind irgendwie viel zu langsam.
Bei einer Blockgröße von 64Kb und nicht kompremierbaren Daten sollte die Geschwindigkeit bei über 100mb/s liegen, naher der maximalen nativen Geschwindigkeit von 120mb/s.

Wenn die Backups langsamer laufen als 30mb/s, also 1800mb/min, dann geht das Laufwerk in den Start-Stop-Betrieb, und dann verschleißen die Medien sehr schnell, und der Schreib-/Lesekopf des Laufwerkes wird auch schneller abgenutzt.

Wenn das ein Orginal-IBM-Laufwerk ist, dann solltest du mal die Logs und einen Dump an IBM schicken, zur Analyse. Die sollten auch sehen können was die FSCs (Fault Symptom Codes) bedeuten.

K.