imkimkimk
Goto Top

Ausfallwahrscheinlichkeiten von Rechenzentrumshardware

Hallo zusammen,

ich suche halbwegs verlässliche Zahlen bzw. Wahrscheinlichkeiten für das Ausfallen diverser Hardwarekomponenten.

Warum suche ich das?
Immer wieder stößt man in Argumentationen mit GF, Lieferanten o.ä. auf das Thema "Hochverfügbarkeit" und Risikoabschätzung.
Kurzes Beispiel:

Admin: Chef wir sollten uns ein gespiegeltes Storage zulegen
Chef: Was kostet das?
Admin: so 50.000€ mehr als ein einfaches
Chef: Warum brauchen wir das?
Admin: Weil wir dann von einem Totalausfall des Storagesystems abgesichert sind.
Chef: Wie hoch ist denn das Risiko das ein Storagesystem ausfällt?
Admin.......guck mal da ein dreiköpfiger Affe...

Sprich was ich suche ist eine Statistik, die halbwegs seriös(nach Möglichkeit Herstellerübergreifend), die Wahrscheinlichkeit (am besten auch in Abstufung nach x Jahren Betrieb der HW) aufzeigt dass eine bestimmte "kritische" Komponente ausfällt.

Klar ist dabei auch: Der Ausfall einer HDD in einem Storage interessiert wohl kaum jemanden. Allerdings sind Komponenten wie Server-Mainboard, Storage(als Komplettsystem), Switche o.ä. schon interessanter. Ein Server kommt ja gern mit mehreren Netzanschlüssen, Festplatten und auch Netzteilen, allerdings ist ja das Mainboard meist nicht redundant ausgelegt.


Es wäre schön wenn mir da jemand einen Tipp geben könnte ob es so etwas bereits gibt.

Content-Key: 484549

Url: https://administrator.de/contentid/484549

Printed on: April 18, 2024 at 15:04 o'clock

Member: itisnapanto
itisnapanto Aug 13, 2019 at 14:34:08 (UTC)
Goto Top
Moin ,

im besten Fall fällt ja erstmal nichts aus.
Oft stehen die Geräte ja auch unter Wartung. Je nach Reaktionszeit 4-8-12-24 Stunden.

Nun dein Chef sollte am besten wissen , was ihn so ein Ausfall kosten würde . Je nach Betriebsgröße geht das schnell in die tausende.
Ob dein Chef dieses Risiko eingeht oder nicht, ist ja allein seine Entscheidung. Dafür ist er Chef .

Aber so eine Statistik wäre echt wohl mal interessant. Wir wechseln unsere Produktivserver in der Regel alle 5 Jahre.
Totalausfälle hatte ich in den letzten 10 Jahren gar keinen .
Mal ein Netzteil , öfter mal Platten, mal Batterien vom Raid Controller. Alles nix wildes und was bei uns zu einem Ausfall geführt hätte.

Gruss
Member: Lochkartenstanzer
Lochkartenstanzer Aug 13, 2019 at 14:59:41 (UTC)
Goto Top
Moin,


Mit den Werten von MTBF aus den Datenblättern und und den Werten für MTTR der Servcie-verträge kannst Du ausrechnen, wie hoch die Wahrscheinlihkeit ist, daß Komponenten ausfallen.

Ob diese es dann auch tatsächlich tun steht auf einem anderen Blatt, weil das nur statistische Werte sind.

Und auch eine geringe Ausfallwahrscheinlichkeit sagt nichts darüber aus, ob eien Kisten morgen schon aussteigen.

Viel wichtiger ist, zu schauen, daß man ordentliche Service-Verträge hat, die schnellstmöglichen Wiederbetrieb ermöglichen.

Und wegen der Kosten schaut man, welche Ausfallzeit welche Kosten verursacht und wägt das gegen die Kosten ab, die man investieren muß, um diese Ausfallzeit zu überbrücken. Damit ist hat man dann meistens ein besseres Maß als irgendwelche Statistiken.


lks
Member: UnbekannterNR1
UnbekannterNR1 Aug 13, 2019 at 15:06:49 (UTC)
Goto Top
Wird ja mit steigendem Alter immer Wahrscheinlicher.
Der Hinweis mit dem was einen Kostet ist schon am besten. Wenn z.B. eine Produktion mal einen Tag steht, kommen ganz schnell fragen warum das Passieren konnte, und Aussagen von dem Risiko wusste ich ja gar nichts etc.

Dazu kommt Redundanz ist ja auch für Updates mal ganz wichtig, je nach dem wie es mit Wartungszeiten aussieht.

Und zum Thema mir ist in den letzten Jahren nur eine Synology ausgefallen, war aber nicht so wichtig Backup für das Backup und die Konfig wahr auch nicht gerade klug. In einem Raid5 aus 12x WD RED zwei gleichzeitig ausgefallen damit das Raid defekt also nicht die schuld von Syno.
Member: falscher-sperrstatus
falscher-sperrstatus Aug 13, 2019 at 16:11:01 (UTC)
Goto Top
Hallo,

es gibt keine Verlässlichen Zahlen für eine Wahrscheinlichkeit, maximal Wahrscheinlichkeiten.

Im weiteren gibt es auch ein weites Feld von Rechenzentrumshardware.

Abgerundet wird dies, wie es um den Service und den Aufbau und die Planung aussieht

a) Wann kommt der Service - durch wen, und wie "gut", sprich, sind Ersatzteile vorhanden und gibt es SLA?
b) Ist die Wiederinbetriebnahme logisch und schnell durchführbar (Stichwort: Raidcontroller defekt, oder mehrere Platten eines RaIds: Backup)
c) Gibt a und b dem Rahmen

Das ist natürlich auch eine Betriebswirtschaftliche Betrachtung, was kosten höhere SLA, was kostet der kompetente Admin, was kostet zusätzliche HW (und Lizenzen!), auf der anderen Seite, was kostet die Möglichkeit eines Betriebsausfalls per Tag, wenn alle Maschinen im Mio Wert still stehen und die komplette Maschinenmannschaft Ihre Wettkämpfe im Daumendrehen ausführen.

Aber pauschale Verargementierung geht hier leider schlecht.

VG
Member: clSchak
clSchak Aug 13, 2019 at 18:15:05 (UTC)
Goto Top
Hi

und um die Wahrscheinlichkeit eines Ausfall mal pauschal zu setzen: 49% das es Ausfällt, jeden Tag die Chance das es passiert face-wink. Muss ja nicht einmal die Hardware sein, Blitzschlag, Wasser, Sabotage - die Hardware alleine zu betrachten bringt hier nichts.

Wenn Ihr keine 2 Brandabschnitte mit Serverräumen habt bringt ein redundantes Storages eher wenig, da kannst besser einen guten SLA mit 4h buchen, das wird dir da eher weiterhelfen.

Mir ist in den letzten 10 Jahren "nur" ein Serverraum abgebrannt - war die Klimanlage face-wink , ansonsten ist mir noch nichts um die Ohren geflogen, selbst die mittlerweile 9 Jahre alten Equallogics laufen ohne Probleme (haben aber auch kein Support mehr - für die Azubi-Projekte reichen die aber noch), ein paar DL360G5 verrichten auch noch ihr Werk.

Wenn Ihr gute Hardware einkauft, wird die im Regelfall durchlaufen, auch 5 Jahre, das ein nicht redundantes Teil ausfällt hatte ich bisher noch nicht, wir haben mittlerweile aber auch nahezu alles doppelt vorliegen und gespiegelt, selbst wenn uns 50% der Hardware ausfällt kann die Produktion und der Vertrieb weiter arbeiten, ggf. eingeschränkt - aber geht.

Aber solche Diskussionen hatte ich früher (TM) auch mit der GL - mittlerweile wird bei so etwas immer eine Risiko-Analyse durchgeführt und dann entschieden was / wie gekauft und umgesetzt wird, ist immer eine Wirtschaftlichkeitsfrage: was kostet mich ein Ausfall

Just my 2 Cent
@clSchak
Member: falscher-sperrstatus
falscher-sperrstatus Aug 13, 2019 at 18:30:31 (UTC)
Goto Top
Warum nur 49%? face-smile
Member: clSchak
clSchak Aug 13, 2019 at 18:32:58 (UTC)
Goto Top
51% würde jeden Morgen Herzklabster auslösen .. "Läuft es noch - oder steht schon alles" - Tendenziell läuft halt alles immer - aber es kann ja was passiert sein face-smile - eine geringe Wahrscheinlichkeit und Hoffnung muss man ja haben am Morgen face-smile
Member: Lochkartenstanzer
Lochkartenstanzer Aug 13, 2019 at 18:39:16 (UTC)
Goto Top
Zitat von @clSchak:

Hi

und um die Wahrscheinlichkeit eines Ausfall mal pauschal zu setzen: 49% das es Ausfällt, jeden Tag die Chance das es passiert face-wink.

Bei einer täglichen Ausfallwahrscheinlichkeit von 49% hast Du nach 14 tagen eine Ausfallwahrscheinlichkeit von 99,99%, d.h. Dein Equiment hält mit großer Wahrscheinlichkeit keine zwei Wochen durch. Es ist aber eher damit zurechnen, daß es selbst die erste Woche nicht Übersteht (Wahrscheinlichkeit 99,1%). face-smile

Eine Ausfallwahrscheinlicheit von 49% ist selbst bei Chinamüll doch deutlich überschätzt.

lks
Member: clSchak
clSchak Aug 13, 2019 at 18:46:17 (UTC)
Goto Top
von dem Standpunkt kann man es auch betrachten, aber das wiederlegt gerade meine These und das passt mir nicht .... :D
Member: Lochkartenstanzer
Lochkartenstanzer Aug 13, 2019 at 18:50:04 (UTC)
Goto Top
Nachtrag:

Bei einer jährlichen Ausfallwahrscheinlichkeit von 49% hast Du übrigens nach 10 Jahren eine Ausfallwahrscheinlichkeit von 99,9%, d.h innerhalb von 10 Jahren hättest fast immer einen Ausfall.

Aber bei dieser ganzen Rechnerei mußt Du berücksichtigen, daß die Ausfallwahrscheinlichkeit vom Alter der Systeme abhängig ist und i.d.R. einer Wannenfunktion folgt.
Member: clSchak
clSchak Aug 13, 2019 updated at 18:58:52 (UTC)
Goto Top
ja ich weis, aber wenn man sich lediglich die Hardware zur Brust nimmt gewinnt man durch ein HA System nicht knapp 100% Sicherheit. Die Hardware an sich ist ja "dumm", die bekommt ja nicht mit wenn z.B. bei einem SQL Server eine Datenbank nicht mehr geht oder beide Admins gerade auf Lehrgang sind - man muss immer den gesamten Prozess erfassen und dann alle Schwachstellen und Risiken abwägen und ggf. so gut wie möglich ausmerzen / reduzieren (Technisch-Organisatorische Maßnahmen).

100% gibt es eh nicht, aber man kann sich dem schon annähern und vor dem Faktor Mensch kann man sich (fast) nicht schützen.

Wir haben bei uns auch für unterschiedliche Dienste einzelne interne SLA die man mit Hardware alleine nicht erschlagen kann da man von anderen Kollegen und Abteilungen abhängig ist.
Member: UweGri
UweGri Aug 13, 2019 at 19:37:03 (UTC)
Goto Top
Statistik … wie groß ist die Wahrscheinlichkeit, Du gehst morgen 9 Uhr in einen Lottoladen, gibt 1x Euro Lotto ab und gewinnst die gut 60 Millionen, die derzeit drinnen sind? Nahe 0 …. Trotzdem ist so etwas schon passiert!

Es geht nicht um Statistik, bei Deiner Frage, es geht darum, wie groß ist der Schaden bei einem Totalausfall? Ich habe Fotos meiner Eltern, die völlig unersetzlich sind. Diese zu sichern, ist mir einiges Wert!
Member: Lochkartenstanzer
Lochkartenstanzer Aug 13, 2019 at 19:53:49 (UTC)
Goto Top
Zitat von @UweGri:

Es geht nicht um Statistik, bei Deiner Frage, es geht darum, wie groß ist der Schaden bei einem Totalausfall? Ich habe Fotos meiner Eltern, die völlig unersetzlich sind. Diese zu sichern, ist mir einiges Wert!

Aber sicher nicht "beliebig viel". İch hatte auch schon Kunden, die "unersetzliche Bilder" ihrer Kinder auf kaputten Festplatten hatten und ob man die wieder retten könnte. Aber schon die niedrigen dreistelligen Beträge für Kroll-Ontrack zeigten, daß die Bilder doch nicht "unersetzlich" waren.

Oder die Rückfragen, ob man nicht mit einer externen Platte statt mindestens zweien für die sicherung der privaten Daten auskommen könnte.

lks
Member: LordGurke
LordGurke Aug 13, 2019 at 22:52:36 (UTC)
Goto Top
Ein wichtiger Punkt ist ja auch:
Die Wahrscheinlichkeit, dass das Gerät mit Hardware-Totalschaden liegen bleibt, ist ziemlich gering.
Viel höher ist die Wahrscheinlichkeit, dass irgendeine Kleinigkeit nicht funktioniert (Lüfter...), für die das System dennoch offline gehen muss, um es zu reparieren. Oder natürlich nicht zuletzt auch, weil Software-Updates gemacht werden müssen.
Das sind zwar planbare, aber halt auch unvermeidliche Downtimes.
Wenn du da ein HA-System hast, kannst du die Wartungen auch mitten am Tag vollkommen tiefenentspannt durchführen und nicht nur früh morgens/spät abends/Wochenende.
Ich weiß nicht, was man dir so zahlt, wenn du außerhalb der üblichen Arbeitszeiten da mehrere Stunden was machen musst...

Wir betreiben ein Ceph-Storage, welches einfach inhärent Redundanz bietet. So mache ich ohne schlechtes Gewissen mitten am Tag Software-Updates oder spiele eine neue Firmware in den SAS-Controller eines Ceph-Systems ein.
Weil auch das Netzwerk voll redundant ist, habe ich bereits mitten im laufenden Betrieb Switches auf neue Firmware-Versionen gezogen oder zuletzt sogar von Kupfer auf 10G-Glasfaser umgebaut. Im laufenden Betrieb. Mitten am Tag face-wink

Natürlich dürfte das die krasse Ausnahme sein, aber alleine die Möglichkeit, geplante Downtimes wie auch teure Wochenend-Einsätze wegen Wartungen zu vermeiden, ist ja auch schonmal eine schöne Aussicht face-wink
Member: Sheogorath
Sheogorath Aug 13, 2019 at 23:16:30 (UTC)
Goto Top
Moin,

wie ja bereits im Thread erwähnt, ist die Frage nach der Wahrscheinlichkeit eher uninteressant. "Auf lange Sicht geht es Richtung 100%" ist da quasi die universell richtige Antwort.

Die Frage die einen in der Regel nicht interessiert ist: "Wann findet der Ausfall statt?" sondern: "Wie lange dauert er, wenn er da ist?" Und aus letzterem sollte sich die Antwort auf die Frage "Ist es das Wert?" ergeben.

Natürlich musst du davon ausgehen, dass zumindest in gewissem Maße Murphys Gesetz zum Tragen kommt. Wenn dein Storage failed, dann richtig und immer dann, wenn du, oder viel mehr dein Chef, gerade was super wichtiges vor hast.

Und ja, wenn du den gespiegelt hast, stirbt in der Regel aus irgendeinem dir nicht erklärlichen Grund auch der Spiegel mit. Vielleicht nicht physicalisch, aber der Fail-over geht in jedem Fall schief. Jetzt ist guter Rat teuer, der Admin ist im Urlaub und der Storage support ist auch nur semi-hilfreich, du musst dich also selbst durch die Dokumentation wühlen und den manuellen fail-over machen. Oh super… Der Server auf dem die Dokumentation lag, ist virtuell und lag mit auf dem Storage (classic…), also musst du die allgemein Dokumente von der Support Webseite runterladen und durchforsten. Das alles kostet dich natürlich einige Kostbare Stunden und trotz Bemühungen steht die Produktion natürlich. Aber nach knappen 6 Stunden hast du es endlich geschafft alles wieder zum Leben zu erwecken. Storage I ist zwar noch tot, aber Storage II hat nun endlich die Master rolle übernommen und kann jetzt problemlos weitermachen. Die VMs sind wieder da und auch die Produktion läuft langsam wieder an.


Das andere Szenario ist: Oh das RAID ist gestorben. Aber kein Problem, du bist ja Profi und hast einen Support vertrag der dir Garantiert innerhalb von 4 Stunden neue Platten liefert. Nun ja, die Platten sind da und passen auch, leider war dein RAID ein RAID5 und somit mit 2 Platten tot. Die VM laufen auch schon seit 4 Stunden nicht mehr, was natürlich auch die Produktion zum Stillstand gebracht hat. Aber nicht verzagen, Admin fragen! Denn:

Ist dein RAID nicht mehr zu retten,
sollst du es zuerst resetten,
und mit dem neuen Filesystem,
dann der Restore schon losgehen…

Also Backup zurückspielen. Da natürlich jeder nur "die wichtigsten Dokumente" auf dem Zentralen Storage speichert, dauert der Restore vom Band nur knappe 6-12 weitere Stunden bis die wichtigsten System wieder laufen, der Rest folgt im verlauf der Woche. Alles in allem also knappe 10-16 Stunden Ausfallzeit. (Wer einen besonderen Spaß möchte, kann hier auch ein sterben von anderen Platten während des Zurücksicherns einfügen)


Jetzt kann du deinen Chef ja fragen, was er als sinnvoller ansieht. Wenn es kein Problem ist, wenn mal ein Tag der Laden dicht ist, dann kann man natürlich den Spiegel einsparen. Sollte dann natürlich dir und/oder deinen Kollegen genug bezahlen, dass ihr im Worst case auf im Urlaub mal auf der Matte steht.

Es ist natürlich ein bisschen humoristisch untermalt, aber ich hoffe die Botschaft kommt rüber: Nicht fragen ob passiert es, sondern wie lange.

In diesem Sinne,
Gruß
Chris
Member: lcer00
lcer00 Aug 14, 2019 at 05:29:44 (UTC)
Goto Top
Hallo

noch ein Kommentar zur Statistik:

Die Frage „wie hoch ist die Ausfallwahrscheinlichkeit?“ kann man sehr gut mit folgender Frage kontern: „Welche Ausfallwahrscheinlichkeit würden Sie denn tolerieren?“ Da kommt dann meist auch keine vernünftige Antwort.

Man kann da auch sehr schön die Geschäftsführung ausrechnen lassen, was 24h Ausfall kosten und das den Mehrkosten für ausfallsichere Systeme gegenüberstellen.

Im übrigen stellt auch niemand beim Abschluss einer Risikoversicherung die Frage nach der Eintrittswahrscheinlichkeit.

Grüße

lcer
Member: Lochkartenstanzer
Lochkartenstanzer Aug 14, 2019 at 05:30:31 (UTC)
Goto Top
Zitat von @lcer00:

Im übrigen stellt auch niemand beim Abschluss einer Risikoversicherung die Frage nach der Eintrittswahrscheinlichkeit.

Ich schon.

lks
Member: imkimkimk
imkimkimk Aug 14, 2019 at 06:06:39 (UTC)
Goto Top
Danke erstmal für die vielen Antworten face-smile

Natürlich sind Serviceverträge mit entsprechenden SLAs wichtiger, auch muss die Schadeshöhe bei einer Downtime einberechnet werden.
Es ging mir auch nicht um ein ultimatives Argument oder darum wie man sein Rechenzentrum (ggf. mit kleinem Budget) absichert. Mir ging es hier wirklich rein um die Statistik.

Die großen Cloud Anbieter versichern ja auch eine Verfügbarkeit von 99,99x% ich vermute das z.b. bei Storagesystemen die Verfügbarkeit bzw. Wahrscheinlichkeit das es heute nicht ausfällt viel höher ist. Natürlich kann es auch bei einem Statistischen Wert von 99,9999999% heute kaputt gehen. Das sind alles richtige und sehr gute Argumente. Danke! Mir ging aber wirklich nur um die Statistiken zur Hardware, ob jemanden da was bekannt ist face-smile
Member: falscher-sperrstatus
falscher-sperrstatus Aug 14, 2019 at 06:50:23 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:

Zitat von @lcer00:

Im übrigen stellt auch niemand beim Abschluss einer Risikoversicherung die Frage nach der Eintrittswahrscheinlichkeit.

Ich schon.

lks

Ich dachte es mir eben auch.

Grüße
Member: falscher-sperrstatus
falscher-sperrstatus Aug 14, 2019 at 06:51:56 (UTC)
Goto Top
Du weisst aber, dass Amazon so ziemlich jeden Cent Gewinn in die Fortentwicklung der AWS gesteckt hat? face-wink vermutlich wird bei denen jeden Tag HW im mehrfachen Wert deiner 50k ausgesondert.
Member: imkimkimk
imkimkimk Aug 14, 2019 at 07:05:18 (UTC)
Goto Top
nur arbeite ich leider nicht für Amazon oder einen anderen Konzern sondern für ein KMU und hier sind 50.000€ schon bisschen Geld. Aber wie gesagt. Darum geht's nicht. Es geht eigentlich nur um Statistiken face-smile
Member: Lochkartenstanzer
Solution Lochkartenstanzer Aug 14, 2019 updated at 07:10:48 (UTC)
Goto Top