visucius
Goto Top

Hetzner - 1500 Snapshots verloren

Demnach "kam es zu dem äußerst seltenen Fall, dass nach dem nahezu gleichzeitigen Defekt zweier HDDs während des Rebuilds eine dritte Festplatte ausgefallen ist". Diese Verkettung habe zu einem "partiellen Datenverlust" geführt. Der Vorfall ereignete sich in einem Cluster des Cloud-Angebots im Datacenter in Nürnberg und betraf nach Unternehmensangaben 1.500 Snapshots.

https://www.golem.de/news/trotz-redundanz-datenverlust-bei-1-500-snapsho ...

Nicht auzudenken, welch ein Gehacke, wenn da STRATO stehen würde 😉

Content-ID: 2498739155

Url: https://administrator.de/contentid/2498739155

Ausgedruckt am: 25.11.2024 um 06:11 Uhr

Lochkartenstanzer
Lochkartenstanzer 14.04.2022 um 09:58:35 Uhr
Goto Top
Zitat von @Visucius:

Demnach "kam es zu dem äußerst seltenen Fall, dass nach dem nahezu gleichzeitigen Defekt zweier HDDs während des Rebuilds eine dritte Festplatte ausgefallen ist".

Ich kann aus Erfahrung berichten, daß so etwas gar nicht mal so selten vorkommt. Wenn in einem RAID mal eine oder zwei Festplatten/SSDs kaputt sind und man daher einen Rebuild macht entscheidet sich schon des öfteren die eine oder andere Platte oder SSD, daß sie den Stress vom Rebuild nicht mag und macht die Grätsche.

lks

PS. Kein Backup, kein Mitleid.
Mystery-at-min
Mystery-at-min 14.04.2022 um 10:05:35 Uhr
Goto Top
das war wohl das Backup. Fremdvergebene Cloud? - Kein Mitleid.
Th0mKa
Th0mKa 14.04.2022 um 10:29:47 Uhr
Goto Top
Zitat von @Mystery-at-min:
Fremdvergebene Cloud? - Kein Mitleid.

Reine Polemik, das Problem existiert lokal ja auch.

/Thomas
Mystery-at-min
Mystery-at-min 14.04.2022 um 10:37:50 Uhr
Goto Top
Ich denke nicht, dass dir lokal 2+1 HDD in dem Setup alles zerstört.
chgorges
chgorges 14.04.2022 um 10:40:21 Uhr
Goto Top
Naja, Hetzner ist der Abschaum, nicht Strato.

Seit Jahren anhaltende Peeringprobleme und -streitigkeiten mit der Telekom und mit dem Satz "Snapshots dienen i.d.R. als Datensicherung" haben sie sich hart disqualifiziert, bzw. entlarvt auch deren Unprofessionalität, wenn die das so an Hinz & Kunz verkaufen.
SlainteMhath
SlainteMhath 14.04.2022 um 10:44:01 Uhr
Goto Top
Moin,

Ich denke nicht, dass dir lokal 2+1 HDD in dem Setup alles zerstört.
Hm, 2+1 ... das killt selbst RAID6 face-smile Ich denke also schon das so eine Konstellation Lokal auswirkungen hätte.

Aber HEY! 20 Euro Cloudguthaben gibts :P

lg,
Slainte
LordGurke
LordGurke 14.04.2022 um 10:45:28 Uhr
Goto Top
Also erstens hat Hetzner nicht behauptet, dass sie Snapshots als Datensicherung sehen. Für mich klingt die Aussage eher nach der nüchternen Feststellung, dass ihre Kunden das so machen, aber nicht, dass Hetzner das so handhabt.
Und das Peering-Problem mit der DTAG haben sie mittlerweile wohl im Griff. Durch Peering mit der DTAG. Wie gut oder schlecht das ist, kann ich nicht sagen...
heilgecht
heilgecht 14.04.2022 um 10:58:46 Uhr
Goto Top
Zitat von @Lochkartenstanzer:

Zitat von @Visucius:

Demnach "kam es zu dem äußerst seltenen Fall, dass nach dem nahezu gleichzeitigen Defekt zweier HDDs während des Rebuilds eine dritte Festplatte ausgefallen ist".

Ich kann aus Erfahrung berichten, daß so etwas gar nicht mal so selten vorkommt. Wenn in einem RAID mal eine oder zwei Festplatten/SSDs kaputt sind und man daher einen Rebuild macht entscheidet sich schon des öfteren die eine oder andere Platte oder SSD, daß sie den Stress vom Rebuild nicht mag und macht die Grätsche.

lks

PS. Kein Backup, kein Mitleid.

Passierte mir auch schon mehrfach. Deswegen mache ich immer Raid6. Auf Raid5 ist kein Verlass.
Lochkartenstanzer
Lochkartenstanzer 14.04.2022 um 11:00:37 Uhr
Goto Top
Zitat von @heilgecht:


Passierte mir auch schon mehrfach. Deswegen mache ich immer Raid6. Auf Raid5 ist kein Verlass.

Das passiert Dir übrigens auch bei RAID6, wenn auch nicht so häufig wie bei RAID5. face-smile

lks
LordGurke
LordGurke 14.04.2022 um 11:01:58 Uhr
Goto Top
Zitat von @SlainteMhath:

Moin,

Ich denke nicht, dass dir lokal 2+1 HDD in dem Setup alles zerstört.
Hm, 2+1 ... das killt selbst RAID6 face-smile Ich denke also schon das so eine Konstellation Lokal auswirkungen hätte.

Ihr rechnet hier alle in RAID-Leveln — Hetzner schreibt, dass sie Ceph einsetzen.
Ceph kannst du mit RAID aber nicht vergleichen: Bei Ceph werden die Daten mit eingestelltem Redundanzlevel (2x, 3x, 4x...) In Shards aufgesplittert und über Server und Festplatten verteilt.
Nicht unbedingt nach einem Muster oder festen Algorithmus, sondern vielmehr nach dem Konzept "Oh, wir haben lange nichts mehr auf diese HDD geschrieben..."
Dabei wird zwar die Redundanz durch Verteilung über verschiedene Server gewahrt, aber das Konzept ist halt doch völlig anders als bei RAID.
Bei 3x-Redundanz führt der Ausfall von drei oder mehr Festplatten, verteilt über mehr als drei Server, dann mit einer hohen Wahrscheinlichkeit zu Datenverlust.
Nicht alles, sondern nur Daten, die zumindest teilweise über die defekten HDDs zersplittert wurden und nicht bereits über die automatische Recovery umkopiert wurden.
Ich weiß nicht, wie hoch die Redundanzlevel für Snapshots bei Hetzner sind — aber vom Gefühl her würde ich auf 2x-Redundanz tippen. Das sind Kopieen von Daten...

Ich betreibe selber ein halbwegs großes Ceph-Cluster mit insgesamt über 800 HDDs. Das meiste wird 3x gesichert (auch wegen der Performance), aber letztlich gruselt es mich auch vor einem Ausfall dieser Art. Weil du dieses Problem eigentlich nur durch weitere Erhöhung des Redundanzlevels in den Griff bekommst, wodurch du aber natürlich wieder mehr HDDs brauchst, um die Netto-Speicherkapazität zu halten.
Für ein Ereignis, was extrem unwahrscheinlich ist.
Th0mKa
Th0mKa 14.04.2022 um 11:19:13 Uhr
Goto Top
Zitat von @LordGurke:
Ich weiß nicht, wie hoch die Redundanzlevel für Snapshots bei Hetzner sind — aber vom Gefühl her würde ich auf 2x-Redundanz tippen. Das sind Kopieen von Daten...

Das würde ja auch zum Fehlerbild von 2+1 ausgefallenen Festplatten passen, Hetzner behauptet ja auch nicht das "alles" weg ist sondern 1500 Snapshots. Es ist ja nichtmal bekannt wie viele Kunden betroffen sind, 1500 Snapshots ist ja jetzt auch nicht die Welt.

Zitat von @Mystery-at-min:
Ich denke nicht, dass dir lokal 2+1 HDD in dem Setup alles zerstört.
Wie gesagt, niemand behauptet das ALLES zerstört ist, ein Ausfall der hier geschilderten Art ist aber unabhängig von der Lokation möglich.
EliteHacker
EliteHacker 14.04.2022 aktualisiert um 15:04:54 Uhr
Goto Top
Ich wollte gerade ein Backup-Awareness-Post erstellen, weil ich kürzlich auch fast Daten verloren hätte.
In dem Fall hat es sich erledigt face-big-smile

Backups kann man nie genug haben!

Ist halt so eine Sache mit alle Eier in den gleichen Korb legen...
Da war doch mal was ähnliches als in Strassburg ein Datenzentrum abfackelte.

Wer sich auf die Cloud verlässt ist verlassen. Backups? Die macht man selber!
Wenn man kein Backup hat, können die Daten nicht so wichtig gewesen sein.
117471
117471 15.04.2022 um 11:53:13 Uhr
Goto Top
Hallo,

yo - habe ich auch schon beobachtet - gerade bei 15k-Platten.

Offenbar werden die Dinger beim Rebuild so heiß, dass das halbe RAID auf einmal stirbt. Aber eigentlich kein Problem: man muss ja nur die Platten tauschen und das Backup einspielen.

Gruß,
Jörg
Lochkartenstanzer
Lochkartenstanzer 15.04.2022 aktualisiert um 12:00:02 Uhr
Goto Top
Zitat von @117471:

Hallo,

yo - habe ich auch schon beobachtet - gerade bei 15k-Platten.

Offenbar werden die Dinger beim Rebuild so heiß, dass das halbe RAID auf einmal stirbt.

Dann ist aber an der Kühlung "gespart" worden, und zwar von demjenigen, der diese Dinge in den RAID-Käfig gesteckt hat. Man muß die Käfige normalerweise so auslegen, daß die Platten unter (fast) keinen Umständen zu heiß werden können. Und ein rebuild ist kein außergewöhnlicher Zustand in einem RAID.

Aber eigentlich kein Problem: man muss ja nur die Platten tauschen und das Backup einspielen.

Das ist der (fast) gleiche Streß wie beim Rebuild. Dann fliegen Dir die Platten halt nicht beim Rebuild sondern beim Restore um die Ohren. Ob das besser ist?

lks
117471
117471 15.04.2022 um 20:39:11 Uhr
Goto Top
Hallo,

Zitat von @Lochkartenstanzer:

Dann ist aber an der Kühlung "gespart" worden, und zwar von demjenigen, der diese Dinge in den RAID-Käfig gesteckt hat.

Wir reden von Servern, da ergeben sich die Kühlungsmöglichkeiten aus der Konstruktion. Mehr als alle Lüfterbauplätze mit Original-Herstellerteilen zu bestücken kann man da nicht...

Sicherlich gibt es noch ein paar Tricks (z.B. eine zusätzliche Backplane reinzuhauen und dann nur jeden 2. Slot zu bestücken), aber "üblich" ist das nicht.

Gruß,
Jörg
Lochkartenstanzer
Lochkartenstanzer 15.04.2022 aktualisiert um 20:54:03 Uhr
Goto Top
Zitat von @117471:

Hallo,

Zitat von @Lochkartenstanzer:

Dann ist aber an der Kühlung "gespart" worden, und zwar von demjenigen, der diese Dinge in den RAID-Käfig gesteckt hat.

Wir reden von Servern, da ergeben sich die Kühlungsmöglichkeiten aus der Konstruktion. Mehr als alle Lüfterbauplätze mit Original-Herstellerteilen zu bestücken kann man da nicht...

Dann hat der Hersteller der Server Murks gebaut oder derjenige, der das Ding mit 15k-Platten vollknallt hat die Spezifikation des Herstellers nicht gelesen. face-smile

Wie auch immer: i.d.R. sind die Server, sofern sie für 15k-HDDs spezifiziert sind, auch daraus ausgelegt daß diese (sehr) warm werden können. Aber nicht jedes Gerät, daß sich Server nennt, verträgt 15k-Platte im Dauerbetrieb.

lks
117471
117471 15.04.2022 aktualisiert um 21:02:00 Uhr
Goto Top
Hallo,

Zitat von @Lochkartenstanzer:

Dann hat der Hersteller der Server Murks gebaut

Mist - ich rufe gleich mal bei Lenovo, Fujitsu, HP und DELL an und sag' denen, dass sie das unbedingt ändern müssen.

Ist das O.K., wenn ich denen deine Telefonnummer gebe, falls sie irgendwelche Rückfragen haben? face-smile

Ernsthaft - im Hosting-Bereich, in denen jeder Zentimeter Bauhöhe ein paar Hunderter im Monat kostet, sieht das etwas anders aus als im "heimischen" Serverrack. Ich war mal bei einem von Europas größtem Cloud-Anbieter in einem RZ, das war schon beeindruckend...

Gruß,
Jörg
sarguid
sarguid 27.04.2022 um 12:58:00 Uhr
Goto Top
Leider ist die Überschrift falsch: Tatsächlich hat Hetzner nicht nur Snapshots verloren, sondern auch Kundendaten! Hier im Ort gibt es ein grösseres Zentrum für Kultur. Veranstaltungen, Schülerhilfe usw. wird darüber abgewickelt.

Alle Mails und alle Webseiten sind weg!

Angeblich hat Hetzner einen Datenrettungsservice beauftragt, der die Daten mühsam von den ausgefallenen Platten wiederherstellen soll (... Raw Read ist spannend ...)

Nach 14 Tagen ist noch kein einziger Service wiederhergestellt.

Hardware kann ausfallen - deshalb macht man Backup! Da hilft auch kein redundantes CEPH-Cluster (tatsächlich ist dieses mit viel Risiko behaftet, da im Recoverfall die I/O Raten exorbitant hoch werden, sodaß das Gesamtcluster massiv in Performancedegradation geht - das ist aber ein anderes Thema).

Ob Hetzner den Kunden Backup nicht angeboten hat, oder man Snapshots als Backup verkauft hat, weiss ich nicht. Tatsächlich ist noch ein Servicepartner dazwischen - dieser hat eigentlich die Aufgabe die Kunden auf das Risiko hinzuweisen, das ein Snapshot kein Backup ist.

Ich kann nur jedem raten das Datensicherungskonzept eines Hosters genau anzuschauen und sich notfalls professionelle Hilfe dabei zu holen.
117471
117471 27.04.2022 aktualisiert um 13:37:23 Uhr
Goto Top
Hallo,

Zitat von @sarguid:

Hardware kann ausfallen - deshalb macht man Backup!

Eben. Und ich frage mich, warum das Veranstaltungszentrum kein Backup hat.

Selbst meine private, nicht-geschäftsmäßige Homepage sichere ich einmal täglich auf meinem lokalen NAS. Für E-Mails nutze ich Mailstore (parallel zu den Kopien auf den ebenfalls täglich gesicherten Rechnern) usw. usf.

Aber vermutlich ist das wieder so 'ne Schnorrergeschichte, die ehrenamtlich alles für Lau will. Und vermutlich träumen die immer noch davon, dass Hetzner irgendeine Verantwortung trifft.

Gruß,
Jörg
sarguid
sarguid 27.04.2022 um 13:50:14 Uhr
Goto Top
Zitat von @117471:

Aber vermutlich ist das wieder so 'ne Schnorrergeschichte, die ehrenamtlich alles für Lau will. Und vermutlich träumen die immer noch davon, dass Hetzner irgendeine Verantwortung trifft.

Ehrenamtliche Tätigkeit für die Allgemeinheit sollte man nicht in den Dreck ziehen und als Schnorrertum abtun - das Gegenteil ist hier der Fall (mal abgesehen davon, das ein Kulturverein auch fest angestellte Mitarbeiter hat).

Das man dort das IT Wissen nicht hat und sich auf einen Servicedienstleister verlässt (der noch dazu auch ganz normal bezahlt wird!) kann man nicht einem Verein anlasten!

Der Fehler liegt hier entweder beim Dienstleister oder bei Hetzner, falls vertraglich eine Datensicherung vereinbart wurde.
Mystery-at-min
Mystery-at-min 27.04.2022 um 14:16:26 Uhr
Goto Top
Sollte man meinen. Aber es ist eben, wie es so oft ist. Ein Verein ist im Prinzip eine Geschäftliche Institution (Denn auch eine GbR ist nur ein Verein mit Gewinnabsicht - bissl Historischer Krimskrams) und dementsprechend haftet auch die Vereinsleitung für die Sicherung der Daten bzw die Überwachung der Dienstleister, soweit nicht explizit ausgesourced. Habt Ihr also kein Dienst, der explizit "Backup" heisst dürfte es schon schwer werden.

Ungut ist es alle mal, unbeachtet bleibt der Umstand, wie es sonstige Clouddienste damit halten oder ob es einfach nur (bisher) gut ging?
117471
117471 27.04.2022 aktualisiert um 15:25:41 Uhr
Goto Top
Hallo,

Zitat von @sarguid:

Ehrenamtliche Tätigkeit für die Allgemeinheit sollte man nicht in den Dreck ziehen

Das ist korrekt. Nur habe ich mich nicht auf die Tätigkeit "an sich" bezogen sondern auf denjenigen, der es einfordert und selbst wesentliche und infrastrukturelle Tätigkeiten erbettelt.

Ich habe so etwas schon oft genug beobachtet - gerade bei karitativen Vereinigungen, den Kirchen und da Insbesondere bei den Katholiken. Auf der einen Seite schaufeln die mit der Schneeschippe das Geld damit es nicht schimmelt und gut durchlüftet wird, auf der anderen Seite wird immer schön auf die Tränendrüse gedrückt und Druck ausgeübt. Es ist ja "Für die armen schwachen Kinder | Kranken | Alten | Kartoffelkäfer"...

Da darf nur derjenige Profit machen, der die Moral per se gepachtet hat!

Naja, und in derartigen Fällen erlaube ich mir gelegentlich auch mal 'ne gewisse Schadenfreude "um meiner Seelenheil wegen" face-smile

sich auf einen Servicedienstleister verlässt

Und der hat nie auf die Notwendigkeit einer Datensicherung hingewiesen? O.K. - in dem Fall würde ich das Problem dann tatsächlich nicht bei dem Verein sehen.

Gruß,
Jörg
sarguid
sarguid 27.04.2022 um 15:59:11 Uhr
Goto Top
Die Antwort auf Jörgs Frage würde mich dann auch interessieren:

Wie halten es eigentlich die Cloud-Dienstleister generell mit dem Thema Datensicherung?

Für Microsoft Azure mit denen ich häufiger zu tun habe, kann ich zumindest sagen, das dort Backupservices normal im Angebot sind - sowohl mit Backup in anderem Brandschutzabschnitt als auch in anderer Region. Gleiches gilt für die Open Telekom Cloud (OTC). Bei Strato bin ich mir nicht ganz sicher - dort ist Backup bei den V-Servern integriert - habe aber keine Ahnung wohin das Backup eigentlich gespeichert wird (im selben Brandschutzabschnitt wäre natürlich dämlich hoch zehn).

Schwieriger wird es bei der Form des Backups. So bieten eigentlich alle Anbieter die ich kenne (Azure, OTC, Strato) nur Image Restore an (Backup braucht eh kein Mensch - nur Restore ist wichtig face-smile). Aber Integration in den Server um z.B. konsistenten DB-Restore zu unterstützen (in der Steigerungsform aus einem Container heraus), habe ich bisher nur bei Microsoft (versteckt in den Tiefen der zusätzlichen Serviceanbieter wie Veritas NBU@Azure gefunden).

Was habt ihr für Erfahrungen was Restore bei den Cloud Providern anbelangt?
117471
117471 27.04.2022 um 17:57:40 Uhr
Goto Top
Hallo,

Zitat von @sarguid:

Was habt ihr für Erfahrungen was Restore bei den Cloud Providern anbelangt?

Eigentlich ist das eher eine philosophische Frage.

Letztendlich weißt Du nicht, was die Software auf den Cloud-Servern macht. Du kennst weder das Betriebssystem, noch die Programmierung der zugrundeliegenden Dienste. Es gibt keinerlei Transparenz.

Eine seriöse Betrachtung kann daher eigentlich nur darauf hinauslaufen, dass immer(!) der worst case vorherrscht. Es ist nicht einmal nachvollziehbar, ob die Versprechen aus den AGB (Datenschutz, Backup) erfüllt werden. Sprich: Alles, was in der Cloud landet:
  • wird nicht gesichert
  • hat den Status "weltweit uneingeschränkt veröffentlicht"

Das Ganze gilt natürlich auch für Betriebssysteme, die mit Cloud-Diensten verbunden sind. Laut BSI ist es z.B. unmöglich, ein Windows (10) komplett "zum Schweigen zu bringen". Man kann eine ganze Menge abschalten, aber es gibt immer eine gewisse Menge an Daten, von denen niemand weiß, was sie beinhalten und warum sie übertragen werden. Das BSI hat sich mal damit beschäftigt und im Anschluss auch den Anspruch heruntergeredet:

Nicht betrachtet wurde die Erhebung von Protokollierungsdaten zur Überwachung und Sicherstellung der operationellen Zuverlässigkeit eines Systems. Ebenso nicht Teil dieses Dokuments ist die konkrete Auswertung der protokollierten Daten.

Man sollte sich auch immer wieder vor Augen führen, dass es keinerlei Handhabe gegen die Konzerne gibt. Sprich - selbst, wenn Dich z.B. Microsoft oder Google belügt und dir so einen Schaden zufügt: Eine Schadensersatzeinforderung im Rahmen einer gerichtlichen Auseinandersetzung dürfe wenig Erfolgsaussichten haben.

Gruß,
Jörg