37414
Goto Top

Statistiken mit Datenbank erstellen trotz Datenschutz

Hallo,

wir nutzen ein eigens für uns geschriebenes Programm, welches eine SQL-Datenbank nutzt, die auf einem unserer Server liegt.
Diese Datenbank enthält Informationen über Personen (Namen, Adressen, gesundheitliche Daten etc.).
Nun sollen - aus Datenschutzgründen - die Daten, die älter als 10 Jahre sind, anonymisiert werden.
Dennoch soll es möglich sein, am Ende Statistiken zu erstellen, die auch 15 oder 20 Jahre zurück reichen.

Zur Info:
Jede in der Datenbank erfaßte Person besitzt eine ID. Diese ID könnte z.B. in der anonymisierten Datenbank (also die Daten = älter als 10 Jahre) erhalten bleiben.
Dort könnte man z.B. nur die Vor- u. Nachnamen löschen (ggf. noch Geburtsdatum).

Würde man jedoch nun die aktuelle Datenbank mit der anonymisierten Datenbank (älter als 10 Jahre) vereinen, ließe sich ja über die ID wieder ein Personenbezug herstellen, was aus datenschutzrechtlichen Gründen nicht der Fall sein darf...

Das ist nun unser Problem.

Hat jemand von Euch eine Idee, wie man das lösen könnte?
Z.B. dachte ich spontan an ein Programm, welches das kann und welches vielleicht - nur während die Statistik ausgeführt wird - die ID´s kryptisiert und anschließend wieder in den Ausgangszustand versetzt. Das ist aber jetzt eine völlig spontane und laienhafte Idee aus dem Bauch heraus face-smile

Bin gespannt auf Eure Ideen und Vorschläge.

Danke & schöne Grüße,
imebro

Content-Key: 593347

Url: https://administrator.de/contentid/593347

Ausgedruckt am: 19.03.2024 um 09:03 Uhr

Mitglied: wiesi200
wiesi200 04.08.2020 um 16:30:38 Uhr
Goto Top
Hallo,
Um hier genaue Aussagen treffen zu können müsst man die Datenstruktur und die gewünschten Auswertungen kennen.

Zwei Datenbanken bringen dir meiner Meinung nach wenig. Es wird da auch keine fertige Software was bringen
Du brauchst ein Wartungscript das regelmäßig über DB läuft und die Verbindungen entsprechend löscht, abändert das alles seine Richtigkeit hat.
Mitglied: Lochkartenstanzer
Lochkartenstanzer 04.08.2020 um 18:23:32 Uhr
Goto Top
Moin,

Erzeuge doch aus den Daten aus der aktuellen DB einen Hash als ID-Ersatz für die "StatistikDB".

Dann kann keine direkt Verbindung aus der Statistik-DB in die produktiv-DB zurückgeführt werden. Um einen zusammenhang zwischen dem Hash und den Benutzerdaten herzustellen, nüßte mann dann alle Hashes neu berechnen lassen.

lks
Mitglied: mbehrens
mbehrens 04.08.2020 um 19:55:18 Uhr
Goto Top
Ich lese daraus nicht, dass die Anforderungen an die Pseudonymisierung erfüllt sind.
Mitglied: Lochkartenstanzer
Lochkartenstanzer 04.08.2020 um 20:07:47 Uhr
Goto Top
Zitat von @mbehrens:

Ich lese daraus nicht, dass die Anforderungen an die Pseudonymisierung erfüllt sind.

Worauf bezieht sich Dein Kommentar? Auf meinen oder dem des TO?

lks
Mitglied: lcer00
lcer00 04.08.2020 um 21:30:51 Uhr
Goto Top
Hallo,

macht Euch erst mal kundig, wie die Aufbewahrungsregeln tatsächlich sind. Normalerweise gilt: 10 Jahre nach ABSCHLUSS der Behandlung. Demzufolge gäbe es kein Problem mit den IDs. Gilt das nicht, dann dürft Ihr vermutlich die Daten auch nicht für weniger als 10 Jahre aufbewahren weil Euch die Grundlage dafür fehlt.

Grüße

lcer
Mitglied: 37414
37414 05.08.2020 aktualisiert um 08:25:35 Uhr
Goto Top
Vielen Dank für Eure bisherigen Kommentare.

@wiesi200
Über die Strukturen der DB kann ich wenig sagen. Es ist ein Programm, das speziell für uns programmiert wurde und mit dem Anträge bearbeitet werden. Die kompletten Personendaten werden erfaßt - auch gesundheitliche Daten. Dann natürlich auch eine Antragshistorie (alle gestellten Anträge der Person sind einsehbar). Weiterhin sind im jeweiligen Antrag auch alle Schreiben des Antragstellers eingescannt und natürlich unsere Bescheide sowie jeglicher sonstiger Schriftverkehr. Und es gibt ein MEMO, welches den jeweiligen gesamten Antrag genau beschreibt und alles, was für die Entscheidung wichtig war.

Die Auswertungen können z.B. so sein, dass ermittelt werden soll, wieviele Personen in einem bestimmten Altersbereich, aus einem bestimmten Bundesland, bereits Anträge auf den Antragsgegenstand "X" gestellt haben.
So gibt es natürlich zahlreiche Statistiken, die z.B. für unseren Jahresbericht erstellt werden müssen. Hierbei werden natürlich auch oft die Gesundheitsdaten der Personen benötigt.

@Lochkartenstanzer
Deinen Ansatz "Hash als ID-Ersatz für die StatistikDB" finde ich interessant und er geht ja auch ein bisschen in die Richtung, über die ich schon geschrieben hatte. Wichtig ist nur, nochmal darüber aufzuklären, dass es
1) die aktuelle Datenbank geben würde, die dann eben maximal 10 Jahre zurück reicht und
2) die Archiv-Datenbank, mit allen Daten, die älter als 10 Jahre sind. Diese DB müßte dann anonymisiert werden (z.B. ohne Namen u. Geb.Dat. der Personen).

@mbehrens
Ich habe mir genau die gleiche Frage bezüglich Deines Postes gestellt, wie auch "Lochkartenstanzer" face-smile

@icer00
Ich habe nicht ganz verstanden, was Du mit "10 Jahre nach ABSCHLUSS der Behandlung" meinst.
Wie ja oben schon geschrieben, gäbe es die beiden Datenbanken (siehe Punkte 1 + 2 in meinem Post an "Lochkartenstanzer").
Und vielleicht kannst Du nochmal erklären, in welchem Fall es keine Probleme mit den IDs geben würde.

Danke Euch und schöne Grüße,
imebro
Mitglied: lcer00
lcer00 05.08.2020 um 15:25:48 Uhr
Goto Top
Hallo,
Zitat von @37414:

@icer00
Ich habe nicht ganz verstanden, was Du mit "10 Jahre nach ABSCHLUSS der Behandlung" meinst.
Wie ja oben schon geschrieben, gäbe es die beiden Datenbanken (siehe Punkte 1 + 2 in meinem Post an "Lochkartenstanzer").
Und vielleicht kannst Du nochmal erklären, in welchem Fall es keine Probleme mit den IDs geben würde.

Ich gehe mal von einer relationalen Datenbank aus. 1 Mensch hat darin n Dateneinträge

Variante: Löschen von Daten, die 10 Jahre oder älter sind:
Du erhältst durch das anonymisieren eines Menschen im schlechtesten Fall einen gesplitteten Datensatz:
- 1 Anonymer Mensch mit n Daten die 10 Jahre oder älter sind
- 1 nicht-Anonymer Mensch mit m Daten die jünger als 10 Jahre sind
Hier würde die ID die Anonymisierung durchbrechen.

Variante: Löschen von Daten von Menschen, die länger als 10 Jahre nicht da waren, bei denen es also keine jüngeren Daten gibt:
- Hier muss der Datensatz nicht gesplittet werden, entweder muss er anonymisiert werden, oder eben nicht.

Bei Gesundheitsdaten gilt oft die Variante 2: "wer länger als 10 Jahre nicht da war...." Falls Die auch für Euch gilt, würde es reichen, die Identifikationsdaten einfach aus der Datenbank zu löschen. Änderungen am Datenbankdesign wären gar nicht nötig. Datenschutzrechtlich bräuchtet Ihr trotzdem eine Genehmigung zu statistischen Auswertung durch den betroffenen. Besprecht das am besten mit Eurem Datenschutzbeauftragten.

Grüße

lcer
Mitglied: 37414
37414 05.08.2020 aktualisiert um 16:04:25 Uhr
Goto Top
Hallo und danke für die weitere Erläuterung.

Der Datenschutzbeauftragte ist bereits eingeschaltet.
Aber er erwartet natürlich ein Konzept von uns, wie wir den Datenschutz gewährleisten wollen.
Und wir möchten natürlich - trotz Datenschutz - die Möglichkeit haben, auch weiterhin aussagekräftige Statistiken anbieten zu können.

Zu Deinem obigen Beispiel:
Ich hatte mir gedacht, den Teil der Datenbank, der Daten "älter als 10 Jahre" enthält in eine Art Archiv-Datenbank zu verschieben.
Danach hat man dann 2 Datenbanken, die aber natürlich auch z.T. gleiche Personen enthalten können.

Daher würde dann die Archiv-Datenbank anonymisiert, indem dort die Personen-Namen und ggf. noch das Geburtsdatum gelöscht würden.
Die ID bleibt jedoch bestehen...

In der aktiven Datenbank bleibt alles wie es ist.

Nun käme die Idee von "Lochkartenstanzer" zum Tragen... nämlich "Hash als ID-Ersatz".
Wenn ich die Idee dahinter richtig verstanden habe, könnte man dadurch dann diese beiden Datenbanken gemeinsam auswerten, indem man daraus eine "Statistik-DB" erstellt mit den "gehashten" IDs. Und am Ende werden (wie auch immer) die Hashes dann wieder entfernt und man hat wieder die ursprünglichen beiden Datenbanken.

Sorry... ich habe das jetzt sicher sehr laienhaft ausgedrückt. Aber ich kenne mich da einfach nicht aus. Deshalb frage ich ja hier auch face-wink

Danke & Gruß,
imebro
Mitglied: Lochkartenstanzer
Lochkartenstanzer 05.08.2020 um 16:07:03 Uhr
Goto Top
Zitat von @37414:

Nun käme die Idee von "Lochkartenstanzer" zum Tragen... nämlich "Hash als ID-Ersatz".
Wenn ich die Idee dahinter richtig verstanden habe, könnte man dadurch dann diese beiden Datenbanken gemeinsam auswerten, indem man daraus eine "Statistik-DB" erstellt mit den "gehashten" IDs. Und am Ende werden (wie auch immer) die Hashes dann wieder entfernt und man hat wieder die ursprünglichen beiden Datenbanken.

Meine Idee war, aus der aktuellen Datenbank Daten in die "Statistikdatenbank" zu kopieren und dabei alle Daten zu löschen, die auf die Person schließen lassen und die ID durch eine Hash zu ersetzen.

Für Statistiken nutzt man dann auschließlich die Archivdatenbank, die regelmäßig mit aktuellen Daten "befüllt" wird.

lks
Mitglied: mbehrens
mbehrens 05.08.2020 um 18:26:41 Uhr
Goto Top
Zitat von @Lochkartenstanzer:

Zitat von @mbehrens:

Ich lese daraus nicht, dass die Anforderungen an die Pseudonymisierung erfüllt sind.

Worauf bezieht sich Dein Kommentar? Auf meinen oder dem des TO?

lks

Tja, einmal nicht den bestehenden Text zitiert face-sad , TO war gemeint.

Ich denke, die gemeinsame ID könnte ein Problem sein.
Mitglied: lcer00
lcer00 05.08.2020 um 19:04:47 Uhr
Goto Top
Danach hat man dann 2 Datenbanken, die aber natürlich auch z.T. gleiche Personen enthalten können.

Und genau das wäre nicht nötig, wenn als Regel „10 Jahre nach Ende der Behandlung „ gelten würde. Dann dürften nämlich auch 20 Jahre alte Daten mit Namen aufbewahrt werden, wenn die Person in den letzten 10 Jahren noch einmal da war. Das gilt für jede medizinische Behandlung, ob Ihr darunter fallt, weiß der Datenschutzbeauftragte.

Grüße

lcer
Mitglied: 37414
37414 06.08.2020 um 09:10:48 Uhr
Goto Top
Vielen Dank für die weitere Hilfe.

@Lochkartenstanzer:
Die aktuelle Datenbank würde (jetzt mal vom Tipp von "Icer00" abgesehen) lediglich die Daten der letzten 10 Jahre beinhalten.
Somit hätte ich auch in der Statistik Datenbank lediglich Daten aus den letzten 10 Jahren.
Daher würden wir dann (wenn das aus Datenschutzgründen möglich ist) diese Archivdatenbank anlegen müssen mit den Daten, die älter sind als 10 Jahre, damit wir auch Statistiken über 20 oder mehr Jahre machen können.
Dann müßte es also eine Möglichkeit geben, die Aktuelle Datenbank und die Archivdatenbank speziell für statistische Auswertungen zu vereinen, was dann eben die Statistikdatenbank wäre.

@mbehrens:
Kannst Du das "Ich denke, die gemeinsame ID könnte ein Problem sein." bitte etwas genauer erklären? Wieso könnte dies ein Problem sein? Und wie könnte man es ggf. lösen?

@icer00:
Jetzt verstehe ich den Hinweis "10 Jahre nach Ende der Behandlung" etwas besser.
Das würde also bedeuten, dass eine Person, die sich vielleicht 10 Jahre nicht mehr gemeldet und sich jetzt wieder meldet, nicht aus der aktuellen DB raus müßte, da mit diesem Tag quasi wieder neue 10 Jahre beginnen... Richtig so?
Das müßte aber dann sicher auch der DS-Beauftragte wissen.
Jedenfalls ein sehr wichtiger Hinweis.

Fazit:
Ich brauche also foldenden Weg:
- die Aktuelle DB mit der Archiv DB verbinden, was dann die Statistik DB ergibt
      1. jedoch nur für den Zeitraum der Erstellung einer Statistik
      2. und so, dass während der Nutzung dieser Statistik DB, die Personendaten über die ID nicht ausgelesen werden könnten
- dies könnte über ID Hashes erfolgen...

Ich hoffe, ich habe es einigermaßen korrekt zusammengefaßt.
Jetzt wäre es interessant, zu erfahren, wie man das umsetzen könnte. Natürlich ist dafür auch der Tipp von "Icer00" wichtig. Das werde ich noch recherchieren.

Danke und schöne Grüße... und hoffentlich habt Ihr heute Alle auch ne Klimaanlage in Euren Büros........ wie ich face-wink

imebro
Mitglied: 37414
37414 07.08.2020 um 09:22:01 Uhr
Goto Top
...was mir gerade noch einfällt:

Hmmm... grundsätzlich gibt es ja noch ein Problem.
Und zwar würden im von mir beschriebenen Fall ja 2 Datenbanken bestehen.

1) die aktuelle Datenbank, die alle Personen- u. Gesundheitsdaten enthält sowie die entsprechenden IDs
2) die Archivdatenbank, die keine Personen- u. Gesundheitsdaten enthält, aber die entsprechenden IDs

Daher wäre es ja durchaus möglich, über ein ID-Suche über beide Datenbanken, zusammengehörende IDs zu finden... und somit dann auch die Personen- u. Gesundheitsdaten in der Archivdatenbank zuzuordnen.

Datenschutzrechtlich wird das sicher ein Problem werden... und vielleicht hat ja @mbehrens genau das gemeint...

Die IDs würden ja erst dann in Hashes umgewandelt, wenn man eine Statistik machen will und dazu dann die zwischenzeitliche "Statistik-Datenbank" erstellt. Dazu braucht man aber eben die aktuelle DB und die Archiv-DB. Also ein Kreislauf mit einem Datenschutzproblem.

Ich hoffe, Ihr versteht, was ich meine...

Gibt es da eine Lösung?
Irgendwie muss sowas doch möglich sein.
Es kann ja nicht sein, dass man alle für Statistiken sinnvolle und wichtige Daten <älter als 10 Jahre> löschen muss.

Gruß,
imebro
Mitglied: 37414
37414 25.08.2020 um 11:19:27 Uhr
Goto Top
Hallo liebe User,

hat zu diesem Thema nochmal Jemand eine Idee?

Danke und Gruß,
imebro
Mitglied: lcer00
lcer00 25.08.2020 um 11:55:31 Uhr
Goto Top
Hallo,
Zitat von @37414:

Hallo liebe User,

hat zu diesem Thema nochmal Jemand eine Idee?
na Dein Datenschutzbeauftragter!


Gibt es da eine Lösung?
Irgendwie muss sowas doch möglich sein.
Es kann ja nicht sein, dass man alle für Statistiken sinnvolle und wichtige Daten <älter als 10 Jahre> löschen muss.
doch, kann sein. Das muss Dein Datenschutzbeauftragter klären. Dazu ist er da. Nicht Du. Du kannst ihm aber helfen:

Such raus, auf welcher Grundlage ihr die Daten verwendet. Gibt es eine explizite Einwilligung des Betroffenen, und was umfasst diese? Wenn es keine gibt - welche Gesetzlichen Aufbewahrungsfristen treffen zu? Welche Gesetzlichen Regeln erlaube die Datennutzung.

Wenn klar ist, wie das laufen kann - dann kannst Du hier nochmal nachfragen, wie man das technisch umsetzt.

Sicherheitshalber nochmal im Klartext: Wenn Ihr keine Grundlage für die Datenverarbeitung habt - müsst Ihr sie löschen - egal ob das bedauerlich wäre.

Und eine 2. Klarstellung: Zu Studienzwecken erhobene Daten und zur Krankenbehandlung erhobene Daten sind 2 Paar Schuhe. Krankenbehandlungsdaten darf man nicht ohne weiteres zu Studienzwecken verwenden.

3. Klarstellung: Wenn euer Datenschutzbeauftragte das auf Euch abwälzt, sag Deinem Chef, dass die ganze Datenverarbeitung auf sehr unsicheren Füßen steht, und er sich schon mal einen Plan für den DSGVO-Ernstfall machen soll. Am besten schriftlich, damit Du abgesichert bist, falls was passiert.

Grüße

lcer
Mitglied: 37414
37414 25.08.2020 um 14:03:16 Uhr
Goto Top
Danke Dir @icer für die Tipps.

Werde das mal so weitergeben...

Schöne Grüße,
imebro