Statistiken mit Datenbank erstellen trotz Datenschutz

Mitglied: imebro

imebro (Level 2) - Jetzt verbinden

04.08.2020 um 16:24 Uhr, 570 Aufrufe, 16 Kommentare

Hallo,

wir nutzen ein eigens für uns geschriebenes Programm, welches eine SQL-Datenbank nutzt, die auf einem unserer Server liegt.
Diese Datenbank enthält Informationen über Personen (Namen, Adressen, gesundheitliche Daten etc.).
Nun sollen - aus Datenschutzgründen - die Daten, die älter als 10 Jahre sind, anonymisiert werden.
Dennoch soll es möglich sein, am Ende Statistiken zu erstellen, die auch 15 oder 20 Jahre zurück reichen.

Zur Info:
Jede in der Datenbank erfaßte Person besitzt eine ID. Diese ID könnte z.B. in der anonymisierten Datenbank (also die Daten = älter als 10 Jahre) erhalten bleiben.
Dort könnte man z.B. nur die Vor- u. Nachnamen löschen (ggf. noch Geburtsdatum).

Würde man jedoch nun die aktuelle Datenbank mit der anonymisierten Datenbank (älter als 10 Jahre) vereinen, ließe sich ja über die ID wieder ein Personenbezug herstellen, was aus datenschutzrechtlichen Gründen nicht der Fall sein darf...

Das ist nun unser Problem.

Hat jemand von Euch eine Idee, wie man das lösen könnte?
Z.B. dachte ich spontan an ein Programm, welches das kann und welches vielleicht - nur während die Statistik ausgeführt wird - die ID´s kryptisiert und anschließend wieder in den Ausgangszustand versetzt. Das ist aber jetzt eine völlig spontane und laienhafte Idee aus dem Bauch heraus

Bin gespannt auf Eure Ideen und Vorschläge.

Danke & schöne Grüße,
imebro
Mitglied: wiesi200
04.08.2020 um 16:30 Uhr
Hallo,
Um hier genaue Aussagen treffen zu können müsst man die Datenstruktur und die gewünschten Auswertungen kennen.

Zwei Datenbanken bringen dir meiner Meinung nach wenig. Es wird da auch keine fertige Software was bringen
Du brauchst ein Wartungscript das regelmäßig über DB läuft und die Verbindungen entsprechend löscht, abändert das alles seine Richtigkeit hat.
Bitte warten ..
Mitglied: Lochkartenstanzer
04.08.2020 um 18:23 Uhr
Moin,

Erzeuge doch aus den Daten aus der aktuellen DB einen Hash als ID-Ersatz für die "StatistikDB".

Dann kann keine direkt Verbindung aus der Statistik-DB in die produktiv-DB zurückgeführt werden. Um einen zusammenhang zwischen dem Hash und den Benutzerdaten herzustellen, nüßte mann dann alle Hashes neu berechnen lassen.

lks
Bitte warten ..
Mitglied: mbehrens
04.08.2020 um 19:55 Uhr
Ich lese daraus nicht, dass die Anforderungen an die Pseudonymisierung erfüllt sind.
Bitte warten ..
Mitglied: Lochkartenstanzer
04.08.2020 um 20:07 Uhr
Zitat von mbehrens:

Ich lese daraus nicht, dass die Anforderungen an die Pseudonymisierung erfüllt sind.

Worauf bezieht sich Dein Kommentar? Auf meinen oder dem des TO?

lks
Bitte warten ..
Mitglied: lcer00
04.08.2020 um 21:30 Uhr
Hallo,

macht Euch erst mal kundig, wie die Aufbewahrungsregeln tatsächlich sind. Normalerweise gilt: 10 Jahre nach ABSCHLUSS der Behandlung. Demzufolge gäbe es kein Problem mit den IDs. Gilt das nicht, dann dürft Ihr vermutlich die Daten auch nicht für weniger als 10 Jahre aufbewahren weil Euch die Grundlage dafür fehlt.

Grüße

lcer
Bitte warten ..
Mitglied: imebro
05.08.2020, aktualisiert um 08:25 Uhr
Vielen Dank für Eure bisherigen Kommentare.

@wiesi200
Über die Strukturen der DB kann ich wenig sagen. Es ist ein Programm, das speziell für uns programmiert wurde und mit dem Anträge bearbeitet werden. Die kompletten Personendaten werden erfaßt - auch gesundheitliche Daten. Dann natürlich auch eine Antragshistorie (alle gestellten Anträge der Person sind einsehbar). Weiterhin sind im jeweiligen Antrag auch alle Schreiben des Antragstellers eingescannt und natürlich unsere Bescheide sowie jeglicher sonstiger Schriftverkehr. Und es gibt ein MEMO, welches den jeweiligen gesamten Antrag genau beschreibt und alles, was für die Entscheidung wichtig war.

Die Auswertungen können z.B. so sein, dass ermittelt werden soll, wieviele Personen in einem bestimmten Altersbereich, aus einem bestimmten Bundesland, bereits Anträge auf den Antragsgegenstand "X" gestellt haben.
So gibt es natürlich zahlreiche Statistiken, die z.B. für unseren Jahresbericht erstellt werden müssen. Hierbei werden natürlich auch oft die Gesundheitsdaten der Personen benötigt.

@Lochkartenstanzer
Deinen Ansatz "Hash als ID-Ersatz für die StatistikDB" finde ich interessant und er geht ja auch ein bisschen in die Richtung, über die ich schon geschrieben hatte. Wichtig ist nur, nochmal darüber aufzuklären, dass es
1) die aktuelle Datenbank geben würde, die dann eben maximal 10 Jahre zurück reicht und
2) die Archiv-Datenbank, mit allen Daten, die älter als 10 Jahre sind. Diese DB müßte dann anonymisiert werden (z.B. ohne Namen u. Geb.Dat. der Personen).

@mbehrens
Ich habe mir genau die gleiche Frage bezüglich Deines Postes gestellt, wie auch "Lochkartenstanzer"

@Icer00
Ich habe nicht ganz verstanden, was Du mit " ;10 Jahre nach ABSCHLUSS der Behandlung" meinst.
Wie ja oben schon geschrieben, gäbe es die beiden Datenbanken (siehe Punkte 1 + 2 in meinem Post an "Lochkartenstanzer").
Und vielleicht kannst Du nochmal erklären, in welchem Fall es keine Probleme mit den IDs geben würde.

Danke Euch und schöne Grüße,
imebro
Bitte warten ..
Mitglied: lcer00
05.08.2020 um 15:25 Uhr
Hallo,
Zitat von imebro:

@Icer00
Ich habe nicht ganz verstanden, was Du mit " ;10 Jahre nach ABSCHLUSS der Behandlung" meinst.
Wie ja oben schon geschrieben, gäbe es die beiden Datenbanken (siehe Punkte 1 + 2 in meinem Post an "Lochkartenstanzer").
Und vielleicht kannst Du nochmal erklären, in welchem Fall es keine Probleme mit den IDs geben würde.

Ich gehe mal von einer relationalen Datenbank aus. 1 Mensch hat darin n Dateneinträge

Variante: Löschen von Daten, die 10 Jahre oder älter sind:
Du erhältst durch das anonymisieren eines Menschen im schlechtesten Fall einen gesplitteten Datensatz:
- 1 Anonymer Mensch mit n Daten die 10 Jahre oder älter sind
- 1 nicht-Anonymer Mensch mit m Daten die jünger als 10 Jahre sind
Hier würde die ID die Anonymisierung durchbrechen.

Variante: Löschen von Daten von Menschen, die länger als 10 Jahre nicht da waren, bei denen es also keine jüngeren Daten gibt:
- Hier muss der Datensatz nicht gesplittet werden, entweder muss er anonymisiert werden, oder eben nicht.

Bei Gesundheitsdaten gilt oft die Variante 2: "wer länger als 10 Jahre nicht da war...." Falls Die auch für Euch gilt, würde es reichen, die Identifikationsdaten einfach aus der Datenbank zu löschen. Änderungen am Datenbankdesign wären gar nicht nötig. Datenschutzrechtlich bräuchtet Ihr trotzdem eine Genehmigung zu statistischen Auswertung durch den betroffenen. Besprecht das am besten mit Eurem Datenschutzbeauftragten.

Grüße

lcer
Bitte warten ..
Mitglied: imebro
05.08.2020, aktualisiert um 16:04 Uhr
Hallo und danke für die weitere Erläuterung.

Der Datenschutzbeauftragte ist bereits eingeschaltet.
Aber er erwartet natürlich ein Konzept von uns, wie wir den Datenschutz gewährleisten wollen.
Und wir möchten natürlich - trotz Datenschutz - die Möglichkeit haben, auch weiterhin aussagekräftige Statistiken anbieten zu können.

Zu Deinem obigen Beispiel:
Ich hatte mir gedacht, den Teil der Datenbank, der Daten "älter als 10 Jahre" enthält in eine Art Archiv-Datenbank zu verschieben.
Danach hat man dann 2 Datenbanken, die aber natürlich auch z.T. gleiche Personen enthalten können.

Daher würde dann die Archiv-Datenbank anonymisiert, indem dort die Personen-Namen und ggf. noch das Geburtsdatum gelöscht würden.
Die ID bleibt jedoch bestehen...

In der aktiven Datenbank bleibt alles wie es ist.

Nun käme die Idee von "Lochkartenstanzer" zum Tragen... nämlich "Hash als ID-Ersatz".
Wenn ich die Idee dahinter richtig verstanden habe, könnte man dadurch dann diese beiden Datenbanken gemeinsam auswerten, indem man daraus eine "Statistik-DB" erstellt mit den "gehashten" IDs. Und am Ende werden (wie auch immer) die Hashes dann wieder entfernt und man hat wieder die ursprünglichen beiden Datenbanken.

Sorry... ich habe das jetzt sicher sehr laienhaft ausgedrückt. Aber ich kenne mich da einfach nicht aus. Deshalb frage ich ja hier auch

Danke & Gruß,
imebro
Bitte warten ..
Mitglied: Lochkartenstanzer
05.08.2020 um 16:07 Uhr
Zitat von imebro:

Nun käme die Idee von "Lochkartenstanzer" zum Tragen... nämlich "Hash als ID-Ersatz".
Wenn ich die Idee dahinter richtig verstanden habe, könnte man dadurch dann diese beiden Datenbanken gemeinsam auswerten, indem man daraus eine "Statistik-DB" erstellt mit den "gehashten" IDs. Und am Ende werden (wie auch immer) die Hashes dann wieder entfernt und man hat wieder die ursprünglichen beiden Datenbanken.

Meine Idee war, aus der aktuellen Datenbank Daten in die "Statistikdatenbank" zu kopieren und dabei alle Daten zu löschen, die auf die Person schließen lassen und die ID durch eine Hash zu ersetzen.

Für Statistiken nutzt man dann auschließlich die Archivdatenbank, die regelmäßig mit aktuellen Daten "befüllt" wird.

lks
Bitte warten ..
Mitglied: mbehrens
05.08.2020 um 18:26 Uhr
Zitat von Lochkartenstanzer:

Zitat von mbehrens:

Ich lese daraus nicht, dass die Anforderungen an die Pseudonymisierung erfüllt sind.

Worauf bezieht sich Dein Kommentar? Auf meinen oder dem des TO?

lks

Tja, einmal nicht den bestehenden Text zitiert , TO war gemeint.

Ich denke, die gemeinsame ID könnte ein Problem sein.
Bitte warten ..
Mitglied: lcer00
05.08.2020 um 19:04 Uhr
Danach hat man dann 2 Datenbanken, die aber natürlich auch z.T. gleiche Personen enthalten können.

Und genau das wäre nicht nötig, wenn als Regel „10 Jahre nach Ende der Behandlung „ gelten würde. Dann dürften nämlich auch 20 Jahre alte Daten mit Namen aufbewahrt werden, wenn die Person in den letzten 10 Jahren noch einmal da war. Das gilt für jede medizinische Behandlung, ob Ihr darunter fallt, weiß der Datenschutzbeauftragte.

Grüße

lcer
Bitte warten ..
Mitglied: imebro
06.08.2020 um 09:10 Uhr
Vielen Dank für die weitere Hilfe.

@Lochkartenstanzer:
Die aktuelle Datenbank würde (jetzt mal vom Tipp von "Icer00" abgesehen) lediglich die Daten der letzten 10 Jahre beinhalten.
Somit hätte ich auch in der Statistik Datenbank lediglich Daten aus den letzten 10 Jahren.
Daher würden wir dann (wenn das aus Datenschutzgründen möglich ist) diese Archivdatenbank anlegen müssen mit den Daten, die älter sind als 10 Jahre, damit wir auch Statistiken über 20 oder mehr Jahre machen können.
Dann müßte es also eine Möglichkeit geben, die Aktuelle Datenbank und die Archivdatenbank speziell für statistische Auswertungen zu vereinen, was dann eben die Statistikdatenbank wäre.

@mbehrens:
Kannst Du das " ;Ich denke, die gemeinsame ID könnte ein Problem sein." bitte etwas genauer erklären? Wieso könnte dies ein Problem sein? Und wie könnte man es ggf. lösen?

@Icer00:
Jetzt verstehe ich den Hinweis " ;10 Jahre nach Ende der Behandlung" etwas besser.
Das würde also bedeuten, dass eine Person, die sich vielleicht 10 Jahre nicht mehr gemeldet und sich jetzt wieder meldet, nicht aus der aktuellen DB raus müßte, da mit diesem Tag quasi wieder neue 10 Jahre beginnen... Richtig so?
Das müßte aber dann sicher auch der DS-Beauftragte wissen.
Jedenfalls ein sehr wichtiger Hinweis.

Fazit:
Ich brauche also foldenden Weg:
- die Aktuelle DB mit der Archiv DB verbinden, was dann die Statistik DB ergibt
      1. jedoch nur für den Zeitraum der Erstellung einer Statistik
      2. und so, dass während der Nutzung dieser Statistik DB, die Personendaten über die ID nicht ausgelesen werden könnten
- dies könnte über ID Hashes erfolgen...

Ich hoffe, ich habe es einigermaßen korrekt zusammengefaßt.
Jetzt wäre es interessant, zu erfahren, wie man das umsetzen könnte. Natürlich ist dafür auch der Tipp von "Icer00" wichtig. Das werde ich noch recherchieren.

Danke und schöne Grüße... und hoffentlich habt Ihr heute Alle auch ne Klimaanlage in Euren Büros........ wie ich

imebro
Bitte warten ..
Mitglied: imebro
07.08.2020 um 09:22 Uhr
...was mir gerade noch einfällt:

Hmmm... grundsätzlich gibt es ja noch ein Problem.
Und zwar würden im von mir beschriebenen Fall ja 2 Datenbanken bestehen.

1) die aktuelle Datenbank, die alle Personen- u. Gesundheitsdaten enthält sowie die entsprechenden IDs
2) die Archivdatenbank, die keine Personen- u. Gesundheitsdaten enthält, aber die entsprechenden IDs

Daher wäre es ja durchaus möglich, über ein ID-Suche über beide Datenbanken, zusammengehörende IDs zu finden... und somit dann auch die Personen- u. Gesundheitsdaten in der Archivdatenbank zuzuordnen.

Datenschutzrechtlich wird das sicher ein Problem werden... und vielleicht hat ja @mbehrens genau das gemeint...

Die IDs würden ja erst dann in Hashes umgewandelt, wenn man eine Statistik machen will und dazu dann die zwischenzeitliche "Statistik-Datenbank" erstellt. Dazu braucht man aber eben die aktuelle DB und die Archiv-DB. Also ein Kreislauf mit einem Datenschutzproblem.

Ich hoffe, Ihr versteht, was ich meine...

Gibt es da eine Lösung?
Irgendwie muss sowas doch möglich sein.
Es kann ja nicht sein, dass man alle für Statistiken sinnvolle und wichtige Daten <älter als 10 Jahre> löschen muss.

Gruß,
imebro
Bitte warten ..
Mitglied: imebro
25.08.2020 um 11:19 Uhr
Hallo liebe User,

hat zu diesem Thema nochmal Jemand eine Idee?

Danke und Gruß,
imebro
Bitte warten ..
Mitglied: lcer00
25.08.2020 um 11:55 Uhr
Hallo,
Zitat von imebro:

Hallo liebe User,

hat zu diesem Thema nochmal Jemand eine Idee?
na Dein Datenschutzbeauftragter!


Gibt es da eine Lösung?
Irgendwie muss sowas doch möglich sein.
Es kann ja nicht sein, dass man alle für Statistiken sinnvolle und wichtige Daten <älter als 10 Jahre> löschen muss.
doch, kann sein. Das muss Dein Datenschutzbeauftragter klären. Dazu ist er da. Nicht Du. Du kannst ihm aber helfen:

Such raus, auf welcher Grundlage ihr die Daten verwendet. Gibt es eine explizite Einwilligung des Betroffenen, und was umfasst diese? Wenn es keine gibt - welche Gesetzlichen Aufbewahrungsfristen treffen zu? Welche Gesetzlichen Regeln erlaube die Datennutzung.

Wenn klar ist, wie das laufen kann - dann kannst Du hier nochmal nachfragen, wie man das technisch umsetzt.

Sicherheitshalber nochmal im Klartext: Wenn Ihr keine Grundlage für die Datenverarbeitung habt - müsst Ihr sie löschen - egal ob das bedauerlich wäre.

Und eine 2. Klarstellung: Zu Studienzwecken erhobene Daten und zur Krankenbehandlung erhobene Daten sind 2 Paar Schuhe. Krankenbehandlungsdaten darf man nicht ohne weiteres zu Studienzwecken verwenden.

3. Klarstellung: Wenn euer Datenschutzbeauftragte das auf Euch abwälzt, sag Deinem Chef, dass die ganze Datenverarbeitung auf sehr unsicheren Füßen steht, und er sich schon mal einen Plan für den DSGVO-Ernstfall machen soll. Am besten schriftlich, damit Du abgesichert bist, falls was passiert.

Grüße

lcer
Bitte warten ..
Mitglied: imebro
25.08.2020 um 14:03 Uhr
Danke Dir @Icer für die Tipps.

Werde das mal so weitergeben...

Schöne Grüße,
imebro
Bitte warten ..
Ähnliche Inhalte
Windows 10
GPO Datenschutz
Frage von PN-SchrauberWindows 102 Kommentare

Hallo, ich habe mal wieder eine Frage. Ich bin derzeit dabei eine GPO für die Datenschutzeinstellungen zu erstellen, und ...

Datenschutz
OneDrive Datenschutz
gelöst Frage von IT-ProDatenschutz4 Kommentare

Hallo Kollegen, Vor einiger Zeit hatte einer von uns auf einen Satz in der Datenschutzerklärung von Microsoft aufmerksam gemacht. ...

Datenschutz
Datenschutz Frage
gelöst Frage von DaHuberDatenschutz11 Kommentare

Guten Morgen zusammen, eine Frage an euch, mir wurde aufgetragen, dass ein Mailkonto eines im Krankenstand befindlichen Mitarbeiters an ...

Sicherheitsgrundlagen
Statistik öffentlicher RDP Ports
gelöst Frage von StefanKittelSicherheitsgrundlagen5 Kommentare

Hallo, kennt Jemand eine Statistik wieviele öffentliche RDP-Ports es gibt? Einfach mal so eine Zahl. Es gab ja mal ...

Windows 10
Windows 10 - Datenschutz Einstellungen
Frage von Hajo2006Windows 106 Kommentare

Hallo, ich bin gerade damit beschäftigt ein Script zu erstellen mit dem ich die Datenschutzteinstellungen in Windows 10 über ...

Cloud-Dienste
Datenschutz in der Cloud
Ticker von Penny.CilinCloud-Dienste3 Kommentare

Die US Regierung versucht einen weiteren Angriff auf Daten in der Cloud. Dieser Streit geht nun schon über mehrere ...

Heiß diskutierte Inhalte
Notebook & Zubehör
Macbook oder Surface Book 3?
gelöst Frage von FamousDex089Notebook & Zubehör36 Kommentare

Hallo Zusammen :-), ich bin komplett neu in der IT Admin schiene und neu in diesem Forum. Ich habe ...

Switche und Hubs
Kaufberatung (10G) Switche für Unternehmensnetzwerk
Frage von ipzipzapSwitche und Hubs27 Kommentare

Moin, unsere Firma zieht um und am neu renovierten Standort muss/soll alles neu. Auf drei Etagen stehen Racks, in ...

Humor (lol)
So eine Art Jobangebot
Frage von Melvin.van.HorneHumor (lol)21 Kommentare

Moin, ich habe eben eine Zeit damit zugebracht eine GPO für eine Gruppe von Clients zu erstellen. Egal was ...

Windows Server
AD (virtualisiert) und alle angeschlossenen Clients fahren ungeplant herunter
Frage von tobitobsnWindows Server19 Kommentare

Ich habe aktuell ein Problem, dass ein frisch aufgesetzer Hyper-V mit einem virtualisierten AD regelmäßig 1x die Woche herunterfährt ...

Drucker und Scanner
Vorlage Endlospapier Nadeldrucker
Frage von Hanspeter82Drucker und Scanner13 Kommentare

Hallo, hab die Aufagbe bekommen, eine Vorlage zuerstellen bzgl. Druck auf Endlos Papier über einen Nadeldrucker. Habe allerdings kein ...

Windows 10
FritzBox 7590 VPN
Frage von christian295Windows 1013 Kommentare

Hallo Zusammen, wir haben seit einigen Tagen eine neue FritzBox 7590 und wollen mit ShrewSoft 2.2.2 auf Win 10 ...

Berechtigungs- und IdentitätsmanagementBerechtigungs- und IdentitätsmanagementWebdienste und -serverWebdienste und -serverDatenbankenDatenbankenMonitoring & SupportMonitoring & SupportHybrid CloudHybrid CloudSmall Business ITSmall Business IT