93578
Goto Top

Vor - und Nachnahmen aus einer Textdatei löschen, die in anderen Textdateien vorhanden sind

Hallo,

ich habe folgendes Problem: ich habe eine Textdatei mit mehr als 30.000.000.000 Zeilen. In eingigen von diesen Zeilen (nicht in jeder!!!) stehen NUR Vor- und Nachnahmen von Mitarbeiter in 4 verschiedenen Variationen:

klaus.mustermann
Ingo Mustermann
Heinz-mustermann
olaf_Mustermann

Nun soll ich diese personenbezogene Daten löschen. Meine Idee war: 2 neue txt-Dateien (eine mit Vornahmen und und eine mit Nachnahmen von allen Mitarbeiter) erzeugen. Danach sie mit der ersten Textdatei abgleichen und alle Zeilen mit Übereinstimmungen aus der ersten Texdatei löschen.

comm-Befehl brachte mir diesmal nichts. Wie kann ich so was für Linux realisieren??? Ein zusätzliches Problem dabei: es sind sowohl Klein-, als auch Großbuchstaben als Anfangsbuchstaben in Namen vorhanden (siehe Beispiel).

Danke,
Takeshi
Kommentar vom Moderator tomolpi am Jun 28, 2016 um 17:04:10 Uhr

Content-Key: 308393

Url: https://administrator.de/contentid/308393

Printed on: April 16, 2024 at 19:04 o'clock

Mitglied: 129813
Solution 129813 Jun 28, 2016 updated at 14:17:23 (UTC)
Goto Top
Hi,
this can be easily done with sed
For example:
Logdateien bereinigen mit sed

Regards
Mitglied: 93578
93578 Jun 28, 2016 updated at 14:24:00 (UTC)
Goto Top
Danke für den Tipp.

Leider komme ich damit nicht weiter. Dort ist NUR 1 bestimmtes Merkmal vorhanden(192). In meinem Fall habe ich hunderte von verschiedenen Vor- und Nachnahmen. Außerdem ist Linux nicht meine Welt... ;-(
Mitglied: 129813
Solution 129813 Jun 28, 2016 updated at 14:25:06 (UTC)
Goto Top
Zitat von @93578:
Leider komme ich damit nicht weiter. Dort ist NUR 1 bestimmtes Merkmal vorhandne (192).
No there are multiple entries in the text file, all separated by a pipe symbol -> | !
Mitglied: 93578
93578 Jun 28, 2016 updated at 15:01:10 (UTC)
Goto Top
Ok. Das funktioniert. face-wink Nun habe ich folgendes Problem:

Ich muss nur die oben genannten vier/acht Kombinationen aus Namen/Vornamen löschen:

Name Vorname
Name_Vorname
Name.Vorname
Name-Vorname
Vorname Name
Vorname_Name
Vorname.Name
Vorname-Name

Zeilen mit nur Namen oder Vornamen sollten nicht gelöscht werden. Und bei deinem Beispeil werden sie leider auch gelöscht. Außerdem befinden alle Vornamen und Nachnamen in 2 Dateien (Vorname.txt, Nachname.txt), weil es zu kompliziert ist alle mögliche Varianten aus Vor- und Nachnamen per Hand zu tippen.