
16568
22.07.2006, aktualisiert am 16.01.2007
Wie filtere ich eine Textdatei auf Dubletten
Wer kennt das nicht:
Rechtschreibprüfung bei Word hat bei einer Grundinstallation kein einziges Wort in der Benutzer.dic
Das möchte ich jetzt per Default ändern.
Dazu habe ich mir aus div. Bibliotheken (was es nicht alles unter GNU gibt...) ziemlich viele Wörter zusammenklabustert.
Negativ is nur, daß manche doppelt vorkommen.
Alle Wörter habe ich jetzt in einer Textdatei, jedes Wort in einer eigenen Zeile.
Da es weit mehr als 60.000 sind, war eine Filterung über Excel auch nicht mehr drin (sonst wäre es ein Leichtes gewesen, Makro drüber, fertich...).
Weiß jemand eine Möglichkeit, irgendwie die Dubletten aus dem File zu killen?
Textdatei-Größe 2 MB, stelle ich nach Filterung gerne zur freien Verfügung...
Lonesome Walker
edit: 156498 Wörter...
Rechtschreibprüfung bei Word hat bei einer Grundinstallation kein einziges Wort in der Benutzer.dic
Das möchte ich jetzt per Default ändern.
Dazu habe ich mir aus div. Bibliotheken (was es nicht alles unter GNU gibt...) ziemlich viele Wörter zusammenklabustert.
Negativ is nur, daß manche doppelt vorkommen.
Alle Wörter habe ich jetzt in einer Textdatei, jedes Wort in einer eigenen Zeile.
Da es weit mehr als 60.000 sind, war eine Filterung über Excel auch nicht mehr drin (sonst wäre es ein Leichtes gewesen, Makro drüber, fertich...).
Weiß jemand eine Möglichkeit, irgendwie die Dubletten aus dem File zu killen?
Textdatei-Größe 2 MB, stelle ich nach Filterung gerne zur freien Verfügung...
Lonesome Walker
edit: 156498 Wörter...
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 36519
Url: https://administrator.de/forum/wie-filtere-ich-eine-textdatei-auf-dubletten-36519.html
Ausgedruckt am: 21.04.2025 um 16:04 Uhr
7 Kommentare
Neuester Kommentar
Moin Lomesome Walker,
was soll der Geiz... wenn das Ganze eine einmalige Aktion ist, nicht regelmäßig wiederholt werden soll und weder dem Stockholmer Nobelpreiskomitee noch der Geschäftsleitung schmackhaft gemacht werden muss, dann mach es doch mit (irgend-)einer SQL sprechenden Datenbank.
Selbst dieses MSACCESS, das ja auch immer scherzhaft in einem Atemzug mit relationalen Datenbanksystemen genannt wird, wäre dafür ausreichend.
(Beispiel-)Vorgehen mit Access 2003:
1. Menü "Datei"->"Externe Daten"->"Importieren"->
->(als Importformat auswählen) "Textdateien" ->Deine Rohdatendatei mit Dubletten angeben;
als Trennzeichen "Leerzeichen" angeben
2. Daraufhin wird automatisch eine Tabelle "Rohdatendatei" angelegt mit der Struktur "ID", "Feld1"
3. Damit machst du eine Billigst-Abfrage
...speicherst diese Abfrage und hast alles dublettenfrei z.B. in der Abfrage "DistinctWords",
4. Als letzten Schritt kann Du diese Abfrage über Menüpunkt "Datei" ->"Exportieren" wieder als Text-Datei rausschreiben.
Das war's... die Wartezeit nicht mitgerechnet hast Du circa 2 Minuten zu tun für ein paar Mausklicks, ein paar Mal "Enter" drücken und das Eintippen des Select-Statements.
Würde ich bei dieser Aufgabenstellung genauso stumpf, unelegant und stressarm erledigen.
Gruß
Biber
was soll der Geiz... wenn das Ganze eine einmalige Aktion ist, nicht regelmäßig wiederholt werden soll und weder dem Stockholmer Nobelpreiskomitee noch der Geschäftsleitung schmackhaft gemacht werden muss, dann mach es doch mit (irgend-)einer SQL sprechenden Datenbank.
Selbst dieses MSACCESS, das ja auch immer scherzhaft in einem Atemzug mit relationalen Datenbanksystemen genannt wird, wäre dafür ausreichend.
(Beispiel-)Vorgehen mit Access 2003:
1. Menü "Datei"->"Externe Daten"->"Importieren"->
->(als Importformat auswählen) "Textdateien" ->Deine Rohdatendatei mit Dubletten angeben;
als Trennzeichen "Leerzeichen" angeben
2. Daraufhin wird automatisch eine Tabelle "Rohdatendatei" angelegt mit der Struktur "ID", "Feld1"
3. Damit machst du eine Billigst-Abfrage
SELECT distinct Rohdatendatei.Feld1
FROM Rohdatendatei;
4. Als letzten Schritt kann Du diese Abfrage über Menüpunkt "Datei" ->"Exportieren" wieder als Text-Datei rausschreiben.
Das war's... die Wartezeit nicht mitgerechnet hast Du circa 2 Minuten zu tun für ein paar Mausklicks, ein paar Mal "Enter" drücken und das Eintippen des Select-Statements.
Würde ich bei dieser Aufgabenstellung genauso stumpf, unelegant und stressarm erledigen.
Gruß
Biber