Doppelte Datensätze aus einer txt-Datei löschen
Hallo ich habe das Problem das ich eine sehr lange Textdatei,mit Datensätzen habe und diese darf keine Leerzeilen oder doppelte oder gar 3 oder 4 fach die gleichen Datensätze enthält.
Die Datei sieht ungefähr so aus:
0114008,V00016317,0811422,1,20081205,000186CC.000,888,1,269,01,861,10,850,10
0114008,V00016317,0811422,1,20081205,000186CD.000,888,1,269,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,00013292.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,000132CE.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,00013520.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,0001367E.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02569433,0576220,1,20081205,00018991.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02569433,0576220,1,20081205,00018992.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02770806,0516610,1,20081205,00019440.000,888,1,090,01,278,01,240,01
0114008,V02770806,0516610,1,20081205,0001944D.000,888,1,090,01,278,01,269,01
0114008,V03885491,0516610,1,20081205,00019443.000,888,1,090,01,278,01,269,01
0114008,V03885491,0516610,1,20081205,0001944F.000,888,1,090,01,278,01,269,01
0114008,V04212450,0516610,1,20081205,00019442.000,888,1,090,01,278,01,269,01
0114008,V04212450,0516610,1,20081205,0001944E.000,888,1,090,01,278,01,269,01
und sollte danach so aussehen:
0114008,V00016317,0811422,1,20081205,000186CC.000,888,1,269,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,00013292.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02569433,0576220,1,20081205,00018991.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02770806,0516610,1,20081205,00019440.000,888,1,090,01,278,01,240,01
0114008,V03885491,0516610,1,20081205,0001944F.000,888,1,090,01,278,01,269,01
0114008,V04212450,0516610,1,20081205,00019442.000,888,1,090,01,278,01,269,01
wichtig ist eigentlich nur falls die ersten beiden Zahlen gleich sind das dann einer von beiden Sätzen gelöscht wird.
wie kann ich das am besten automatisiert machen?
Die Datei sieht ungefähr so aus:
0114008,V00016317,0811422,1,20081205,000186CC.000,888,1,269,01,861,10,850,10
0114008,V00016317,0811422,1,20081205,000186CD.000,888,1,269,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,00013292.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,000132CE.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,00013520.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,0001367E.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02569433,0576220,1,20081205,00018991.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02569433,0576220,1,20081205,00018992.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02770806,0516610,1,20081205,00019440.000,888,1,090,01,278,01,240,01
0114008,V02770806,0516610,1,20081205,0001944D.000,888,1,090,01,278,01,269,01
0114008,V03885491,0516610,1,20081205,00019443.000,888,1,090,01,278,01,269,01
0114008,V03885491,0516610,1,20081205,0001944F.000,888,1,090,01,278,01,269,01
0114008,V04212450,0516610,1,20081205,00019442.000,888,1,090,01,278,01,269,01
0114008,V04212450,0516610,1,20081205,0001944E.000,888,1,090,01,278,01,269,01
und sollte danach so aussehen:
0114008,V00016317,0811422,1,20081205,000186CC.000,888,1,269,01,861,10,850,10
0114008,V00691087,0713420,1,20081205,00013292.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02569433,0576220,1,20081205,00018991.000,888,1,090,01,278,01,269,01,240,01,861,10,850,10
0114008,V02770806,0516610,1,20081205,00019440.000,888,1,090,01,278,01,240,01
0114008,V03885491,0516610,1,20081205,0001944F.000,888,1,090,01,278,01,269,01
0114008,V04212450,0516610,1,20081205,00019442.000,888,1,090,01,278,01,269,01
wichtig ist eigentlich nur falls die ersten beiden Zahlen gleich sind das dann einer von beiden Sätzen gelöscht wird.
wie kann ich das am besten automatisiert machen?
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 103562
Url: https://administrator.de/forum/doppelte-datensaetze-aus-einer-txt-datei-loeschen-103562.html
Ausgedruckt am: 23.12.2024 um 08:12 Uhr
6 Kommentare
Neuester Kommentar
Hallo ChrisM73!
Falls Dich das Verschwinden von Leerzeilen sowie die Tatsache, dass das Ergebnis sortiert ist, nicht stören sollten, etwa so:
Die Daten aus der ursprünglichen Datei stehen (sortiert, Leerzeilen am Anfang der Datei) als "Originaldatei.bak" weiterhin zur Verfügung (falls ein echtes Backup benötigt wird, einfach vorweg noch ein "copy" einbauen), die Ausgangsdatei wird durch die neue Fassung (ohne Duplikate) ersetzt.
Grüße
bastla
[Edit] Leerzeichen nach "/o" ergänzt. [/Edit]
Falls Dich das Verschwinden von Leerzeilen sowie die Tatsache, dass das Ergebnis sortiert ist, nicht stören sollten, etwa so:
@echo off & setlocal
set "Datei=D:\Ausgangsdatei.txt"
set "Bak=.bak"
sort "%Datei%" /o "%Datei%%Bak%"
del "%Datei%"
set Zuletzt=","
for /f "usebackq tokens=1,2* delims=," %%i in ("%Datei%%Bak%") do set "Zeile=%%i,%%j,%%k" & call :ProcessLine "%%i%%j"
goto :eof
:ProcessLine
if %1==%Zuletzt% goto :eof
set Zuletzt=%1
>>"%Datei%" echo %Zeile%
goto :eof
Grüße
bastla
[Edit] Leerzeichen nach "/o" ergänzt. [/Edit]
Hallo ChrisM73!
Du könntest die Zeile 12 ändern auf
Da in den "Zahlen" offensichtlich auch Buchstaben enthalten sein können, sorgt das "/i" dafür, dass Groß-/Kleinschreibung nicht unterschieden wird (auch, wenn das kein Problem sein sollte, schadet's nicht).
Grüße
bastla
Wenn die ersten 2 Zahlen einer Zeile bei 2 Zeilen gleich sind soll er auch eine Zeile von den beiden löschen.
Wie kann man das noch implementieren?
Eigentlich sollte das bereits so funktionieren ...Wie kann man das noch implementieren?
Du könntest die Zeile 12 ändern auf
if /i %1==%Zuletzt% goto :eof
Grüße
bastla