meckatzermichel
Goto Top

doppelte einträge aus textdatei entfernen mittels batch

hallo,

ich habe ein txt-file welches ich mittels einer for-schleife aus einem logfile nach suchkriterien extrahiere (ich poste das batchfile mal weiter unten).

leider stehen im logfile einträge doppelt drin. ich möchte aber jede zeile nur einmal haben.
sieht ungefähr so aus:
9:48:57 user1
9:48:57 user1
9:50:30 user4
9:50:30 user4

gibt es eine möglichkeit doppelte zeilen zu entfernen? evtl. schon im ersten batchfile ?

gruss
meckatzermichel

hier meine batch:
FOR /f "tokens=1,3,4,5" %%f IN (lmgrd.log) DO call :ausgabe %%f %%g %%h %%i
goto :eof

:ausgabe
if "%~2"=="DENIED:" echo %~2 %~3 %~1 %~4 >> logfileneu.txt

Content-ID: 24446

Url: https://administrator.de/contentid/24446

Ausgedruckt am: 26.11.2024 um 15:11 Uhr

Biber
Biber 25.01.2006 um 13:03:33 Uhr
Goto Top
Moin meckatzermichel,

wenn ich Dich richtig verstehe, redest Du von Tages-Logfiles (im Logfile scheint ja nur die Zeitangabe zu stehen?) Ich kann Deine 4 Parameter schwer interpretiern, weil ich nur zwei sehe in dem Beispiel.
Egal, sinngemäß so:
::~~~~~~~
@echo off & setlocal
FOR /f "tokens=1,3,4,5" %%f IN (lmgrd.log) DO call :ausgabe %%f %%g %%h %%i
goto :eof

:ausgabe
goto :eof
:.~~~~~~~~

...wobei das "find "%~3 %~1 %~4" ... die suche nach den "doppelten" Werten sein soll.
Ich habe mal im Beispiel den Parameter %~2 weggelassen; der soll mal die Uhrzeit sein.

Hoffe, ich habe Dein Problem richtig verstanden, sonst mach btte noch mal den Zustand der Ausgangs-Logdatei deutlicher.

HTH Biber
meckatzermichel
meckatzermichel 25.01.2006 um 13:30:16 Uhr
Goto Top
hi biber,

ja es handelt sich um tageslogs.
sorry, dass ich nicht alles von der ausgangsdatei gepostet habe. die sieht ungefähr so aus:

schnipp-------------------------------------------


6:03:08 blablabla
6:03:08 blablabla
9:46:45 (irgendwas) OUT: "programm" user5
9:47:26 (irgendwas) OUT: "programm" user1
9:48:57 (irgendwas) DENIED: "programm" user2
9:48:57 (irgendwas) DENIED: "programm" user2
9:50:30 (irgendwas) DENIED: "programm" user8
9:50:30 (irgendwas) DENIED: "programm" user8
schnapp--------------------------------

hieraus brauch ich nur die zeilen mit DENIED. (und zwar die felder 1,3,4,5). hiervon aber nur imer eine (also keine doppelten).
das ergebnis soll dann so aussehen:

DENIED: programm 9:48:57 user2
DENIED: programm 9:50:30 user8

ich hab mal den code schnippsel mal probiert, aber der tut nicht bei mir.
fehlermeldung:
"6:03:08" ist syntaktisch an dieser Stelle nicht verarbeitbar.

gruss
meckatzermichel

Biber
Biber 25.01.2006 um 16:01:25 Uhr
Goto Top
So, meckatzermichel,
langsam wird das Bild klarer - und der Batch greifbarer.
Wenn Du nur die Zeilen mit dem Text "DENIED" brauchst und nicht gerade Hunderttausende solche Zeilen in der Logdatei lmgrd.log sind, dann würde ich schon in der FOR/F-Anweisung oben eine "gefilterte" Daten(zeilen)menge erzeugen:

FOR /f "skip=2 tokens=1,3,4,5" %%f IN ('find "DENIED" lmgrd.log') DO ....

Einfach vorher testen: Von einer realistischen lmgrd.log mal vom CMD-Prompt aus ein
find "DENIED" lmgrd.log >DENIEDlines.txt
machen und danach die Größe der Datei prüfen.
Wenn deutlich kleiner als 1 MByte ->brauchst du keine Zwischendatei, sondern die oben abgebildete Find-in-Häkchen-Variante.
Wenn deutlich größer als 2 MByte--> dann als Zeile VOR die FOR /F-Schleife:
find "DENIED" lmgrd.log >%temp%\DENIEDlines.txt
FOR /f "tokens=1,3,4,5" %%f IN (%temp%\DENIEDlines.txt) DO call :ausgabe %%f %%g %%h %%i
goto :eof
so, unten in der "Sub-Routine" :ausgabe kommen 4 Parameter an
1= 9:50:30 Zeit
2= DENIED: -------->den haben alle Sätze
3= "programm"
4= UserN
und das soll in eine neue Logdatei namens logfileneu,txt in der Form/Reihenfolge 2.3,1,4, also
DENIED: "programm" 9.50:30 UserN
Also suchen wir doch vor dem Schreiben in die Logdatei nach diesem String.


So, all in all können wir Deinen Bätch also ein bisschen vereinfachen:

::~~~~~~~
@echo off & setlocal
find "DENIED" lmgrd.log >%temp%\DENIEDlines.txt
FOR /f "tokens=1,3,4,5" %%f IN (%temp%\DENIEDlines.txt) DO call :ausgabe %%g %%h %%f %%i
goto :eof

:ausgabe
:: frei übersetzt: FINDE die Zeile "...." ODER schreibe sie neu.
goto :eof
:.~~~~~~~~

HTH Biber
meckatzermichel
meckatzermichel 25.01.2006 um 16:58:10 Uhr
Goto Top
hi biber,

vielen dank. jetzt hab ich es einigermassen kapiert. da muss ich dir ja mal ein bier ausgeben ....
ich mach das mit einem impliziten find ohne zwischendatei (log ist nicht so gross)

mein output sieht jetzt so aus:

DENIED: "programm" 9:48:57 user1
DENIED: "programm" 9:50:30 user5
DENIED: "programm" 9:50:57 user3
DENIED: "programm" 9:51:12 user2
DENIED: "programm" 9:51:52 user4
DENIED: "programm" 9:52:57 user1

das einzige was nun wirklich noch stört sind die striche -------- am anfang der datei
warum sind die überhaupt drin ? kommen die vom find ?

gruss
meckatzermichel
Biber
Biber 25.01.2006 um 17:14:33 Uhr
Goto Top
Uuups, ja, meckatzermichel,
die Striche kommen vom find.
Abhilfe (hab ich im letzten Kommentar unten vergessen):
Vor das Wort "Tokens=.." noch ein "skip=2".

Oben im Posting stehts noch:
FOR /f "skip=2 tokens=1,3,4,5" %%f IN ('find "DENIED" lmgrd.log') DO ....

Denn der Output von Find.... na, probiers selbst am CMD-Prompt...

Über das Thema "Gemeinsam Bierchen trinken" können wir gerne reden.... face-wink

Biber, der Becks-Trinker aus Bremen
[Edit]
guck mal hier: www.meckatzer.de
Hey, da hab ich ja eine gute Quelle aufgetan.. face-wink
leider wird das immer teurer, so dass ich jetzt auf mönchshof lager umsteig
Na ja, ich brauch ohnehin nur zwei Becks für einen Vollrausch..
...also bekommen wir das mit Meckatzer Löwenbräu auch noch finanziell hin..
Vorher zu klären wäre nur noch:
Du bist doch aber kein FC-Bayern-Fan, oder?? *misstrauisch guck
[/Edit]
meckatzermichel
meckatzermichel 25.01.2006 um 17:27:12 Uhr
Goto Top
super klasse. das ist es.
vielen dank.

meckatzermichel

guck mal hier: www.meckatzer.de
leider wird das immer teurer, so dass ich jetzt auf mönchshof lager umsteig face-wink
rumpelstielzchen987
rumpelstielzchen987 11.02.2007 um 18:00:39 Uhr
Goto Top
Hallo Administratoren,
ist zwar schon etwas veraltet der thread, aber mein neuer würde ein ähnliches thema behandeln, deshalb kommts mal hier rein.

Ich habe eine datei die 200 000 000 000 email adressen enthält (nur ein beispiel!). eine pro zeile. für den unwahrscheinlichen fall, dass eine doppelt drin ist, möchte ich eine davon löschen, sodass jede nur noch einmal vorhanden ist. was hier schon steht klappt bei meiner anwendung irgendwie nicht. auch nicht, wenn ich nur einen token pro zeile habe.

bitte helft mir, ich steig bei dem da oben nicht so recht durch.

danke schön

edit:
hat sich erledigt. bin auf uniq.exe gestoßen (http://david.tribble.com/dos/uniq.exe).