Kann man das Filtern von Duplikaten in großen Textdateien mit einer Batchdatei lösen?

Mitglied: SebastianJu

SebastianJu (Level 1) - Jetzt verbinden

15.04.2010, aktualisiert 16.04.2010, 2697 Aufrufe, 2 Kommentare

Hallo,

ich weiß nicht ob man das mit einer Batchdatei lösen könnte deshalb frage ich hier mal. Ansonsten müsste ich mir überlegen wie ich das per PHP machen könnte.

Ich habe einmal eine Textdatei mit Domainnamen. Also domain1.com usw. Jede Zeile eine neue domain. Ohne Subdomains. 21383 Domains um genau zu sein.

Dann habe ich eine Reihe von anderen Textdateien bei denen die Domainnamen aus der ersten Datei in der URL vorkommen. ZB http://ichbineinedomain.de/?test=http://www.domain1.com

Die domains aus der ersten Datei können dabei irgendwo in den URLs vorkommen.

Diese URLs sind in 7 verschiedenen Dateien. Jede enthält knapp 1Mio URLs. Es werden auch einige doppelt sein aber ich weiß nicht wie ich die entdoppeln könnte. Ich habe versucht das mit Notepad++ zu machen aber der gibt auf mangels RAM.

Aber das sollte auch kein so großes Problem sein denn die URLs werden am Ende ohnehin weniger sein. Denn die Domains aus der ersten Datei sollen in allen URLs aus den anderen Dateien ersetzt werden. Durch einen Platzhalter. ZB [URL]

Und dadurch würden viele der URLs plötzlich doppelt sein da ja die Domains ersetzt wurden.

Wenn das Ganze danach gefiltert würde so dass nur noch eine gleiche URL übrigbleibt dann wären es nicht mehr viele.

Jetzt die Frage ob man dieses ersetzen der Domains mit [URL] in den URLs mit einer Batch machen kann. Denn es müsste ja eigentlich schon fast ein regulärer Ausdruck benutzt werden damit nicht zB in der URL http://ichbineinedomain.de/?test=http://www.domain1.com auf die Domain n1.com getestet würde und dann die URL kaputtgemacht wird.

Also müsste irgendein Ausdruck wie [^0-9a-zA-Z-][0-9a-zA-Z-]*\.[a-zA-Z]* benutzt werden. Wobei ich grad nicht weiß wie man festlegen könnte dass die Domain nach der tld enden können oder aber auch ein Nichtbuchstabe kommen kann. Damit sollten die Domains korrekt ausgefüllt werden.

Geht sowas? Wenn ja mit welchen Funktionen? Tips?
Kommentar vom Moderator Biber am 16.04.2010 um 18:04:57 Uhr
Titel "Kann man das Problem mit einer Batchdatei lösen?" ersetzt.
Mitglied: SebastianJu
16.04.2010 um 04:56 Uhr
Ich wollte jetzt erstmal versuchen die ganzen Dateien zusammenzufassen und doppelte Zeilen zu entfernen. Dazu habe ich diesen Code benutzt:

Allerdings hat das einige Fehlermeldungen hervorgerufen. Ich glaube aus irgendeinem Grund versucht der die URLs als Befehle zu interpretieren. Zumindest hat er mit dem Zeichen & in den URLs Probleme. Die URL ist da abgeschnitten und er meint irgendwelche Befehle nicht zu erkennen. Ich dachte er liest und schreibt nur Strings?
Aber was ich auch noch gemerkt habe ist dass das Ganze sehr langsam ist. Liegt das nur an der Statusausgabe? Wenn nein dann ist das ja tausendmal langsamer als Notepad++ wäre. Und ich frage mich ob das Ganze überhaupt in einem überschaubaren Zeitrahmen ein Ende finden würde. Schließlich sind es einige Millionen URLs und die DateiNeu war ja noch klein. Das Ganze würde also später noch langsamer werden.
Bitte warten ..
Mitglied: pieh-ejdsch
29.05.2010 um 00:40 Uhr
Hallo Sebastian,

wenn in den Dateien mit der URL vor dem Gleichheitszeichen und folgender Domain kein weiteres = enthalten ist
und wenn die Domain vorher einen Punkt hat sollte es so gehen.

in der Subroutine :URL wird nur solange nach der Domain gesucht bis sie gefunden wird, anschliesend angezeigt und sofort aus der Subroutine :URL gegangen (es wäre sinnlos noch weiter nach dieser Domain zu suchen wenn diese schon einmal gefunden worden ist.)
wenns nicht gefunden wird erfolgt auch kein Eintrag.

DomainFile sowie URLFiles bitte noch anpassen. Achtung! Die Anführungszeichen Beim SET pro Datei Drummachen und gesamt auch.

Gruß Phil
Bitte warten ..
Heiß diskutierte Inhalte
Router & Routing
Lancom Router Site to Site Problem mit Außenstellen
gelöst mossoxFrageRouter & Routing26 Kommentare

Guten Tag zusammen, in der Hauptgeschäftsstelle nutzen wir einen Lancom 1781VA Router und haben i.d.R. zwei gleichzeitige IPSec Site ...

Netzwerke
Sporadische Ausfälle im gesamten Heimnetz
gelöst bilbo-dvdFrageNetzwerke23 Kommentare

Guten Morgen, ich habe einen Kabelanschluss bei Vodafone und mein Tarif wurde im März auf CableMax 1000 umgestellt. Ich ...

Apache Server
Wer installiert mir Jitsi-meet mit Stun- Turn-Server und wartet dies?
gelöst default-userFrageApache Server20 Kommentare

Nachdem ich mit der Audio- und Videoqualität der meisten angebotenen Videokonferenz-Lösungen nicht zufrieden bin, möchte ich einen eigenen Jitsi-meet-Server ...

Sicherheit
Sicherheit oder bessere Benutzbarkeit?
gelöst StefanKittelFrageSicherheit19 Kommentare

Hallo, ich habe eine Webanwendung programmiert und sehe mich nun mit einer Frage zur Benutzbarkeit konfrontiert. Bei der Anmeldung ...

Router & Routing
RDP nur im internen Netz möglich nicht aber per vpn?
einfach112FrageRouter & Routing18 Kommentare

Hallo zusammen. Beim Kunden habe ich einen Server mit VMWARE laufen. Darauf ein Windows Server 2016 Essentials als VM ...

Internet
Über meinen WAN ist lidl.de nicht ereichbar
gelöst NetGodFrageInternet16 Kommentare

Hallo zusammen, mit meinem DTAG-Anschluß ist derzeit kein Durchkommen zu www.lidl.de möglich. Zu den selben Zeitpunkten ist es aber ...

Ähnliche Inhalte
Vmware
Veeam Recovery - Server Duplikat
inspiratioFrageVmware5 Kommentare

Hallo zusammen, ich möchte ein aktuellen Dublikat (durch rücksichern) eines Server 2008 R2 erstellen. Besteht die Gefahr beim Veeam ...

Webbrowser
Was ist mit Firefox los?
gelöst honeybeeFrageWebbrowser2 Kommentare

Hallo, jedes Mal, wenn ich Firefox starte, meckert der Kaspersky ständig mit dieser u. g. Meldung Ich hatte keine ...

Humor (lol)
Wenn hacken nach hinten los geht
em-pieInformationHumor (lol)5 Kommentare

Moin, weil heute Freitag ist, nachfolgender kurzer Artikel zum schmunzeln:) l+f: NULL ist ein notorischer Falschparker

Monitoring
Was ist los in meinem Netzwerk
AkcentFrageMonitoring17 Kommentare

Hallo, hin und wieder stockt bei mir das Netzwerk und ich habe keine Erklärung dazu. Wie geht Ihr in ...

HTML
IF + Textdatei
gelöst IleiesFrageHTML2 Kommentare

Wie kann ich in HTML ein Eingabefeld erstellen (<input>), von dem der Inhalt mit dem Inhalt einer Textdatei auf ...

Windows 10
Aufgabenplanung und Batchdatei
gelöst supertuxFrageWindows 105 Kommentare

Hallo zusammen, ich habe mir eine Batch erstellt, diese setzt bestimmt User-Einstellung am PC zurück. Diese Batch habe ich ...

Neue Fragen
Administrator Magazin
11 | 2020 Virtualisierung ist aus der IT nicht mehr wegzudenken. In der November-Ausgabe des IT-Administrator Magazins dreht sich der Schwerpunkt um das Thema "Server- und Storage-Virtualisierung". Darin erfahren Sie, wie sich die Virtualisierungstechnologie entwickelt hat, welche Varianten es im Bereich Server und Speicher gibt und wie ...
Neue Beiträge
Neue Jobangebote
Server- und Storage-VirtualisierungServer- und Storage-VirtualisierungBerechtigungs- und IdentitätsmanagementBerechtigungs- und IdentitätsmanagementWebdienste und -serverWebdienste und -serverDatenbankenDatenbankenMonitoring & SupportMonitoring & SupportHybrid CloudHybrid Cloud