Tool zum Gegenprüfen 1.500 Datensätze vs 40.000 Datensätze
Schönen guten Abend Administrator-Gemeinde,
ich habe heute ein Excel-Sheet aus einer anderen Abteilung zugeschoben bekommen, in dem sich zwei Tabellen mit einmal rund 2.700 und etwa 40.000 Datensätzen befinden.
In besagtem Sheet wurden per SVERWEIS die 2.700 Daten 1:1 gegen die 40.000 geprüft und so konnten ca. 1.200 zugeordnet werden.
Etwa ~95-98% der restlichen 1.500 nicht zugeordneten Datensätze befinden sich in irgendeiner Form ebenfalls unter den 40.000 jedoch leider nicht identisch, mal ist irgendwo dazwischen ein Leerzeichen, mal ist der zu prüfende Datensatz nur ein Ausschnitt aus dem, der im Pool enthalten ist, mal ist am Ende ein Semikolon zu viel, usw..
Hier mal ein kleines Beispiel:
Wie unschwer zu erkennen ist in diesem Beispiel lediglich das Leerzeichen der Unterschied, dennoch stimmt der Datensatz zu 99% überein.
Diese 'geringen' Abweichungen sind also durchgehend in dem Dokument zu finden, jedoch leider immer in etwas anderer Konstellation.
Nun hat mir Dr. Google leider nicht wirklich weiterhelfen können, deshalb wende ich mich an euch!
Kennt jemand ein Tool / Script (gern auch gegen kleines Geld, sofern eine kostenfreie Testversion zur Verfügung steht - soweit ich mitbekommen habe steht besagte Abteilung des Öfteren vor diesem Problem) mit dem sich auch bei geringen Abweichungen automatisch eine Verknüpfung herstellen lässt, die man im Nachhinein lediglich manuell durchprüfen muss?
Technisch sollte das doch durchaus möglich sein und ich werde wohl nicht der Erste sein, der vor einem derartigen Problem steht?
Jede Adressprüfung in Onlineshops etc. macht im Endeffekt ja nichts anderes...
Lassen sich Tools wie Beyond Compare vielleicht in die Richtung drehen?
Ich bin für jeden Hinweis / Vorschlag dankbar, der mich morgen und die Abteilung in Zukunft davor bewahrt, diese 1.500 Datensätze manuell zuzuordnen..
Danke Vorab!
Beste Grüße,
Marvin
ich habe heute ein Excel-Sheet aus einer anderen Abteilung zugeschoben bekommen, in dem sich zwei Tabellen mit einmal rund 2.700 und etwa 40.000 Datensätzen befinden.
In besagtem Sheet wurden per SVERWEIS die 2.700 Daten 1:1 gegen die 40.000 geprüft und so konnten ca. 1.200 zugeordnet werden.
Etwa ~95-98% der restlichen 1.500 nicht zugeordneten Datensätze befinden sich in irgendeiner Form ebenfalls unter den 40.000 jedoch leider nicht identisch, mal ist irgendwo dazwischen ein Leerzeichen, mal ist der zu prüfende Datensatz nur ein Ausschnitt aus dem, der im Pool enthalten ist, mal ist am Ende ein Semikolon zu viel, usw..
Hier mal ein kleines Beispiel:
Zu prüfender Datensatz
* DEBT+GENODEF1NINSVWZ+69578
Datensatz aus dem "Pool"
* DEBT+GENODEF1NIN SVWZ+69578
Wie unschwer zu erkennen ist in diesem Beispiel lediglich das Leerzeichen der Unterschied, dennoch stimmt der Datensatz zu 99% überein.
Diese 'geringen' Abweichungen sind also durchgehend in dem Dokument zu finden, jedoch leider immer in etwas anderer Konstellation.
Nun hat mir Dr. Google leider nicht wirklich weiterhelfen können, deshalb wende ich mich an euch!
Kennt jemand ein Tool / Script (gern auch gegen kleines Geld, sofern eine kostenfreie Testversion zur Verfügung steht - soweit ich mitbekommen habe steht besagte Abteilung des Öfteren vor diesem Problem) mit dem sich auch bei geringen Abweichungen automatisch eine Verknüpfung herstellen lässt, die man im Nachhinein lediglich manuell durchprüfen muss?
Technisch sollte das doch durchaus möglich sein und ich werde wohl nicht der Erste sein, der vor einem derartigen Problem steht?
Jede Adressprüfung in Onlineshops etc. macht im Endeffekt ja nichts anderes...
Lassen sich Tools wie Beyond Compare vielleicht in die Richtung drehen?
Ich bin für jeden Hinweis / Vorschlag dankbar, der mich morgen und die Abteilung in Zukunft davor bewahrt, diese 1.500 Datensätze manuell zuzuordnen..
Danke Vorab!
Beste Grüße,
Marvin
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 393388
Url: https://administrator.de/contentid/393388
Ausgedruckt am: 22.11.2024 um 09:11 Uhr
8 Kommentare
Neuester Kommentar
Hallo,
ein einfacher Ansatz wäre zu jedem Datensatz eine bereinigte Version zu erstellen und diese zu vergleichen.
Alle Leerzeichen und Sonderzeichen entfernen und alles als kleinschrift.
= Identisch
Stefan
ein einfacher Ansatz wäre zu jedem Datensatz eine bereinigte Version zu erstellen und diese zu vergleichen.
Alle Leerzeichen und Sonderzeichen entfernen und alles als kleinschrift.
DEBT+GENODEF1NINSVWZ+69578 - > debtgenodef1ninsvwz69578
DEBT+GENODEF1NIN SVWZ+69578 - > debtgenodef1ninsvwz69578
= Identisch
Stefan
Moin,
Nicht ganz trivial...
Habe auf die Schnelle bei Google nichts gefunden (außer ähnliche Probleme), aber via VBA musst du es „nur“ hinbekommen, eine Art prozentualen Vergleich durchzuführen: wenn z.B. 98% des Strings übereinstimmen, gilt er als „Treffer“.
Du müsstest hier mal explizit nach suchen. Am besten in Englisch, das erhöht die Erfolgschance.
Ansonsten: die Quelle bereits bereinigen (lassen), aber das haben meine Vorredner ja schon bekundet.
Gruß
em-pie
Nicht ganz trivial...
Habe auf die Schnelle bei Google nichts gefunden (außer ähnliche Probleme), aber via VBA musst du es „nur“ hinbekommen, eine Art prozentualen Vergleich durchzuführen: wenn z.B. 98% des Strings übereinstimmen, gilt er als „Treffer“.
Du müsstest hier mal explizit nach suchen. Am besten in Englisch, das erhöht die Erfolgschance.
Ansonsten: die Quelle bereits bereinigen (lassen), aber das haben meine Vorredner ja schon bekundet.
Gruß
em-pie
Das nennt sich Levenshtein Distanz
Wenn du hier nach dem Stichwort suchst findest du z.B. das hier
Werte vergleichen die nicht 100 Prozent gleich sind
Wenn du hier nach dem Stichwort suchst findest du z.B. das hier
Werte vergleichen die nicht 100 Prozent gleich sind
Grundsätzlich ist der Vergleich nicht identischer Zeichenketten auf Ähnlichkeiten immer komplex bzw. mühsam. Mal abgesehen von der verwendeten Methode würde ich die Daten in eine SQL DB packen, das ist mit sicherheit schneller und bietet mehr Möglichkeiten Datensätze zu verknüpfen. Allerdings macht das vermutlich nur Sinn wenn du schon über SQL Kenntnisse verfügst.
Servus @Rekario ,
falls du es noch brauchst, hier für dich mal als Beispiel fix und fertig in Excel VBA da du ja sowieso schon damit hantierst:
find_near_matching_entries_393388.xlsm
Grüße Uwe
falls du es noch brauchst, hier für dich mal als Beispiel fix und fertig in Excel VBA da du ja sowieso schon damit hantierst:
find_near_matching_entries_393388.xlsm
Grüße Uwe