Datensätze ordnen
Hallo zusammen,
da ich fast keine ahnung von programmierung habe und mich hier auch nicht durchlesen konnte. muss ich euch um einen kleinen rat, vielleicht sogar um eine lösung bitten.
also ich habe einen kunden der 8000000 Datensätze hat die total ungeordnet in eienr .txt datei abgelegt sind. diese datensätze sehen so aus! diese sollen oder können in irgend ein programm eingelesen werden zum verarbeiten, nur muss nach dem ordnen diese dateien wieder in einer .txt datei ausgegeben werden.
225356373
a2 1
a3 1
b4 2
aaa 1
22345643
fsf 1
djud 1
uzt 1
tae 2
gtw 1
kts 1
dtr 1
Man sieht, das z.b. vor der 22345643 ein leerzeichen ist, dies ist bei jedem datensatz unterschiedlich, mal ist ein leerzeichen da mal ist kein vorhanden...
dadrunter diese --> fsf djud und 1 etc. müssen nun hinter diese lange zahl angeordnet werden.
z.b. so...
225356373 a21 a31 b42 aaa1
22345643 fsf1 djud1 uzt1 tae2 etc.
es ist egal ob diese durch ein leerzeichen oder in komma getrennt werden.
es wär sehr schön von euch wenn ihr mir eine lösung vorschlagen oder schon schreiben könntet.
vielen dank schonmal
frosty
da ich fast keine ahnung von programmierung habe und mich hier auch nicht durchlesen konnte. muss ich euch um einen kleinen rat, vielleicht sogar um eine lösung bitten.
also ich habe einen kunden der 8000000 Datensätze hat die total ungeordnet in eienr .txt datei abgelegt sind. diese datensätze sehen so aus! diese sollen oder können in irgend ein programm eingelesen werden zum verarbeiten, nur muss nach dem ordnen diese dateien wieder in einer .txt datei ausgegeben werden.
225356373
a2 1
a3 1
b4 2
aaa 1
22345643
fsf 1
djud 1
uzt 1
tae 2
gtw 1
kts 1
dtr 1
Man sieht, das z.b. vor der 22345643 ein leerzeichen ist, dies ist bei jedem datensatz unterschiedlich, mal ist ein leerzeichen da mal ist kein vorhanden...
dadrunter diese --> fsf djud und 1 etc. müssen nun hinter diese lange zahl angeordnet werden.
z.b. so...
225356373 a21 a31 b42 aaa1
22345643 fsf1 djud1 uzt1 tae2 etc.
es ist egal ob diese durch ein leerzeichen oder in komma getrennt werden.
es wär sehr schön von euch wenn ihr mir eine lösung vorschlagen oder schon schreiben könntet.
vielen dank schonmal
frosty
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 70562
Url: https://administrator.de/contentid/70562
Ausgedruckt am: 26.11.2024 um 00:11 Uhr
6 Kommentare
Neuester Kommentar
Hallo xfrostx!
Unter der Annahme, dass je Datensatz eine gleich bleibende Anzahl von Zeilen (lt Deinem Beispiel etwa 8) in der Textdatei steht, könntest Du es mit folgendem VBScript versuchen:
Das gewünschte Trennzeichen kannst Du in der Zeile
festlegen.
Grüße
bastla
Unter der Annahme, dass je Datensatz eine gleich bleibende Anzahl von Zeilen (lt Deinem Beispiel etwa 8) in der Textdatei steht, könntest Du es mit folgendem VBScript versuchen:
Const Ein = "D:\Daten.txt"
Const Aus = "D:\Daten.csv"
Const Zeilen = 8
Const Delim = ","
Set fso = CreateObject("Scripting.FileSystemObject")
Set oEin = fso.OpenTextFile(Ein, 1)
set oAus = fso.OpenTextFile(Aus, 2, True)
Do While Not oEin.AtEndOfStream
sZeile = Trim(oEin.ReadLine)
For i = 1 To Zeilen - 1
If Not oEin.AtEndOfStream Then
sZeile = sZeile & Delim & Replace(oEin.ReadLine, " ", "")
End If
Next
oAus.WriteLine sZeile
Loop
oEin.Close
oAus.Close
WScript.Echo "Fertig."
Const Delim = ","
Grüße
bastla
Moin xfrostx,
ich weiß ja nicht, ob Du vorhast ein Feedback zu liefern - viele machen das ja von sich aus.
Da ich auch Dir ja nur die besten Absichten unterstelle, lass mich doch gleich nochmal nachfragen:
Du erwähntest, dass Du zwar schon mindestens einen Kunden hast, aber keinen Plan, wie Du diese mäßig strukturierten Daten ordnen willst.
Bei 8 Millionen Datensätzen hast Du doch aber vermutlich wenigstens eine ungefähre Vorstellung, wo Du damit hinwillst...
Diese Rumsortiererei in eine Zeile pro "Datensatz" ist ja schon ganz rührend und schadet ja auch bestimmt nichts, aber wenn Dein gepostetes Beispielfragment halbwegs lebensnah ist, dann steht doch nach der identifizierenden Nummer auch Zeugs, das doch wohl auch Äpfel und Birnen beschreibt. Und so kaum in Datenbankfelder eingelesen werden kann.
So wie gepostet macht jedenfalls der ganze Aufwand keinen Sinn - magst Du nicht lieber den ganzen Sachverhalt schildern und Deinen Plan, damit umzugehen?
Denn die Übertragbarkeit einer auf die obige Beschreibung zusammengeharkten Skriptlösung auf eventuelle Probleme anderer Forumsmitglieder sehe ich bis jetzt eher gering.
Grüße
Biber
ich weiß ja nicht, ob Du vorhast ein Feedback zu liefern - viele machen das ja von sich aus.
Da ich auch Dir ja nur die besten Absichten unterstelle, lass mich doch gleich nochmal nachfragen:
Du erwähntest, dass Du zwar schon mindestens einen Kunden hast, aber keinen Plan, wie Du diese mäßig strukturierten Daten ordnen willst.
Bei 8 Millionen Datensätzen hast Du doch aber vermutlich wenigstens eine ungefähre Vorstellung, wo Du damit hinwillst...
Diese Rumsortiererei in eine Zeile pro "Datensatz" ist ja schon ganz rührend und schadet ja auch bestimmt nichts, aber wenn Dein gepostetes Beispielfragment halbwegs lebensnah ist, dann steht doch nach der identifizierenden Nummer auch Zeugs, das doch wohl auch Äpfel und Birnen beschreibt. Und so kaum in Datenbankfelder eingelesen werden kann.
So wie gepostet macht jedenfalls der ganze Aufwand keinen Sinn - magst Du nicht lieber den ganzen Sachverhalt schildern und Deinen Plan, damit umzugehen?
Denn die Übertragbarkeit einer auf die obige Beschreibung zusammengeharkten Skriptlösung auf eventuelle Probleme anderer Forumsmitglieder sehe ich bis jetzt eher gering.
Grüße
Biber
Hast du keinen fixen Delemiter den man nehmen kann um zu erkennen wann der eine Datensatz aufhört udn der andere anfängt? Normalerweise wird das doch gemacht. Also ein <CR> oder ein <CRLF>
Wenn da keiner ist fällt mir kein Weg ein auch nur ansatzweise eine sichere Lösung zu finden die sauber die Datensätze trennt.
Gruß
Sven
Wenn da keiner ist fällt mir kein Weg ein auch nur ansatzweise eine sichere Lösung zu finden die sauber die Datensätze trennt.
Gruß
Sven
Moin Sven,
der nächstschlechtere Plan wäre dann der Versuch der Identifizierung der Pseudo-IDs ( oben im Bsp "22345643" oder so ähnlich) - wenn das die einzigen Zeilen sind, die nur aus Ziffern (und trailing blanks) bestehen.
Nichtsdestotrotz - ich sehe dennoch noch nichts, was ich einem potentiellen Kunden gegenüber auch nur scherzhaft als Konzept verkaufen könnte.
Erstmal alle Datensätze in eine Zeile zu bringen und dann mal sehen... wenn das der ganze Plan für 8 Mio Datensätze ist, dann warte ich lieber auf Plan B.
Grüße
Biber
der nächstschlechtere Plan wäre dann der Versuch der Identifizierung der Pseudo-IDs ( oben im Bsp "22345643" oder so ähnlich) - wenn das die einzigen Zeilen sind, die nur aus Ziffern (und trailing blanks) bestehen.
Nichtsdestotrotz - ich sehe dennoch noch nichts, was ich einem potentiellen Kunden gegenüber auch nur scherzhaft als Konzept verkaufen könnte.
Erstmal alle Datensätze in eine Zeile zu bringen und dann mal sehen... wenn das der ganze Plan für 8 Mio Datensätze ist, dann warte ich lieber auf Plan B.
Grüße
Biber
Hi Biber,
die Idee kam mir auch schon aber sicher ist dies nicht wenn in der Folgezeile auch auf Einmal was mit einer Zahl beginnt.
Dieses nur nach Zahlen schauen kann sehr in die Hose gehen und ist wie gesagt sehr ungenau meines erachtens. Ich weiß nicht wie du dadrüber denkst.
Man müßte mal einen Teil der Datei im Original sehen dann kann man sich da besser Gedanken drüber machen, da ich schon oft erlebt habe das Poster nicht alle Dateiinformationen gepostet haben oder diese nicht sehen konnten weil sie nicht mit UltraEdit32 oder ähnlichen Tools gearbeitet haben.
Gruß
Sven
die Idee kam mir auch schon aber sicher ist dies nicht wenn in der Folgezeile auch auf Einmal was mit einer Zahl beginnt.
Dieses nur nach Zahlen schauen kann sehr in die Hose gehen und ist wie gesagt sehr ungenau meines erachtens. Ich weiß nicht wie du dadrüber denkst.
Man müßte mal einen Teil der Datei im Original sehen dann kann man sich da besser Gedanken drüber machen, da ich schon oft erlebt habe das Poster nicht alle Dateiinformationen gepostet haben oder diese nicht sehen konnten weil sie nicht mit UltraEdit32 oder ähnlichen Tools gearbeitet haben.
Gruß
Sven