jorquito
Goto Top

Eignet sich sed für Extraktion von Zeichenketten

Hab hier mal unter Batch und Shell gepostet. Antworten auf meine Fragen mit konkretem Fall sollen mir grundsätzlich zeigen, was ich mit den Werkzeugen erreichen kann und was nicht.

Datei t3.txt:
Der Hase läuft immer dann "davon", wenn ich "ihn" rufe.


1.) Das "davon" will ich mit sed+regexp augeben. Ich weiß nur dass meine Zielmenge in "" eingeschlossen ist.
2.) Ich möchte alle in "" eingeschlossenen Worte ausgeben.
3.) Ich möchte das nte Wort ausgeben, dass in "" eingeschlossen ist.
4.) Ich möchte alles ausgeben, was nicht in "" eingeschlossen ist.
5.) Grundsätzlich: Kann ich mit sed und regexp Dinge tun, für die man unter C die Stringfunktionen aus der C-Library nutzen würde.

Bei 1 bis 4 wäre ich dankbar für Lösungen, die einfach gehalten sind.

Jorquito

P.S. Nutze zum Lernen UnxUtils / Windows.

Content-Key: 179865

Url: https://administrator.de/contentid/179865

Printed on: April 19, 2024 at 12:04 o'clock

Member: Lochkartenstanzer
Lochkartenstanzer Feb 01, 2012 at 10:08:31 (UTC)
Goto Top
Zum Anfüttern:

echo "Der Hase läuft immer dann \"davon\", wenn ich \"ihn\" rufe." | grep  "\".*\"" -o 

Und hier ein kleines Tutorial zum Einstieg:

http://www.grymoire.com/Unix/Sed.html

lks
Member: Jorquito
Jorquito Feb 01, 2012 at 10:27:22 (UTC)
Goto Top
Das führt bei mir zu Fehlermeldungen, auch nach Umstellung und Anpassungen.
-o kennt mein grep nicht.
Tutorials hab ich in den letzten 2 Tagen eine Menge studiert und vieles ausprobiert.
Hab es auch schon geschafft Teilstrings auszugeben, aber alles mehr Zufall, also ohne dass ich wusste, warum.
Member: Lochkartenstanzer
Lochkartenstanzer Feb 01, 2012 at 10:52:22 (UTC)
Goto Top
Zitat von @Jorquito:
Das führt bei mir zu Fehlermeldungen, auch nach Umstellung und Anpassungen.
-o kennt mein grep nicht.

Kann sein. Ich habe grep unter linux benutzt (die GNU-version). Due könntest mal cygwin (http:www.cygwin.com) versuchen, wenn Du eine unix-Umgebung unter Windows haben willst.

Tutorials hab ich in den letzten 2 Tagen eine Menge studiert und vieles ausprobiert.
Hab es auch schon geschafft Teilstrings auszugeben, aber alles mehr Zufall, also ohne dass ich wusste, warum.

Dann als nächster Tip:

echo "Der Hase läuft immer dann \"davon\", wenn ich \"ihn\" rufe." | gawk -F "\"" ' { print $2" "$4" "$6" "$8" "$10 } ' 
Member: Jorquito
Jorquito Feb 01, 2012 at 11:02:27 (UTC)
Goto Top
Mich interessiert nur sed "s///"
Ich brauch Lösungen. Keine neuen Aufgaben von hoher Warte.
Bitte nochmal Frage anschauen.
Member: bastla
bastla Feb 01, 2012 at 11:08:12 (UTC)
Goto Top
@lks
Nur als Anmerkung: Das Einschließen einer Ausgabe in Anführungszeichen ist bei einer echo-Ausgabe grundsätzlich nicht erforderlich - es sollte daher für Dein Beispiel
echo Der Hase läuft immer dann "davon", wenn ich "ihn" rufe.| grep  "\".*\"" -o
genügen ...

Falls doch einmal "Anführungszeichen unter Anführungszeichen" benötigt werden, sind erstere zu verdoppeln ...

Grüße
bastla
Member: Lochkartenstanzer
Lochkartenstanzer Feb 01, 2012 at 11:32:23 (UTC)
Goto Top
Zitat von @bastla:
@lks
Nur als Anmerkung: Das Einschließen einer Ausgabe in Anführungszeichen ist bei einer echo-Ausgabe
grundsätzlich nicht erforderlich - es sollte daher für Dein Beispiel
echo Der Hase läuft immer dann "davon", wenn ich "ihn" rufe.| grep 
> "\".*\"" -o
> 
genügen ...

Nein, reicht nicht. Dann werden die Anführungszeichen von der shell interpretiert und nicht zum Echo durchgereicht. Den backslash braucht man auf jeden Fall. Die am Anfang und ende könnt eman weglassen, mache ich aber aus Gewohnheit dazu.
Member: Lochkartenstanzer
Lochkartenstanzer Feb 01, 2012 at 11:37:51 (UTC)
Goto Top
Zitat von @Jorquito:
Mich interessiert nur sed "s///"
Ich brauch Lösungen. Keine neuen Aufgaben von hoher Warte.
Bitte nochmal Frage anschauen.


Nagut. Ich dachte du wilst lernen. Hier dann mal wie man das erste Wort in Anführungszeichen ausgibt:

echo "Der Hase läuft immer dann \"davon\", wenn ich \"ihn\" rufe." | sed -e "s:[^\"]*\"::1 ; s:\".*::1"

Für die n-te Zeichenkette kann man das dann so gestalten, daß man entweder [^\"]* und \" in etsprechernder Anzahl hinschreibt, oder durch passende Klammerung den regulären Ausdruck anpaßt.

Hiflt Dir das wenigstens weiter?

lks
Member: bastla
bastla Feb 01, 2012 at 12:57:31 (UTC)
Goto Top
@lks
Dann werden die Anführungszeichen von der shell interpretiert und nicht zum Echo durchgereicht.
In diesem Fall wären sie zu verdoppeln ...

Grüße
bastla
Member: Jorquito
Jorquito Feb 01, 2012 at 14:19:28 (UTC)
Goto Top
Zitat von @Lochkartenstanzer:
Nagut. Ich dachte du wilst lernen.

Erst mal danke. Ich will es ja auch lernen, doch nach diesen 2 Tagen war ich einer Endlosschleife.
Beim Lernen allein aus Büchern bleiben in meinem Fall doch immer einige Fragen offen.

> echo "Der Hase läuft immer dann \"davon\", wenn ich \"ihn\" rufe." | sed -e
> "s:[^\"]*\"::1 ; s:\".*::1"
> 

Funktioniert. Das erste Statement, da war ich schon mal. Doch mein Irrtum war,
alles in einem s/// unterbringen zu wollen.

Fragen 2-4 versuch ich dann mal alleine.

Dein Codebeispiel, erster Teil, wie spricht man das? Etwa so:

Ersetze bei deiner Suche alles bis zum " mit nichts, und merke es dir in Puffer 1

Hiflt Dir das wenigstens weiter?
Ja.

Jorquito
Member: Lochkartenstanzer
Lochkartenstanzer Feb 03, 2012 at 14:22:52 (UTC)
Goto Top
Zitat von @Jorquito:
> Zitat von @Lochkartenstanzer:
> Nagut. Ich dachte du wilst lernen.

Erst mal danke. Ich will es ja auch lernen, doch nach diesen 2 Tagen war ich einer Endlosschleife.
Beim Lernen allein aus Büchern bleiben in meinem Fall doch immer einige Fragen offen.

>
> > echo "Der Hase läuft immer dann \"davon\", wenn ich \"ihn\" rufe." | sed -e
> > "s:[^\"]*\"::1 ; s:\".*::1"
> > 

Funktioniert. Das erste Statement, da war ich schon mal. Doch mein Irrtum war,
alles in einem s/// unterbringen zu wollen.

Fragen 2-4 versuch ich dann mal alleine.

Bist Du weitergekommen oder brauchst Du noch Hilfe?


Dein Codebeispiel, erster Teil, wie spricht man das? Etwa so:

Ersetze bei deiner Suche alles bis zum " mit nichts, und merke es dir in Puffer 1


Lösche zuerst alles bis zum ersten Doppelapostroph und dann lösche alles nach dem nächsten Doppelapostroph.

lks
Member: Lochkartenstanzer
Lochkartenstanzer Feb 03, 2012 at 14:25:37 (UTC)
Goto Top
Zitat von @bastla:
@lks
> Dann werden die Anführungszeichen von der shell interpretiert und nicht zum Echo durchgereicht.
In diesem Fall wären sie zu verdoppeln ...

Das ist abhängig von der Shell. Bei der bash, mit der ich vorwiegend (auch inter Windows) arbeite, hilft Verdopplung nichts. das muß man "escapen".

lks
Member: bastla
bastla Feb 03, 2012 at 14:51:52 (UTC)
Goto Top
@lks
Bei der bash ...
Kein Einwand - meine Anmerkungen bezogen sich nur auf CMD ...

Grüße
bastla
Member: Jorquito
Jorquito Feb 03, 2012 at 16:22:44 (UTC)
Goto Top
Sed erinnert mich an getc(char) und iostream.

Wenn ich damit (zeitlich) weitergemacht habe, meldet ich mich wieder.

Gruß, Jorquito
Member: Jorquito
Jorquito Feb 07, 2012 at 09:12:57 (UTC)
Goto Top
"Bist Du weitergekommen oder brauchst Du noch Hilfe?"

Hallo mal wieder,

ich komm nicht weiter. Vermute, dass ich eine Script-Alternative zur C-Library nicht erhalten werde. Beim Ersetzen scheint sed+regexp ganz brauchbar zu sein, aber beim Suchen, Extrahieren, Finden von Zeichenketten auch mit Positionsrückgabe und dergleichen mehr, wird das schwierig bzw. zu komplex. Die Tags sind halt zu greedy und was vorne weg ist, ist weg. Zudem scheint es auch dann leichter zu sein, wenn man schon weiß, was in der Textdatei zu erwarten ist.

Evtl. geht es ja mit Zunahme weiterer Unix-/Shellbefehle. Ursprünglich suchte ich für Formatkonvertierungen, die zur Zeit im compilierten Zustand vorliegen, eine externe und damit leichter zu wartende Alternative. Es sind mehr "eigene" Formate, z.B. RTF in Zwischenformat, dann nach XML für Abiword unter besonderer Berücksichtigung von Zeichen- und Absatzformaten sowie nutzerdefinierten Textersetzungen. Das geht bisher schon, wird aber bei Erweiterungen immer unübersichtlicher und anfälliger für Fehler.

Ich bedanke mich für die Hilfe. Werde administrator.de weiter als Anlaufstelle benutzen. Ist doch sehr angenehm, dass hier deutsch gesprochen wird.

LG- Jörg