Auslesen von HTML Dateien aus einem Verzeichnis und Speichern als CSV Datei
Hallo,
ich habe einen Ordner mit HTML Dateien, welche per WGET abgerufen werden.
Die Dateien haben alle den selber inhaltichen Aufbau.
interessant sind die Zeilen
ich suche ich eine Möglichkeit aus diesen "Wust"
eine Neue Datei zu erhalten
URL;btnr;Standort;Printer;Model;Socket;Status
/printers/99999_I-Test_L1;99999;99999_I-Test_L1;IDC Testraum 1;Kyocera Classic Universal (KPDL) (A4 models);socket:99.99.999.999:9100;Idle - "Ready to print."
/printers/99999_I-Test_L1;99999_I-Test_L1;Testraum 1;Kyocera Classic Universal (KPDL) (A4 models);socket:99.99.999.999:9100;Idle - "Ready to print."
Habe versucht per HTMLasText eine Datei eine TXT zu erzeugen,
leider ist diese dann noch unübersichtlicher,
auch danach mit einem Script Daten suchen zu erstezen ist mir nicht möglich ein Ergebnis zu erzeugen ( Da zeichen Wie <" ect nicht als ersetzbares Zeichen erkannt werden.
Vielleicht ist hier jemand in der Lage aus einer HTML Datei Teile auszulesen und in eine neue Datei zu schreiben.
ich habe einen Ordner mit HTML Dateien, welche per WGET abgerufen werden.
Die Dateien haben alle den selber inhaltichen Aufbau.
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<TITLE>Printers - CUPS 1.5.4</TITLE>
<LINK REL="STYLESHEET" TYPE="text/css" HREF="/cups.css">
<LINK REL="SHORTCUT ICON" HREF="/images/cups-icon.png" TYPE="image/png">
</HEAD>
<BODY>
<TABLE CLASS="page" SUMMARY="Printers">
<TR><TD CLASS="body">
<TABLE BORDER="0" CELLPADDING="0" CELLSPACING="0" SUMMARY="">
<TR HEIGHT="36">
<TD><A HREF="http://www.cups.org/" TARGET="_blank"><IMG
SRC="/images/left.gif" WIDTH="64" HEIGHT="36" BORDER="0" ALT=""></A></TD>
<TD CLASS="unsel"><A HREF="/"> Home </A></TD>
<TD CLASS="unsel"><A HREF="/admin"> Administration </A></TD>
<TD CLASS="unsel"><A HREF="/classes/"> Classes </A></TD>
<TD CLASS="unsel"><A HREF="/help/"> Online Help </A></TD>
<TD CLASS="unsel"><A HREF="/jobs/"> Jobs </A></TD>
<TD CLASS="sel"><A HREF="/printers/"> Printers </A></TD>
<TD CLASS="unsel" WIDTH="100%"><FORM ACTION="/help/" METHOD="GET"><INPUT
TYPE="SEARCH" NAME="QUERY" SIZE="20" PLACEHOLDER="Search Help"
VALUE="" AUTOSAVE="org.cups.help" RESULTS="20"></FORM></TD>
<TD><IMG SRC="/images/right.gif" WIDTH="4" HEIGHT="36" ALT=""></TD>
</TR>
<TR><TD COLSPAN="9"> </TD></TR>
</TABLE>
<FORM ACTION="/printers/" METHOD="GET">
<P ALIGN="CENTER"><B>Search in
Printers:</B>
<INPUT TYPE="SEARCH" NAME="QUERY" VALUE="" SIZE="40" PLACEHOLDER="" AUTOSAVE="org.cups.printers" RESULTS="20"> <INPUT
TYPE="SUBMIT" VALUE="Search"> <INPUT TYPE="SUBMIT" NAME="CLEAR" VALUE="Clear"></P>
</FORM>
<P ALIGN="CENTER">Showing 1-13 of 13 printers.</P>
<TABLE CLASS="list" SUMMARY="Printer List">
<THEAD>
<TR><TH><A HREF="/printers/?QUERY=&WHICH_JOBS=&FIRST={FIRST}&ORDER=dec"><SMALL>▼</SMALL> Queue Name <SMALL>▼</SMALL></A></TH><TH>Description</TH><TH>Location</TH><TH>Make and Model</TH><TH>URI</TH><TH>Status</TH></TR>
</THEAD>
<TBODY>
<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD></TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.99.999:9100</TD><TD>Idle - "Invalid printer command "Clean"."</TD></TR>
<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD>Testraum 1</TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.999.999:9100</TD><TD>Idle - "Ready to print."</TD></TR>
...
...
</TBODY>
</TABLE></DIV>
</TD></TR>
<TR><TD> </TD></TR>
<TR><TD CLASS="trailer">CUPS and the CUPS logo are trademarks of
<A HREF="http://www.apple.com">Apple Inc.</A> CUPS is copyright 2007-2012 Apple
Inc. All rights reserved.</TD></TR>
</TABLE>
</BODY>
</HTML>
interessant sind die Zeilen
<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD>IDC Testraum 1</TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.999.999:9100</TD><TD>Idle - "Ready to print."</TD></TR>
<TR><TD><A HREF="/printers/99999_I-Test_L1">99999_I-Test_L1</A></TD><TD>99999_I-Test_L1</TD><TD>Testraum 1</TD><TD>Kyocera Classic Universal (KPDL) (A4 models)</TD><TD>socket://99.99.999.999:9100</TD><TD>Idle - "Ready to print."</TD></TR>
ich suche ich eine Möglichkeit aus diesen "Wust"
eine Neue Datei zu erhalten
URL;btnr;Standort;Printer;Model;Socket;Status
/printers/99999_I-Test_L1;99999;99999_I-Test_L1;IDC Testraum 1;Kyocera Classic Universal (KPDL) (A4 models);socket:99.99.999.999:9100;Idle - "Ready to print."
/printers/99999_I-Test_L1;99999_I-Test_L1;Testraum 1;Kyocera Classic Universal (KPDL) (A4 models);socket:99.99.999.999:9100;Idle - "Ready to print."
Habe versucht per HTMLasText eine Datei eine TXT zu erzeugen,
leider ist diese dann noch unübersichtlicher,
auch danach mit einem Script Daten suchen zu erstezen ist mir nicht möglich ein Ergebnis zu erzeugen ( Da zeichen Wie <" ect nicht als ersetzbares Zeichen erkannt werden.
Vielleicht ist hier jemand in der Lage aus einer HTML Datei Teile auszulesen und in eine neue Datei zu schreiben.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 206514
Url: https://administrator.de/contentid/206514
Ausgedruckt am: 23.11.2024 um 05:11 Uhr
3 Kommentare
Neuester Kommentar