Saubere HTML aus Word-Dokument
Hallo,
kennt jemand eine Möglichkeit ein Word-Dokument in eine "saubere" HTML-Seite zu wandeln? Ja es gibt die Möglichkeit diese direkt in Word als .html zu speichern ... Aber Word haut alles mit "style" Attributen voll. Das sollte aber optimaler Weise alles in einer .css stehen.
Ich habe jetzt den Ansatz es zu parsen (style-Werte in die .css und Klassen erstellen), aber sobald Word etwas an ihrer Speichervariante ändert ist ja alles wieder hin ... und besonders sauber ist das auch nicht wenn da Bsp. class="klasse001", class="klasse002", ... steht.
kennt jemand eine Möglichkeit ein Word-Dokument in eine "saubere" HTML-Seite zu wandeln? Ja es gibt die Möglichkeit diese direkt in Word als .html zu speichern ... Aber Word haut alles mit "style" Attributen voll. Das sollte aber optimaler Weise alles in einer .css stehen.
Ich habe jetzt den Ansatz es zu parsen (style-Werte in die .css und Klassen erstellen), aber sobald Word etwas an ihrer Speichervariante ändert ist ja alles wieder hin ... und besonders sauber ist das auch nicht wenn da Bsp. class="klasse001", class="klasse002", ... steht.
Bitte markiere auch die Kommentare, die zur Lösung des Beitrags beigetragen haben
Content-ID: 336403
Url: https://administrator.de/forum/saubere-html-aus-word-dokument-336403.html
Ausgedruckt am: 16.02.2025 um 21:02 Uhr
19 Kommentare
Neuester Kommentar
![132895](/images/members/profile_male_48x48.png)
Auf Ideen kommen die Leute
, nee nee nee
https://www.google.de/search?q=Word+html+cleaner
Vernünftige HTML-Editoren gibt es wie Sand am Meer.
https://www.google.de/search?q=Word+html+cleaner
Vernünftige HTML-Editoren gibt es wie Sand am Meer.
Miin,
Warum nimmst Du nicht gleich einen ordentlichen HTML-Editor statt dem unpassenden Word?
Da sind ja sogar Notepad oder vi besser dafür geeignet.
lks
PS: Nur weil man ein Hammer hat muß nicht jedes Problem ein Nagel sein. Es gibt auch Schrauben![face-smile face-smile](/images/icons/fa/light/face-smile.svg)
PPS: Sag jetzt nicht, die User wollen es nicht anders. Man muß ihnen nur das richtige Werkzeug zeigen.
Edit: Typos
Warum nimmst Du nicht gleich einen ordentlichen HTML-Editor statt dem unpassenden Word?
Da sind ja sogar Notepad oder vi besser dafür geeignet.
lks
PS: Nur weil man ein Hammer hat muß nicht jedes Problem ein Nagel sein. Es gibt auch Schrauben
PPS: Sag jetzt nicht, die User wollen es nicht anders. Man muß ihnen nur das richtige Werkzeug zeigen.
Edit: Typos
Zitat von @Lochkartenstanzer:
PS: Nu weil man ein Hammer hat muß nicht jedes Problem rin Nagel sein. Es gibt auch Schrauben![face-smile face-smile](/images/icons/fa/light/face-smile.svg)
PS: Nu weil man ein Hammer hat muß nicht jedes Problem rin Nagel sein. Es gibt auch Schrauben
Wenn Du als Werkzeug nur einen Hammer hast, dann sieht jedes Problem wie ein Nagel aus!
![132895](/images/members/profile_male_48x48.png)
Aus Spaghetti machst du keinen Spargel.
Nimm einen vernünftigen Wysiwyg Editor und gut is, irgendeine krumme Umwandlung führt früher oder später doch wieder zu Problemen.
Hoffe der Freitag zieht sich nicht so lang heute![face-smile face-smile](/images/icons/fa/light/face-smile.svg)
Nimm einen vernünftigen Wysiwyg Editor und gut is, irgendeine krumme Umwandlung führt früher oder später doch wieder zu Problemen.
Hoffe der Freitag zieht sich nicht so lang heute
Hallo!
Windows und Standards ist wie Äpfel und Birnen!
Die Ursache warum der HTML-Code nach dem Speichern aus Windows Word so aussieht liegt im internen Seitenaufbau und wie Word speichert, da kannst du nicht viel ändern - nur damit leben.
Nimm einen vernünftigen Editor und gut ist.
Es soll auch Leute geben, die Word zu PDF umwandeln, PDF zu IMG umwandeln und dann einfach das Bild ins Netz stellen
dann ändert sich auch (fast) nichts an der Darstellung und es steht ganz sicher nichts mehr von irgendwelchen Klassen drin....
Schönen Freitag
Windows und Standards ist wie Äpfel und Birnen!
Die Ursache warum der HTML-Code nach dem Speichern aus Windows Word so aussieht liegt im internen Seitenaufbau und wie Word speichert, da kannst du nicht viel ändern - nur damit leben.
Nimm einen vernünftigen Editor und gut ist.
Es soll auch Leute geben, die Word zu PDF umwandeln, PDF zu IMG umwandeln und dann einfach das Bild ins Netz stellen
Schönen Freitag
![132895](/images/members/profile_male_48x48.png)
Leider bin ich es nicht der das entscheidet, nur der der es Umsetzen soll...
Ein guter Mitarbeiter zeichnet sich aber auch dadurch aus das er seinem Auftraggeber aufzeigt was zuverlässig und zukunftsträchtig ist und was nicht! Deine Arbeitszeit kostet ihn auch Geld und ob das mit dieser Aufgabe gut investiert ist, wage ich sehr zu bezweifeln.Wenn du so gut im Parsen bist, dann schreib dir halt deine eigene Routine wenn du mit Regular Expressions per Du bist.
Für mich wär das kein Problem so was zu schreiben, aber den Aufwand für so einen Müll wäre es mir nicht Wert auch nur eine Finger zu krümmen.
Hallo,
Appel und Birne sind mittlerweile gleich.![face-wink face-wink](/images/icons/fa/light/face-laugh-wink.svg)
https://www.heise.de/newsticker/meldung/Markenrechtsstreit-Apple-gewinnt ...
Schoenes WE
BFF
Windows und Standards ist wie Äpfel und Birnen!
Appel und Birne sind mittlerweile gleich.
https://www.heise.de/newsticker/meldung/Markenrechtsstreit-Apple-gewinnt ...
Schoenes WE
BFF
Tick different!
lks
Ein HTML-Editor, der noch dazu frei ist, wäre z.B. Webocton Sciptly.
Word jedenfalls würde ich nicht nehmen. Dem würde ich noch nicht mal eine normale Textdatei anvertrauen wenn ich es nicht müsste.
Merke: Word heißt "Word", weil es nur für einzelne Worte geeignet ist. Sonst hieße es "Satz" oder gar "Absatz".
Gruß
Apophis
Word jedenfalls würde ich nicht nehmen. Dem würde ich noch nicht mal eine normale Textdatei anvertrauen wenn ich es nicht müsste.
Merke: Word heißt "Word", weil es nur für einzelne Worte geeignet ist. Sonst hieße es "Satz" oder gar "Absatz".
Gruß
Apophis
Zitat von @Apophis:
Merke: Word heißt "Word", weil es nur für einzelne Worte geeignet ist. Sonst hieße es "Satz" oder gar "Absatz".
Merke: Word heißt "Word", weil es nur für einzelne Worte geeignet ist. Sonst hieße es "Satz" oder gar "Absatz".
Falsch! Sentence oder Paragraph!
lks
Hallo peterpa,
Ist es wirklich wichtig ob die "styles" im Html oder in der css stehen?
Wenn das das einzige ist, was Dich am monströsen html-Output von MS-Office stört, würde ich Dir raten das zu ignorieren, statt es mit viel Aufwand zu ändern.
Im Browser siehst Du den Unterschied nicht und "styles" im Html sind nicht unzulässig.
Mein Html-Editor heißt Notepad, nicht weil ich so cool bin und es voll drauf habe, sondern weil ich gerne nachvollziehen können möchte was ich "programmiere" und von daher generiertes Html für mich ablehne.
Wenn es Dir darum geht irgendwelche Inhalte, die mit Word erstellt werden, ins Web zu bringen, dann lass doch Word machen was es will und stell das Zeug online.
Vor wem möchtest Du denn sauber dastehen und wozu?
Auch die Google-Startseite https://www.google.de kommt nicht ohne Fehler durch den Validator.
Ich würde es auch gegrüßen, wenn alle Autoren sich an die empfohlenen Vorgaben halten würden, aber dann wäre es auch schön, die Browser täten das auch.
In Deinem Fall denke ich einfach an Aufwand und Nutzen, Kirche und Dorf,...
Ich habe gerade mal testweise
Ergebnis:
Hallo Welt.htm (444 Zeile)
Hallo Welt-Dateien\colorschememapping.xml (2 Zeilen)
Hallo Welt-Dateien\filelist.xml (6 Zeilen)
Hallo Welt-Dateien\themedata.thmx (3.082 Bytes binärer Krempel)
Wenn es jetzt noch eine css-Datei gäbe würde mich das nicht glücklicher machen.
Wenn Du ein Word-Dokument unbedingt in komplett sauberes, Html wandeln möchtest, dann geht das eigentlich nur so:
Gruß Frank
Zitat von @peterpa
Aber Word haut alles mit "style" Attributen voll. Das sollte aber optimaler Weise alles in einer .css stehen.
Aber Word haut alles mit "style" Attributen voll. Das sollte aber optimaler Weise alles in einer .css stehen.
Ist es wirklich wichtig ob die "styles" im Html oder in der css stehen?
Wenn das das einzige ist, was Dich am monströsen html-Output von MS-Office stört, würde ich Dir raten das zu ignorieren, statt es mit viel Aufwand zu ändern.
Im Browser siehst Du den Unterschied nicht und "styles" im Html sind nicht unzulässig.
Mein Html-Editor heißt Notepad, nicht weil ich so cool bin und es voll drauf habe, sondern weil ich gerne nachvollziehen können möchte was ich "programmiere" und von daher generiertes Html für mich ablehne.
Wenn es Dir darum geht irgendwelche Inhalte, die mit Word erstellt werden, ins Web zu bringen, dann lass doch Word machen was es will und stell das Zeug online.
Vor wem möchtest Du denn sauber dastehen und wozu?
Auch die Google-Startseite https://www.google.de kommt nicht ohne Fehler durch den Validator.
Ich würde es auch gegrüßen, wenn alle Autoren sich an die empfohlenen Vorgaben halten würden, aber dann wäre es auch schön, die Browser täten das auch.
In Deinem Fall denke ich einfach an Aufwand und Nutzen, Kirche und Dorf,...
Ich habe gerade mal testweise
Hallo Welt!
ins Word 2007 getippt und als html gespeichert.Ergebnis:
Hallo Welt.htm (444 Zeile)
Hallo Welt-Dateien\colorschememapping.xml (2 Zeilen)
Hallo Welt-Dateien\filelist.xml (6 Zeilen)
Hallo Welt-Dateien\themedata.thmx (3.082 Bytes binärer Krempel)
Wenn es jetzt noch eine css-Datei gäbe würde mich das nicht glücklicher machen.
Wenn Du ein Word-Dokument unbedingt in komplett sauberes, Html wandeln möchtest, dann geht das eigentlich nur so:
<a href="Datei.doc">Datei.doc</a>
Gruß Frank
Zitat von @peterpa:
Naja eine saubere css hat eben den Vorteil eventuelle spätere Änderungen am Design leichter einzupflegen...
Naja eine saubere css hat eben den Vorteil eventuelle spätere Änderungen am Design leichter einzupflegen...
Naja, wenn man zum Designen Word nimmt, macht man Designänderungen natürlich auch in Word. Man sollte nur darauf achten, mit Formatvorlagen zu arbeiten udn nciht mit dedizierten textauszeichnungen.
lks
PS. Sag deg Leuten, die sollen in word nur reinem unformattierten Text schreiben. Dann kannst Du das genz leicht in Dein Design einbinden.
Hallo,
Nicht zwingtend. Ich schreibe die Texte für meine Homepage lieber in Word und mach Copy & Paste in Visual Studio 2010 wen ich vor habe diese zu Publizieren.
Ich bin dabei ein eigenes Plugin zu schreiben was sich direkt mit der API meiner Homepage verbindet um zu publizieren aber dass ist alles noch in Arbeit. Fakt ist dass Word auch für Homepages zum erstellen von Texten verwendet werden kann und auch wird.
Also das Design in Word zu machen ist Schwachsinn (finde ich als meine persönliche Meinung) und naja da braucht man auch nicht wirklich das CSS von Word mit drinnen nur um später aus der HTML wieder eine Oreginale Word Datei zu erstellen. Weil ja genau dafür diese Stylesheets da sind.
Gruß an die IT-Welt,
J Herbrich
Nicht zwingtend. Ich schreibe die Texte für meine Homepage lieber in Word und mach Copy & Paste in Visual Studio 2010 wen ich vor habe diese zu Publizieren.
Ich bin dabei ein eigenes Plugin zu schreiben was sich direkt mit der API meiner Homepage verbindet um zu publizieren aber dass ist alles noch in Arbeit. Fakt ist dass Word auch für Homepages zum erstellen von Texten verwendet werden kann und auch wird.
Also das Design in Word zu machen ist Schwachsinn (finde ich als meine persönliche Meinung) und naja da braucht man auch nicht wirklich das CSS von Word mit drinnen nur um später aus der HTML wieder eine Oreginale Word Datei zu erstellen. Weil ja genau dafür diese Stylesheets da sind.
Gruß an die IT-Welt,
J Herbrich