Hallo Liste, bin mal wieder auf der Suche nach einem kleinen Skript zur Textkonvertierung: Es sollen HTML-Dokumente eingelesen und in txt-Dateien umgewandelt werden, ohne dass Formatierungen verloren gehen. Gleichzeitig sollen vorhandene Bilder durch Links auf eben jenige ersetzt werden. Mein Ansatz wäre hier ein Shell-Skript und sed und/oder awk... Oder hat jemand so was schon auf seiner Festplatte..... Danke für Hinweise wo ich sowas finden kann, bzw. Anregungen..... Gruesse aus Berlin (z. Zt.), Uli -- GMX - Die Kommunikationsplattform im Internet. http://www.gmx.net
On Fri, 18 May 2001, Ulrich Klenk wrote:
Hallo Liste,
bin mal wieder auf der Suche nach einem kleinen Skript zur Textkonvertierung: Es sollen HTML-Dokumente eingelesen und in txt-Dateien umgewandelt werden, ohne dass Formatierungen verloren gehen.
Hallo Ulrich Wie jetzt? .txt und Formatierungen ??? CU Thorsten
Sorry, ohne dass Leerzeilen verlorengehen. Zudem wäre es nett, aus <ul><li>text</li></ul> etwas in der Form -text zu machen, also ein Minuszeichen als Auflistung zu verwenden. Jetzt machts wieder Sinn ;-) Gruss, Uli
On Fri, 18 May 2001, Ulrich Klenk wrote:
Hallo Liste,
bin mal wieder auf der Suche nach einem kleinen Skript zur Textkonvertierung: Es sollen HTML-Dokumente eingelesen und in txt-Dateien umgewandelt werden, ohne dass Formatierungen verloren gehen.
Hallo Ulrich Wie jetzt? .txt und Formatierungen ??? CU Thorsten
--------------------------------------------------------------------- To unsubscribe, e-mail: suse-linux-unsubscribe@suse.com For additional commands, e-mail: suse-linux-help@suse.com
-- GMX - Die Kommunikationsplattform im Internet. http://www.gmx.net
Hi, Ulrich,
* Ulrich Klenk
bin mal wieder auf der Suche nach einem kleinen Skript zur Textkonvertierung: Es sollen HTML-Dokumente eingelesen und in txt-Dateien umgewandelt werden, ohne dass Formatierungen verloren gehen. Gleichzeitig sollen vorhandene Bilder durch Links auf eben jenige ersetzt werden.
Es ist vielleicht nicht ganz das, was Du suchst, aber das Einzige, was mir einfaellt, weil ich es es selbst benutze: ,------* :| lynx -dump datei.html > datei.txt `------* Gruss, Andreas -- "Das Proggie funzt kewl" Freie Babysprache fuer den User! Klickibunti in die Koepfe!
On Fri, 18 May 2001 at 22:34 +0200, Ulrich Klenk wrote:
Hallo Liste,
bin mal wieder auf der Suche nach einem kleinen Skript zur Textkonvertierung: Es sollen HTML-Dokumente eingelesen und in txt-Dateien umgewandelt werden, ohne dass Formatierungen verloren gehen. Gleichzeitig sollen vorhandene Bilder durch Links auf eben jenige ersetzt werden.
Mein Ansatz wäre hier ein Shell-Skript und sed und/oder awk... Oder hat jemand so was schon auf seiner Festplatte.....
Danke für Hinweise wo ich sowas finden kann, bzw. Anregungen.....
Grundsätzlich mache ich sowas mit w3m -dump test.html > test.txt Damit wird z. B. die Etikette konvertiert. Wie das mit den Bildern aussieht, weiß ich nicht. Aufzählungen werden in der Form * sdfadsf * adsfds wiedergegeben. Gruß, Bernhard -- ----------------------------------------------------------------- -> http://www.links2linux.de <-> http://packman.links2linux.de <- ----------------------------------------------------------------- ******************** Gnu PGP-Key: DDAF6454 * Tux# 171705 * ICQ# 98361051
Moin, für Perl habe ich schon einige Module gefunden. Da ist bestimmt etwas mit dabei: HTML::FormatText HTML::Parse HTML::TreeBuilder Die Module arbeiten IMHO auch mit lynx zusammen. Viel Spass noch.. Ciao Andre
participants (5)
-
Andre Heine
-
Andreas Kneib
-
Bernhard Walle
-
Thorsten Koerner
-
Ulrich Klenk