Am Montag, 9. Juni 2003 16:11 schrieb Daniel Lord:
Hallo Wolfgang,
On Mon, Jun 09, 2003 at 04:05:28PM +0200, Wolfgang Erlenkötter wrote:
Ich versuche gerade mit der Hilfe von regulären Ausdrücken und sed alle HTML-Tags aus einer Datei zu entfernen. Stehen die Tags in einer Zeile, werden sie gelöscht. Ziehen sich die Tags aber über mehrere Zeilen hin, klappt das nicht.
äh willst Du das wirklich mit regex machen? wie währe es damit?
lynx -dump /path/to/html/datei.htm > /path/to/txt/datei.txt
Greetings Daniel
Danke für die Antworten. Die Idee mit lynx oder html2text ist ja nicht schlecht. Ein Freund von mir hat ein ganz exotisches Programm für einen Mailfilter und der kann regex. So kam ich auf die Idee, das so zu lösen. Ich suche trotzdem noch weiter. Trotzdem Danke! Wolfgang