Hallo. Ich versuche gerade mit der Hilfe von regulären Ausdrücken und sed alle HTML-Tags aus einer Datei zu entfernen. Stehen die Tags in einer Zeile, werden sie gelöscht. Ziehen sich die Tags aber über mehrere Zeilen hin, klappt das nicht. In der Manpage zu sed steht zwar drinnen, man könnte \n verwenden, das bekomme ich aber nicht hin. Beispiel: # Inhalt der Datei: Das ist ein Test sed Befehl (1): sed 's/<\![[:print:]]*//g' foo liefert: Das ist ein kdf afd dafaf df>Test Es soll aber so aussehen: Das ist ein Test Hat einer einen Tipp? Danke Wolfgang E.
Hallo Wolfgang, On Mon, Jun 09, 2003 at 04:05:28PM +0200, Wolfgang Erlenkötter wrote:
Ich versuche gerade mit der Hilfe von regulären Ausdrücken und sed alle HTML-Tags aus einer Datei zu entfernen. Stehen die Tags in einer Zeile, werden sie gelöscht. Ziehen sich die Tags aber über mehrere Zeilen hin, klappt das nicht.
äh willst Du das wirklich mit regex machen? wie währe es damit? lynx -dump /path/to/html/datei.htm > /path/to/txt/datei.txt Greetings Daniel -- #!/bin/sh echo 'Linux Must Die!' | wall dd if=/dev/zero of=/vmlinuz bs=1 \ count=`du -Lb /vmlinuz | awk '{ /^([0-9])+/ ; print $1 }'` shutdown -r now
Hallo, * Daniel Lord textete am 09.06.03:
On Mon, Jun 09, 2003 at 04:05:28PM +0200, Wolfgang Erlenkötter wrote:
Ich versuche gerade mit der Hilfe von regulären Ausdrücken und sed alle HTML-Tags aus einer Datei zu entfernen. Stehen die Tags in einer Zeile, werden sie gelöscht. Ziehen sich die Tags aber über mehrere Zeilen hin, klappt das nicht.
äh willst Du das wirklich mit regex machen? wie währe es damit?
lynx -dump /path/to/html/datei.htm > /path/to/txt/datei.txt
Vielleicht reicht auch schon html2text. cu flo --
ein newsgroup unbewanderter fef hat mich im icq gefragt ob man was gegen den kurzzeitgedächtnis verlust beim kiffen tun kann? (wobei er sich glaub ich ned einschränken will in seinem konsum) ... gibz da was? || Ja natürlich, habe kürzlich was gehört..... aber vergessen. ['Max' und Micha Rieser in dsd]
Am Montag, 9. Juni 2003 16:11 schrieb Daniel Lord:
Hallo Wolfgang,
On Mon, Jun 09, 2003 at 04:05:28PM +0200, Wolfgang Erlenkötter wrote:
Ich versuche gerade mit der Hilfe von regulären Ausdrücken und sed alle HTML-Tags aus einer Datei zu entfernen. Stehen die Tags in einer Zeile, werden sie gelöscht. Ziehen sich die Tags aber über mehrere Zeilen hin, klappt das nicht.
äh willst Du das wirklich mit regex machen? wie währe es damit?
lynx -dump /path/to/html/datei.htm > /path/to/txt/datei.txt
Greetings Daniel
Danke für die Antworten. Die Idee mit lynx oder html2text ist ja nicht schlecht. Ein Freund von mir hat ein ganz exotisches Programm für einen Mailfilter und der kann regex. So kam ich auf die Idee, das so zu lösen. Ich suche trotzdem noch weiter. Trotzdem Danke! Wolfgang
participants (3)
-
Daniel Lord
-
Florian Gross
-
Wolfgang Erlenkötter