Elemente aus HTML-Datei herausfiltern

20 Feb 2003

      Hallo,

ich sitze schon seit einigen Stunden an einem
dummen Problem und kriege es trotz zahlreicher
Versuche mit sed, awk und grep nicht gelöst.
Ich habe eine .html-Datei, in der mehrfach
u.a. folgende Zeichenkette auftaucht (in einer Zeile):

Kategorie: 4.20 - 4.25<br>Beschreibung: 
<B>Kurzbeschreibung</B>Langbeschreibung<br>

So jetzt möchte ich gerne alle Werte für die Kategorienummern
(hier: 4.20 - 4.25) und deren Kurz- und Langbeschreibung
aus dieser Datei extrahieren. Wie mache ich das am besten?
Ich habe es mit grep, sed etc. probiert, aber es hat leider nicht
geklappt. Mein Problem dabei ist, daß die .html-Datei ziemlich
durcheinander ist und ich wirklich nur dieses kurze Textstück
brauche, wobei es mehrfach vorkommt.

Jemand ne Idee? Auch Perl ist gerne willkommen :-)

Vielen Dank und schöne Grüße,
Werner.

Werner Schalk

tags

participants (1)