New subject: Links aus html-Seite extrahieren

10 Mar 2003

      Hallo,

die folgende Lösung funktioniert bereits ganz gut:

cat input.html | grep href | perl -pi -e 's/.*href="(.*?)".*/$1/g

Komischerweise liefert dieser Befehl nur einen Link,
wobei das Orginaldokument zehn enthält:

/cgi-bin/search/query.cgi&artikel=A18X55

Also ich kriege diese HTML-Seiten aus einem Lagersystem
und muss die Links extrahieren, um weitere Infos von jedem
Artikel darzustellen. Die Daten sehen in etwa so aus (Auszug):

<html><title>bla</title>
bla
blubb
<h1>bla</h1><a
href="/cgi-bin/search/query.cgi&artikel=A18X55"><img border="0"
src="/pics/query.gif" /></a> <a
href="/cgi-bin/search/query.cgi&artikel=B11A03">Artikel B11A03</a> <a
href="/cgi-bin/search/query.cgi&artikel=Z20B47">Arikel Z20B47</a>

<h1>bla</h1>
<hr>bla
blubb
</html>

Wie extrahiere ich diese (alle!) query.cgi-Links aus der Datei?

Vielen Dank und schöne Grüße,
Werner.

Re: Links aus html-Seite extrahieren

Werner Schalk

David Haller

Werner Schalk

Alexander Glintschert

David Haller

Remo Behn

tags

participants (4)