Re: Links aus html-Seite extrahieren

11 Mar 2003


      * Werner Schalk  [030311 00:48]:
...
Hallo,
die folgende Lösung funktioniert bereits ganz gut:
cat input.html | grep href | perl -pi -e 's/.*href="(.*?)".*/$1/g
Komischerweise liefert dieser Befehl nur einen Link,
wobei das Orginaldokument zehn enthält:
nee, kann nicht sein ...

das fragment von unten

ray@rayman:/RAY/111 > cat input.html | grep href | perl -pi -e 's/.*href="(.*?)".*/$1/g'
/cgi-bin/search/query.cgi&artikel=A18X55
/cgi-bin/search/query.cgi&artikel=B11A03
/cgi-bin/search/query.cgi&artikel=Z20B47
ray@rayman:/RAY/111 >
...
/cgi-bin/search/query.cgi&artikel=A18X55
Also ich kriege diese HTML-Seiten aus einem Lagersystem
und muss die Links extrahieren, um weitere Infos von jedem
Artikel darzustellen. Die Daten sehen in etwa so aus (Auszug):
<html><title>bla</title>
bla
blubb
<h1>bla</h1><a
href="/cgi-bin/search/query.cgi&artikel=A18X55"><img border="0"
src="/pics/query.gif" /></a> <a
href="/cgi-bin/search/query.cgi&artikel=B11A03">Artikel B11A03</a> <a
href="/cgi-bin/search/query.cgi&artikel=Z20B47">Arikel Z20B47</a>
<h1>bla</h1>
<hr>bla
blubb
</html>
Wie extrahiere ich diese (alle!) query.cgi-Links aus der Datei?
Vielen Dank und schöne Grüße,
Werner.
--
Um die Liste abzubestellen, schicken Sie eine Mail an:
    suse-programming-unsubscribe@suse.com
Um eine Liste aller verfügbaren Kommandos zu bekommen, schicken
Sie eine Mail an: suse-programming-help@suse.com
-- 
echo '@a=(A..Z,a..z," ");$t="a"x16;{for($x=0,$|=$n=30; $n--;){for($l=$t;
1

Re: Links aus html-Seite extrahieren

Remo Behn