Hallo, nachdem mir beim letzten Mal so toll geholfen worden ist (nochmals vielen Dank an alle), habe ich eine erneute Frage und hoffe, daß mir jemand helfen kann. Ich würde gerne alle Links innerhalb einer HTML-Seite extrahieren. Die Ursprungsdatei sieht u.a. so aus, wobei der hier beispielhaft enthaltene Link mehrfach vorhanden ist (immer mit so fiesen Zeilenumbrüchen): <html><title>bla</title> bla blubb <h1>bla</h1> <a href="/cgi-bin/search/query.cgi&artikel=A18X55"><img border="0" src="/pics/query.gif" /></a> <h1>bla</h1> <hr> bla blubb </html> Wie kann ich alle Links, die das o.g. Format haben aus einer HTML-Datei extrahieren? Ich würde gerne nur den Teil haben wollen, der innerhalb der Anführungszeichen (z.B./cgi-bin/search/query.cgi&artikel=A18X55) steht. Vielen Dank für Eure Hilfe und schönen Gruß, Werner.
* Werner Schalk
Hallo,
nachdem mir beim letzten Mal so toll geholfen worden ist (nochmals vielen Dank an alle), habe ich eine erneute Frage und hoffe, daß mir jemand helfen kann. Ich würde gerne alle Links innerhalb einer HTML-Seite extrahieren. Die Ursprungsdatei sieht u.a. so aus, wobei der hier beispielhaft enthaltene Link mehrfach vorhanden ist (immer mit so fiesen Zeilenumbrüchen):
<html><title>bla</title> bla blubb <h1>bla</h1> <a href="/cgi-bin/search/query.cgi&artikel=A18X55"><img border="0" src="/pics/query.gif" /></a> <h1>bla</h1> <hr> bla blubb </html>
Wie kann ich alle Links, die das o.g. Format haben aus einer HTML-Datei extrahieren? Ich würde gerne nur den Teil haben wollen, der innerhalb der Anführungszeichen (z.B./cgi-bin/search/query.cgi&artikel=A18X55) steht.
Vielen Dank für Eure Hilfe und schönen Gruß, Werner.
use perl
use HTML::Parser
cu
--
echo '@a=(A..Z,a..z," ");$t="a"x16;{for($x=0,$|=$n=30; $n--;){for($l=$t;
1
Hallo, gibt es vielleicht eine Lösung, die nicht auf Perl bzw. zusätzlich Perl-Modulen basiert (z.B. sed?)? Wie gesagt, ich würde gerne alle Links aus folgender HTML-Struktur haben: <html><title>bla</title> bla blubb <h1>bla</h1> <a href="/cgi-bin/search/query.cgi&artikel=A18X55"><img border="0" src="/pics/query.gif" /></a> <h1>bla</h1> <hr> bla blubb </html> Danke und viele Grüße, Werner.
Hallo, On Mon, 10 Mar 2003, Werner Schalk wrote:
gibt es vielleicht eine Lösung, die nicht auf Perl bzw. zusätzlich Perl-Modulen basiert (z.B. sed?)? Wie gesagt, ich würde gerne alle Links aus folgender HTML-Struktur haben: <a href="/cgi-bin/search/query.cgi&artikel=A18X55"><img border="0" src="/pics/query.gif" /></a>
's/href="\([^"]*\)"/\1/g' Ungetestet. -dnh -- 186: Admin-Handy Elektronisches Würgehalsband (Holger Köpke)
participants (3)
-
David Haller
-
Remo Behn
-
Werner Schalk