![](https://seccdn.libravatar.org/avatar/be3e9205a897d6bde412c9ede57e94cd.jpg?s=120&d=mm&r=g)
Hallo Jens, Jens schrieb am 31.05.2002
ich suche nach einem Tool, daß eine Art Web-Spider realisiert. Ausgehend von einer Startseite (besser noch eine Liste von Startseiten) soll es überall rumcrawlen, die Seiten aufrufen (evtl. speichern) und (möglichst) nach Begriffen scannen. Ich bau im Augenblick ein solches Werkzeug. Die Funktion grob beschrieben: Über eine API erfolgt ein direkter Zugriff auf Google. Der Suchende hat die gesuchten Begriffe eingegeben. Im Hintergrund habe ich eine Wortmaschine, die jeden Begriff auf den Wortstamm abbildet. Durch die Abbildung auf den Wortstamm, bin ich unabhängig von der Schreibweise. Desweiteren kann angegeben werden, in welchem linguistischen Zusammenhang die Worte stehen (linker Nachbar, rechter Nachbar, gemeinsam im Satz, gemeinsam im Dokument) und mit welcher relativen Häufigkeit die Worte vorkommen müssen. Die gefundenen Seiten werden in einer Datenbank gespeichert und vollindiziert. Ich kann damit übernacht eine Wissensbasis aufbauen. Falls Dich das Thema weitergehend interssiert, schau mal auf meiner Homepage rein.
Mit freundlichen Grüssen Frank Link mailto:frank.link@vmodell-wissen.de http://www.vmodell-wissen.de
![](https://seccdn.libravatar.org/avatar/4ab91c10b2dd849dd14ae13df223a845.jpg?s=120&d=mm&r=g)
Hallo zusammen, falls es noch nicht genannt wurde: wget bietet sehr schön das rekursive abgrasen von Webseiten. Einfach einmal das Paket wget installieren und die Doku dazu lesen. Evtl. wird dadurch auch ein "selber schreiben" eines Tools unnötig? Zumindest könnte es als guter Ansatz dienen. Mit den besten Grüßen, Konrad Neitzel -- SoftMediaTec GmbH Tel: 0172 / 689 31 45 Fax: 069 / 90 50 99 53
![](https://seccdn.libravatar.org/avatar/715ec591c41fdf51acee78156234f9e2.jpg?s=120&d=mm&r=g)
On Mon, 2002-06-03 at 07:30, Konrad Neitzel wrote:
wget bietet sehr schön das rekursive abgrasen von Webseiten. Einfach einmal das Paket wget installieren und die Doku dazu lesen.
Evtl. wird dadurch auch ein "selber schreiben" eines Tools unnötig? Zumindest könnte es als guter Ansatz dienen.
Jens hatte in seiner Ursprungsmail schon geschrieben, daß ihm wget nicht ausreicht. Insofern kam dann auch mein Hinweis auf LWP und Perl. Viele Grüße und einen guten Start in die neue Woche Volker -- Volker Kroll 4mino AG Chief System Developer Chausseestr. 52 b volker.kroll@4mino.de D-10115 Berlin Tel.: +49-30-2888490-0 Fax.: +49-30-2888490-99
![](https://seccdn.libravatar.org/avatar/c65f0a9d70486d425ffd4799ddb379fc.jpg?s=120&d=mm&r=g)
* Konrad Neitzel schrieb am 03.Jun.2002:
wget bietet sehr schön das rekursive abgrasen von Webseiten. Einfach einmal das Paket wget installieren und die Doku dazu lesen.
Wenn alle Seiten, die ich haben möchte, sich auf einem Host befindet, so ist es eine schöne Funktion von wget. Aber wenn sich die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden, dann wird es problematisch. Man kann zwar mit wget auch alle Links folgen einstellen, aber dann zieht man sich das komplette Internetangebot herunter, weil dann auch alle Werbebanner und sonstige Links gefolgt wird. Ich habe allerdings auch keine Ahnung, wie man das Problem lössen sollte. Ich weiß auch nicht, warum wichtige Teile einer Dokumentation oder was auch immer auf verschiedene Hostadressen liegen müssen. Bernd -- Welches Buch ist zu empfehlen? Schon mal bei SuSE vorbeigesehen? http://www.suse.de/de/products/books/index.html oder die Empfehlungen der SuSE-Entwickler auf dem eigenen Rechner? file:///usr/share/doc/sdb/de/html/literatur.html |Zufallssignatur 5
![](https://seccdn.libravatar.org/avatar/ae2425c1ae6a853ce926fb5d532fc801.jpg?s=120&d=mm&r=g)
Hallo, Bernd Brodesser:
Wenn alle Seiten, die ich haben möchte, sich auf einem Host befindet, so ist es eine schöne Funktion von wget. Aber wenn sich die Seiten auf verschiedene Hosts, (oder Hostadressen) befinden, dann wird es problematisch. Man kann zwar mit wget auch alle Links folgen einstellen, aber dann zieht man sich das komplette Internetangebot herunter, weil dann auch alle Werbebanner und sonstige Links gefolgt wird.
Bestimmt gibt es eine elegante Lösung mit prima Haltungsnoten. Ich hatte neulich in so einem Fall Erfolg mit einem etwas uneleganten Vorgehen: wget mit einem restriktiven Pfad starten. Beispiel: index.html mit einer Doku liegt in http://server.foo/dokumentation/ Zugehörige Bilder liegen in http://server.foo/images/ Soweit kein Problem, nur leider gibt es noch http://server.foo/reklame/ http://server.foo/werbung/ http://server.foo/nervkram/ Das heisst: Erlaube ich alles in http://server.foo/dokumentation/ , dann fehlen mir die Bilder. Erlaube ich http://server.foo , dann bekomme ich viel zuviel. Meine Lösung: Man kann wget ja verbieten, bereits gesaugte Dateien nicht nochmal zu saugen. Ich starte ihn einfach zweimal. Beim ersten mal erlaube ich nur /dokumentation , beim zweiten mal gebe ich ebenfalls /dokumentation/index.html als Startdatei vor, erlaube aber nur /images . Er frisst das, obwohl die Startdatei selbst ja eigentlich verboten ist (Vielleicht, weil schon lokal vorhanden). Prinzipiell unterstützt er glaubich auch Textdateien mit erlaubt/verboten-Listen, aber da die Problematik ohnhin jedesmal etwas anders liegt, verzichte ich auf Haltungsnoten und mache es so halbmanuell. Gruß, Ratti P.S.: Geniales Tool. -- http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows
participants (5)
-
B.Brodesser@t-online.de
-
Frank Link
-
Konrad Neitzel
-
ratti
-
Volker Kroll