
Hallo, Für ein Intranet-projekt suche ich noch eine geeignete Search-Engine. Die Aufgabenstellung: In einem Verzeichnisbaum sind jede Menge HTML-Files gespeichert, die im "keywords"-Metatag bestimmte Kategorisierungen tragen. Bisher werden diese Files von einem Programm indiziert, das auf dem AltaVista SDK aufsetzt (unter Tru64 Unix). Weitere Programme (alle selbst entwickelt, da besondere Anforderungen an Bedienung usw.) übernehmen dann die Abfragen an die Engine nach einzelnen Kategorien und eine Volltextsuche. Die Standard-Abfrage heißt z.B. "Alles mit dem keyword "Außenhandel" in chronologisch absteigender Reihenfolge mit 30 Treffern pro Seite ab Seite 3, ausgegeben werden sollen Filedatum (last modified), Titel und URL in einem maschinell weiterverwertbaren Format. Außerdem ist es von der kommandozeile aus möglich, einzelne files oder Unterverzeichnisse aus dem Index herauszunehmen oder hinzuzufügen. Nun will ich diese Maschinerie evtl. auf Linux portieren, und zwar so, daß auch Nicht-Intel-Maschinen genutzt werden können. Das AltaVista SDK liegt aber nur im Binärcode für Intel unter Linux vor, scheidet dann also aus. ich hab mir dann mal verschiedene Dinge angeschaut: htdig kommt nicht in Frage, weil nur Standard-Suchabfragen möglich sind und nicht vom Filesystem aus der Index gepflegt werden kann. glimpse sieht recht gut aus, wird aber kommerziell lizensiert (liegt dafür immerhin im Sourcecode vor und ist so auch auf Mips- und Alpha-Rechnern lauffähig). Außerdem gibts da keine C- oder Java-API, sondern man müßte über Shell-Aufrufe gehen und dann stdout parsen. Die Kategorisierung würde ich in dem Fall zusätzlich über einen SQL-Server indizieren. Besonders bevorzugen würde ich evtl. eine Engine mit einer passenden Java-API, aber da hab ich noch gar nix in der Richtung gesichtet. Gibts noch andere Variationen in der Richtung, möglichst (aber nicht zwingend) unter GPL? -- =========================================================== Erhard Schwenk - alias Bitrunner =)B==o) =========================================================== No Spam replies please. --------------------------------------------------------------------- To unsubscribe, e-mail: suse-linux-unsubscribe@suse.com For additional commands, e-mail: suse-linux-help@suse.com

At 00:14 21.03.00 +0100, you wrote: ht://dig - ist genial! Wir haben selbst schon ein Projekt damit umgesetzt, in dem wir diese SE durch einen Filter in Perl erweitert haben. Funktioniert prima! Außderdem sauschnell! Kann nur noch keine Phrases suchen :-/ Ist seeeehr weitreichend konfigurierbar -- Mit freundlichem Gruß Dipl.-Inf. (FH) Thomas Albl - Deutscher Städtetag D-50968 Köln, Lindenallee 13-17 fon : +49 221 3771-210 fax : +49 221 3771-128 mail: thomas.albl@staedtetag.de --------------------------------------------------------------------- To unsubscribe, e-mail: suse-linux-unsubscribe@suse.com For additional commands, e-mail: suse-linux-help@suse.com
participants (2)
-
eschwenk@fto.de
-
thomas.albl@staedtetag.de