Thomas Templin wrote:
Indem man die Verzeichnisse in denen die Daten liegen einer Volltextindizierung unterwirft, mit ht:dig zum Beispiel.
Dann kann man nach den Schlüsselwörtern suchen.
Der Vorteil dabei ist vor allem, dass nicht jedesmal die Dateien selbst nach den Stichwörtern durchsucht werden sondern nur der Index. Das ist, nachdem man einmal etwas länger für den erstmaligen Aufbau des Indexes gewartet hat, um einiges schneller. Neue Dateien werden von ht:dig mit einem Cron Job regelmässig (nach)indiziert und der Index, eigentlich eine Datenbank, auf dem laufenden gehalten. Wenn man so will in etwa wie ein ein locate für Dateiinhalte.
Stellt sich nur die Frage, wie praxistauglich die bereit stehenden Indizierer sind. - Lassen sich OpenOffice, Koffice, M$-Office-Dokumente erfassen (auch Präsentation und Tabellenkalkulationsdateien)? - Können PDF-Dateien indiziert werden? - Können Emails indiziert werden (incl. (gepackter) Attachments? - Können Archive (tar, zip usw.) indiziert werden? - Können Textstrings multimedialer Dateien (z.B. ID3-Tags) erfasst werden? - Unterstützen die Rcherchetools die Absonderlichkeiten der deutschen Sprache (z.B. Flexionen, Verbundwörter)? - Erhalte ich schließlich eine Volltextansicht der gefundenen Dokumente unter Hervorhebung der Fundstellen? - Wenn htdig dazu in die Lage versetzt werden kann: Gibt es Distributionen, die htdig entsprechend vorkonfiguriert haben, so dass man nur noch anklicken muss "indiziers mir" oder ist nächtefüllendes Frickeln angesagt? - Kann man htdig wirklich als Desktop-Suchmaschine nutzen oder ist es nur ein mühsam hochgetakteter HTML-Indizierer? Bernd