Re: Festplatte nach Dokumenten durchsuchen

16 Jul 2004


      Thomas Templin wrote:
...
Indem man die Verzeichnisse in denen die Daten liegen einer 
Volltextindizierung unterwirft, mit ht:dig zum Beispiel.
Dann kann man nach den Schlüsselwörtern suchen.
Der Vorteil dabei ist vor allem, dass nicht jedesmal die Dateien selbst nach 
den Stichwörtern durchsucht werden sondern nur der Index. 
Das ist, nachdem man einmal etwas länger für den erstmaligen Aufbau des 
Indexes gewartet hat, um einiges schneller.
Neue Dateien werden von ht:dig mit einem Cron Job regelmässig (nach)indiziert 
und der Index, eigentlich eine Datenbank, auf dem laufenden gehalten.
Wenn man so will in etwa wie ein ein locate für Dateiinhalte.
Stellt sich nur die Frage, wie praxistauglich die bereit stehenden 
Indizierer sind.
- Lassen sich OpenOffice, Koffice, M$-Office-Dokumente erfassen (auch 
Präsentation und Tabellenkalkulationsdateien)?
- Können PDF-Dateien indiziert werden?
- Können Emails indiziert werden (incl. (gepackter) Attachments?
- Können Archive (tar, zip usw.) indiziert werden?
- Können Textstrings multimedialer Dateien (z.B. ID3-Tags) erfasst werden?

- Unterstützen die Rcherchetools die Absonderlichkeiten der deutschen 
Sprache (z.B. Flexionen, Verbundwörter)?

- Erhalte ich schließlich eine Volltextansicht der gefundenen Dokumente 
unter Hervorhebung der Fundstellen?

- Wenn htdig dazu in die Lage versetzt werden kann: Gibt es 
Distributionen, die htdig entsprechend vorkonfiguriert haben, so dass 
man nur noch anklicken muss "indiziers mir" oder ist nächtefüllendes 
Frickeln angesagt?

- Kann man htdig wirklich als Desktop-Suchmaschine nutzen oder ist es 
nur ein  mühsam hochgetakteter HTML-Indizierer?

Bernd

Re: Festplatte nach Dokumenten durchsuchen

Bernhard Vornefeld