Hallo zusammen, in der letzten ct gab es doch einen Artikel über Programme, mit denen man Dokumente auf der Festplatte nach speziellen Schlüsselwörtern durchsuchen konnte. Und zwar auf effektivere Art und weise als mit der normalen Suchfunktion des Betriebssystems. Leider wurden in dem Artikel nur Windows Programme vorgestellt: Gibt es ein solches Tool nicht auch für Linux? Freue mich auf Eure Antworten Christian
Moin Christian On Friday 16 July 2004 23:14, Christian Wolter wrote: [...]
in der letzten ct gab es doch einen Artikel über Programme, mit denen man Dokumente auf der Festplatte nach speziellen Schlüsselwörtern durchsuchen konnte. Und zwar auf effektivere Art und weise als mit der normalen Suchfunktion des Betriebssystems. Leider wurden in dem Artikel nur Windows Programme vorgestellt: Gibt es ein solches Tool nicht auch für Linux? [...] Indem man die Verzeichnisse in denen die Daten liegen einer Volltextindizierung unterwirft, mit ht:dig zum Beispiel.
Dann kann man nach den Schlüsselwörtern suchen. Der Vorteil dabei ist vor allem, dass nicht jedesmal die Dateien selbst nach den Stichwörtern durchsucht werden sondern nur der Index. Das ist, nachdem man einmal etwas länger für den erstmaligen Aufbau des Indexes gewartet hat, um einiges schneller. Neue Dateien werden von ht:dig mit einem Cron Job regelmässig (nach)indiziert und der Index, eigentlich eine Datenbank, auf dem laufenden gehalten. Wenn man so will in etwa wie ein ein locate für Dateiinhalte. Tschüss, Thomas -- Diese Adresse wird nur für die SuSE-Linux Liste benutz. Mails die nicht über die SuSE Liste kommen erreichen mich _garantiert_nicht!_
Thomas Templin wrote:
Indem man die Verzeichnisse in denen die Daten liegen einer Volltextindizierung unterwirft, mit ht:dig zum Beispiel.
Dann kann man nach den Schlüsselwörtern suchen.
Der Vorteil dabei ist vor allem, dass nicht jedesmal die Dateien selbst nach den Stichwörtern durchsucht werden sondern nur der Index. Das ist, nachdem man einmal etwas länger für den erstmaligen Aufbau des Indexes gewartet hat, um einiges schneller. Neue Dateien werden von ht:dig mit einem Cron Job regelmässig (nach)indiziert und der Index, eigentlich eine Datenbank, auf dem laufenden gehalten. Wenn man so will in etwa wie ein ein locate für Dateiinhalte.
Stellt sich nur die Frage, wie praxistauglich die bereit stehenden Indizierer sind. - Lassen sich OpenOffice, Koffice, M$-Office-Dokumente erfassen (auch Präsentation und Tabellenkalkulationsdateien)? - Können PDF-Dateien indiziert werden? - Können Emails indiziert werden (incl. (gepackter) Attachments? - Können Archive (tar, zip usw.) indiziert werden? - Können Textstrings multimedialer Dateien (z.B. ID3-Tags) erfasst werden? - Unterstützen die Rcherchetools die Absonderlichkeiten der deutschen Sprache (z.B. Flexionen, Verbundwörter)? - Erhalte ich schließlich eine Volltextansicht der gefundenen Dokumente unter Hervorhebung der Fundstellen? - Wenn htdig dazu in die Lage versetzt werden kann: Gibt es Distributionen, die htdig entsprechend vorkonfiguriert haben, so dass man nur noch anklicken muss "indiziers mir" oder ist nächtefüllendes Frickeln angesagt? - Kann man htdig wirklich als Desktop-Suchmaschine nutzen oder ist es nur ein mühsam hochgetakteter HTML-Indizierer? Bernd
Sorry, mail was lost in draft folder... On Saturday 17 July 2004 02:33, Thomas Templin wrote:
On Saturday 17 July 2004 01:01, Bernhard Vornefeld wrote:
Thomas Templin wrote:
Indem man die Verzeichnisse in denen die Daten liegen einer Volltextindizierung unterwirft, mit ht:dig zum Beispiel.
Dann kann man nach den Schlüsselwörtern suchen.
Der Vorteil dabei ist vor allem, dass nicht jedesmal die Dateien selbst nach den Stichwörtern durchsucht werden sondern nur der Index. Das ist, nachdem man einmal etwas länger für den erstmaligen Aufbau des Indexes gewartet hat, um einiges schneller. Neue Dateien werden von ht:dig mit einem Cron Job regelmässig (nach)indiziert und der Index, eigentlich eine Datenbank, auf dem laufenden gehalten. Wenn man so will in etwa wie ein ein locate für Dateiinhalte.
Stellt sich nur die Frage, wie praxistauglich die bereit stehenden Indizierer sind. - Lassen sich OpenOffice, Koffice, M$-Office-Dokumente erfassen (auch Präsentation und Tabellenkalkulationsdateien)? - Können PDF-Dateien indiziert werden? - Können Emails indiziert werden (incl. (gepackter) Attachments? - Können Archive (tar, zip usw.) indiziert werden? - Können Textstrings multimedialer Dateien (z.B. ID3-Tags) erfasst werden?
- Unterstützen die Rcherchetools die Absonderlichkeiten der deutschen Sprache (z.B. Flexionen, Verbundwörter)?
- Erhalte ich schließlich eine Volltextansicht der gefundenen Dokumente unter Hervorhebung der Fundstellen?
- Wenn htdig dazu in die Lage versetzt werden kann: Gibt es Distributionen, die htdig entsprechend vorkonfiguriert haben, so dass man nur noch anklicken muss "indiziers mir" oder ist nächtefüllendes Frickeln angesagt?
- Kann man htdig wirklich als Desktop-Suchmaschine nutzen oder ist es nur ein mühsam hochgetakteter HTML-Indizierer? Es gibt mit index++ und search++ zwei swish++ Werkzeuge die hervorragend dafür geeignet sind so ziemlich alles an Dokumenten zu indizieren. Wenn du dem index++ keinen Riegel vor schiebst dann geht der auch knallhart über png, jpg, mp3 und alles mögliche an Dateien und indiziert sie. Und er findet auch was zum indizieren!
Ein erster Indizierungs Durchlauf dauert einiges an Zeit. Danach geht es aber merklich fixer. Und das Index File kann auch ziemlich gross werden. Ich hab hier einen ohne Bilder 600MB grossen Verzeichnisbaum mit meinen GNU/Linux Dokumentationen bei dem die swish++.index Datei ca 150MB gross ist. Bis search++ einen Suchbegriff findet dauert es aber weniger als eine Sekunde! Auf einem AMD XP 2800, 512MB Ram, 80GB IDE133 Platte, KT400, also eigentlich nichts weltbewegend schnelles. Tschüss, Thomas
participants (3)
-
Bernhard Vornefeld
-
Christian Wolter
-
Thomas Templin