verschiedene Dokumentarten durchsuchen
Hallo! Ich habe zu verschiedenen Themen eine Reihe von Dokumenten gesammelt und möchte nun manchmal global nach Begriffen suchen. Die Dokumente sind PDF, Word-Dateien, reine ASCII-Texte und HTML-Dateien. Das Ganze dann aucb noch in unterschiedlichen Zeichensätzen und Sprachen (überwiegend Deutsch, Englisch, gelegentlich Französisch oder Spanisch). Gibt es ein Programm, das eine globale Suche über so unterschiedliche Dokumenttypen beherrscht? Theoretisch habe ich ja jetzt schon für alle Dokumentarten geeignete Programme an Bord. Gibt es vielleicht eine Art Aufsatz, der die unterschiedlichen Programme aufruft und deren Ergebnisse einigermaßen sauber am Bildschirm darstellt? Möglichst sogar mit Hervorhebung des jeweiligen Suchbegriffs? Danke! Jürgen -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Juergen Langowski
Hallo!
Ich habe zu verschiedenen Themen eine Reihe von Dokumenten gesammelt und möchte nun manchmal global nach Begriffen suchen.
Die Dokumente sind PDF, Word-Dateien, reine ASCII-Texte und HTML-Dateien. Das Ganze dann aucb noch in unterschiedlichen Zeichensätzen und Sprachen (überwiegend Deutsch, Englisch, gelegentlich Französisch oder Spanisch).
Gibt es ein Programm, das eine globale Suche über so unterschiedliche Dokumenttypen beherrscht? Theoretisch habe ich ja jetzt schon für alle Dokumentarten geeignete Programme an Bord. Gibt es vielleicht eine Art Aufsatz, der die unterschiedlichen Programme aufruft und deren Ergebnisse einigermaßen sauber am Bildschirm darstellt? Möglichst sogar mit Hervorhebung des jeweiligen Suchbegriffs?
Eigentlich suchst du einerseits ein Document Management System, andererseits ein File Indexing System fürs Data Mining, ähnlich einer Suchmaschine. Dazu fällt mir nur glimpse ein, das aber meines Wissens nur Text/Plain indizieren kann. Vielleicht gibt es ja die Möglichkeit, PDF, Word etc. mit Konvertern nach Plaintext zu konvertieren. Jedenfalls ist deine Wunschvorstellung nicht leicht zu realisieren. -Dieter -- Dieter Klünter | Systemberatung sip: +49.40.20932173 http://www.dpunkt.de/buecher/2104.html GPG Key ID:8EF7B6C6 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Samstag, 3. April 2010 09:26:32 schrieb Dieter Kluenter:
Juergen Langowski
writes: Hallo!
Ich habe zu verschiedenen Themen eine Reihe von Dokumenten gesammelt und möchte nun manchmal global nach Begriffen suchen.
Die Dokumente sind PDF, Word-Dateien, reine ASCII-Texte und HTML-Dateien. Das Ganze dann aucb noch in unterschiedlichen Zeichensätzen und Sprachen (überwiegend Deutsch, Englisch, gelegentlich Französisch oder Spanisch).
Gibt es ein Programm, das eine globale Suche über so unterschiedliche Dokumenttypen beherrscht? Theoretisch habe ich ja jetzt schon für alle Dokumentarten geeignete Programme an Bord. Gibt es vielleicht eine Art Aufsatz, der die unterschiedlichen Programme aufruft und deren Ergebnisse einigermaßen sauber am Bildschirm darstellt? Möglichst sogar mit Hervorhebung des jeweiligen Suchbegriffs?
Eigentlich suchst du einerseits ein Document Management System, andererseits ein File Indexing System fürs Data Mining, ähnlich einer Suchmaschine. Dazu fällt mir nur glimpse ein, das aber meines Wissens nur Text/Plain indizieren kann. Vielleicht gibt es ja die Möglichkeit, PDF, Word etc. mit Konvertern nach Plaintext zu konvertieren. Jedenfalls ist deine Wunschvorstellung nicht leicht zu realisieren.
So hoch sind meine Ansprüche gar nicht. Index muss nicht sein, und ein echtes Document Management System auch nicht. Jetzt ist mir gerade noch Google Desktop eingefallen, gibt es wohl auch als rpm für Opensuse. Angeblich kann das Ding u.a.: Textdateien und Quellcode PDF- und PS-Dateien HTML-Dateien E-Mails von Thunderbird OpenOffice.org-Dokumente Bild- und Musikdateien Manpages und Info-Seiten Datei- und Ordnernamen Microsoft Word, Excel und PowerPoint Das wär's doch eigentlich schon. Bleibt noch die Frage der Sicherheit. Weiß jemand, ob man das Programm ausschließlich lokal betreiben kann, also ohne Verbindung zum großen Bruder? Dann wäre das möglicherweise die gewünschte Lösung. Jürgen -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Samstag, 3. April 2010 09:55:45 schrieb Juergen Langowski: Ich empfehle recoll http://www.lesbonscomptes.com/recoll/ Klein und handlich Gruß Timothy -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Samstag, 3. April 2010 schrieb Juergen Langowski:
(...). Gibt es ein Programm, das eine globale Suche über so unterschiedliche Dokumenttypen beherrscht? Theoretisch habe ich ja jetzt schon für alle Dokumentarten geeignete Programme an Bord. Gibt es vielleicht eine Art Aufsatz, der die unterschiedlichen Programme aufruft und deren Ergebnisse einigermaßen sauber am Bildschirm darstellt? Möglichst sogar mit Hervorhebung des jeweiligen Suchbegriffs?
IIRC beagle konnte beagle die Ergebnisse recht übersichtlich darstellen[0]. nepomuk präsentiert zumindest unter KDE 4.3.5 die Ergebnisse noch recht simpel. Gruß Jan [0] http://beagle-project.org/Main_Page -- Love is suicide. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
On 03.04.2010, Jan Ritzerfeld wrote:
IIRC beagle konnte beagle die Ergebnisse recht übersichtlich darstellen[0].
Beagle kann bei mir nicht nach Umlauten in .doc Dateien suchen. Ich habe hier ca. 40% Dateien auf Deutsch und Englisch, und ca. 60% in Norwegisch und evtl. auch Schwedisch und Daenisch. Ich kann in allen indexierten Dateien erfolgreich nach z.B. hushold bedrift energikilde system usw. suchen lassen, aber bei Woertern wie næring økonomi påske verweigert beagle den Dienst, wenn diese Woerter in .doc Dateien vorkommen. Dasselbe mit Woertern mit deutschen Umlauten, Treffer Fehlanzeige. Sie werden allerdings in allen anderen bekannten indexierten Dateien problemlos gefunden. Kurzfassung: wenn Word-Dokumente in versch. Sprachen vorkommen, die Umlaute enthalten, dann habe ich entweder in der Konfiguration von Beagle etwas Grundlegendes uebersehen, oder es entstehen die genannten Probleme. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Samstag 03 April 2010 schrieb Juergen Langowski: Hallo Jürgen, ....
Gibt es ein Programm, das eine globale Suche über so unterschiedliche Dokumenttypen beherrscht? Theoretisch habe ich ja jetzt schon für alle Dokumentarten geeignete Programme an Bord. Gibt es vielleicht eine Art Aufsatz, der die unterschiedlichen Programme aufruft und deren Ergebnisse einigermaßen sauber am Bildschirm darstellt? Möglichst sogar mit Hervorhebung des jeweiligen Suchbegriffs?
Danke! Jürgen Schau dir einmal DocFetcher (http://sourceforge.net/projects/docfetcher/) an,
MfG hjb -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Samstag, 3. April 2010 12:51:49 schrieb Hermann J. Beckers:
Am Samstag 03 April 2010 schrieb Juergen Langowski: Hallo Jürgen,
....
Gibt es ein Programm, das eine globale Suche über so unterschiedliche Dokumenttypen beherrscht? Theoretisch habe ich ja jetzt schon für alle Dokumentarten geeignete Programme an Bord. Gibt es vielleicht eine Art Aufsatz, der die unterschiedlichen Programme aufruft und deren Ergebnisse einigermaßen sauber am Bildschirm darstellt? Möglichst sogar mit Hervorhebung des jeweiligen Suchbegriffs?
Danke! Jürgen
Schau dir einmal DocFetcher (http://sourceforge.net/projects/docfetcher/) an,
MfG hjb
Danke an alle für die verschiedenen Hinweise. Ich war faul und habe zunächst das fertige Programm von Google installiert. Die anderen waren mir zwar sympathischer, aber da hätte ich einiges von Hand nacharbeiten müssen. Google Desktop lässt sich so konfigurieren, dass es bei der Suche nur spezifische Verzeichnisse benutzt und nicht automatisch im Web nachfragt. Ich hoffe mal, dass im Hintergrund nicht noch irgendwas Unschönes passiert. Im Moment läuft die Indizierung, und wenn ich dann bei der Benutzung etwas Bemerkenswertes entdecke, stelle ich es hier rein. Das kann aber noch ein bisschen dauern. Vielen Dank erst mal. Jürgen. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Inzwischen habe ich Google Desktop für einige Suchläufe benutzt und bin recht zufrieden. Positiv: Ich kann jederzeit auf meine eigene Verzeichnishierarchie zugreifen und Veränderungen vornehmen. Der Index passt sich den Veränderungen an. Beispielsweise habe ich entdeckt, dass etwa fünfzig Dateien doppelt vorhanden waren (Kopie des Ordners unter anderem Namen). Eine Sekunde nach dem Löschen hatte sich der Index bereits angepasst und zeigte keine Doubletten mehr an. Das Programm läuft sehr flüssig und beherrscht die Dateiformate, die mir wichtig sind: PDF, ASCII, DOC, HTML. Negativ: Bei einigen älteren, mit Windows angelegten ASCII-Dateien zeigt Google Desktop keine Umlaute an, obwohl sie im Original vorhanden sind. Vielleicht kann ich das in den Einstellungen ändern. Die Erstindizierung hat recht lange gedauert, ist aber im Hintergrund gelaufen und hat mich nicht gestört. Der Beschreibung nach kann man zwischendurch auch den Rechner herunterfahren, das soll die Indizierung nicht behindern. Vielleicht ist dies ja für andere, die ein ähnliches Programm brauchen, eine kleine Orientierungshilfe. Jürgen -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (6)
-
Dieter Kluenter
-
Heinz Diehl
-
Hermann J. Beckers
-
Jan Ritzerfeld
-
Juergen Langowski
-
Timothy Kesten