Pdf Metadaten, Indexierung/Suche
Hallo, ich bin gerade dabei, ein Archivierungssystem fuer Dokumente aufzubauen, und trotz ausgiebiger Suche konnte ich noch nicht herausfinden, wie bzw. mit was ich nach Stichworten in den Metadaten von PDF Dateien suchen kann, bzw. einen Index damit aufbauen. Natuerlich unter Linux, und natuerlich open source. Vermutlich stehe ich mal wieder maechtig auf der Leitung und sehe den Wald vor lauter Baeumen nicht. Weiss jemand, welche Programme/Tools das koennen? Danke schonmal! ;-) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hallo ----- Original Message ----- From: "Heinz Diehl" Sent: Sunday, March 07, 2010 3:01 PM
Hallo,
ich bin gerade dabei, ein Archivierungssystem fuer Dokumente aufzubauen, und trotz ausgiebiger Suche konnte ich noch nicht herausfinden, wie bzw. mit was ich nach Stichworten in den Metadaten von PDF Dateien suchen kann, bzw. einen Index damit aufbauen. Natuerlich unter Linux, und natuerlich open source.
[...]
Bzgl. Stichworten und Metadaten kann ich konkret leider nicht helfen; aber: Nach dem Volltext - nicht nur in pdf-Dateien - kann man prima mit regain suchen. Wir benutzen das als Suchmaschine für unser gesamtes Intranet. Das ist unser "Archivierungssystem". Da man mitgeben kann, welche Verzeichnisse durchsucht werden sollen, dürfte es sich auch für Dein konkretes Problem anbieten: http://regain.sourceforge.net/?lang=de Gruß, Alex -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
On 08.03.2010, Alexander Winzer wrote:
Bzgl. Stichworten und Metadaten kann ich konkret leider nicht helfen; aber:
Nach dem Volltext - nicht nur in pdf-Dateien - kann man prima mit regain suchen.
Danke dir, das werde ich mir morgen mal ansehen. Stichworte in den Metadaten ist entscheidend wichtig fuer mich, da viele Dokumente eingescannt werden und dann als Bild in ein pdf gewandelt werden. Der Text ist somit im Bildformat mit drin, und liegt nicht als solcher vor, kann also nicht auf gewoehnliche Weise indexiert werden. Um solche Dokumente zu indexieren und leicht wiederzufinden, muessen gut durchdachte Stichwoerter in den Metadaten zur Verfuegung stehen. Ich habe mittlerweile eine aktuelle Version von Beagle im Testbetrieb, die ich ein wenig "aufgehackt" habe, sie funktioniert allerdings jetzt nicht mehr so gaaanz stabil (glaube aber, den von mir produzierten Bug gefunden zu haben) :-) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Montag, 8. März 2010 schrieb Heinz Diehl:
(...). Danke dir, das werde ich mir morgen mal ansehen. Stichworte in den Metadaten ist entscheidend wichtig fuer mich, da viele Dokumente eingescannt werden und dann als Bild in ein pdf gewandelt werden. Der Text ist somit im Bildformat mit drin, und liegt nicht als solcher vor, kann also nicht auf gewoehnliche Weise indexiert werden. Um solche Dokumente zu indexieren und leicht wiederzufinden, muessen gut durchdachte Stichwoerter in den Metadaten zur Verfuegung stehen. (...).
Dafür nimmt man dann doch ein Dokumentenmanagementsystem, das per OCR die PDFs durchsuchbar macht. Mir fallen spontan zwei ein, von denen es auch Open-Source-Versionen gibt: http://de.wikipedia.org/wiki/Agorum_core http://en.wikipedia.org/wiki/Archivista Gruß Jan -- They never remember when I'm right and never forget when I'm wrong. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
On 08.03.2010, Jan Ritzerfeld wrote:
Dafür nimmt man dann doch ein Dokumentenmanagementsystem, das per OCR die PDFs durchsuchbar macht. Mir fallen spontan zwei ein, von denen es auch Open-Source-Versionen gibt: [....]
Danke, auch die werde ich mir morgen ansehen. Die Schwierigkeit ist allerdings, dass ca. 90% aller Dokumente in Norwegisch geschrieben sind, und immer wieder auch in Daenisch oder Schwedisch, und der Rest in Englisch. Ausserdem muss eine perfekte 1:1 Kopie des Originaldokuments vorliegen. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Am Montag, 8. März 2010 schrieb Heinz Diehl:
On 08.03.2010, Jan Ritzerfeld wrote:
Dafür nimmt man dann doch ein Dokumentenmanagementsystem, das per OCR die PDFs durchsuchbar macht. Mir fallen spontan zwei ein, von denen es auch Open-Source-Versionen gibt:
[....]
Danke, auch die werde ich mir morgen ansehen.
Zumindest solltest du um die Möglichkeiten dieser Produkte wissen, vielleicht brauchst du so etwas "großes" gar nicht, aber dann weißt du immerhin schon einmal, was alles geht. :)
Die Schwierigkeit ist allerdings, dass ca. 90% aller Dokumente in Norwegisch geschrieben sind, und immer wieder auch in Daenisch oder Schwedisch, und der Rest in Englisch.
In der Tat.
Ausserdem muss eine perfekte 1:1 Kopie des Originaldokuments vorliegen.
IIRC wird der per OCR ermittelte Text zusätzlich ins PDF gesteckt, sodaß die Kopie des Dokuments nicht verändert wird. So wie man bei den von Google eingescannten Büchern ja auch das "Original" sieht, aber trotzdem suchen kann. Hier findest du auch ein so erstelltes Sandwich-PDF, in dem man direkt Text markieren kann: http://www.auxnet.de/blog/blog-post/2009/04/02/cuneiform-und-hocr2pdf-unter- ubuntulinux-installieren-und-einsetzen.html Gruß Jan -- A nod is as good as a wink to a blind horse. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Heinz Diehl schrieb:
Hallo,
ich bin gerade dabei, ein Archivierungssystem fuer Dokumente aufzubauen, und trotz ausgiebiger Suche konnte ich noch nicht herausfinden, wie bzw. mit was ich nach Stichworten in den Metadaten von PDF Dateien suchen kann, bzw. einen Index damit aufbauen. Natuerlich unter Linux, und natuerlich open source.
Vermutlich stehe ich mal wieder maechtig auf der Leitung und sehe den Wald vor lauter Baeumen nicht. Weiss jemand, welche Programme/Tools das koennen?
Danke schonmal! ;-)
hi mach ich mit moinmoin (http://moinmo.in/) und xapian_search = True einkonfiguriert. Siehe auch http://master19.moinmo.in/HelpOnXapian Kurzbeschreibung zum Ausprobieren: http://master19.moinmo.in/InstallDocs#quick Ein wiki ist aus anderer Hinsicht auch noch praktisch, man kann die Dokumente direkt in einen Kontext einbetten. Gruß Reimar -- Reimar Bauer Institut fuer Stratosphaerische Chemie (ICG-1) Forschungszentrum Juelich email: R.Bauer@fz-juelich.de ------------------------------------------------------------------------------------------------ ------------------------------------------------------------------------------------------------ Forschungszentrum Juelich GmbH 52425 Juelich Sitz der Gesellschaft: Juelich Eingetragen im Handelsregister des Amtsgerichts Dueren Nr. HR B 3498 Vorsitzende des Aufsichtsrats: MinDir'in Baerbel Brumme-Bothe Geschaeftsfuehrung: Prof. Dr. Achim Bachem (Vorsitzender), Dr. Ulrich Krafft (stellv. Vorsitzender), Prof. Dr.-Ing. Harald Bolt, Prof. Dr. Sebastian M. Schmidt ------------------------------------------------------------------------------------------------ ------------------------------------------------------------------------------------------------ -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (4)
-
Alexander Winzer
-
Heinz Diehl
-
Jan Ritzerfeld
-
Reimar Bauer