Re: Pdf Metadaten, Indexierung/Suche

9 Mar 2010


      Am Montag, 8. März 2010 schrieb Heinz Diehl:
...
On 08.03.2010, Jan Ritzerfeld wrote:
...
Dafür nimmt man dann doch ein Dokumentenmanagementsystem, das per OCR
die PDFs durchsuchbar macht. Mir fallen spontan zwei ein, von denen es
auch Open-Source-Versionen gibt:
[....]
Danke, auch die werde ich mir morgen ansehen.
Zumindest solltest du um die Möglichkeiten dieser Produkte wissen, vielleicht 
brauchst du so etwas "großes" gar nicht, aber dann weißt du immerhin schon 
einmal, was alles geht. :)
...
Die Schwierigkeit ist allerdings, dass ca. 90% aller Dokumente in
Norwegisch geschrieben sind, und immer wieder auch in Daenisch oder
Schwedisch, und der Rest in Englisch.
In der Tat.
...
Ausserdem muss eine perfekte 1:1 Kopie des Originaldokuments vorliegen.
IIRC wird der per OCR ermittelte Text zusätzlich ins PDF gesteckt, sodaß die 
Kopie des Dokuments nicht verändert wird. So wie man bei den von Google 
eingescannten Büchern ja auch das "Original" sieht, aber trotzdem suchen kann. 
Hier findest du auch ein so erstelltes Sandwich-PDF, in dem man direkt Text 
markieren kann:
http://www.auxnet.de/blog/blog-post/2009/04/02/cuneiform-und-hocr2pdf-unter-
ubuntulinux-installieren-und-einsetzen.html

Gruß
 Jan
-- 
A nod is as good as a wink to a blind horse.
-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken
Sie eine Mail an: opensuse-de+help@opensuse.org