Am Montag, 8. März 2010 schrieb Heinz Diehl:
On 08.03.2010, Jan Ritzerfeld wrote:
Dafür nimmt man dann doch ein Dokumentenmanagementsystem, das per OCR die PDFs durchsuchbar macht. Mir fallen spontan zwei ein, von denen es auch Open-Source-Versionen gibt:
[....]
Danke, auch die werde ich mir morgen ansehen.
Zumindest solltest du um die Möglichkeiten dieser Produkte wissen, vielleicht brauchst du so etwas "großes" gar nicht, aber dann weißt du immerhin schon einmal, was alles geht. :)
Die Schwierigkeit ist allerdings, dass ca. 90% aller Dokumente in Norwegisch geschrieben sind, und immer wieder auch in Daenisch oder Schwedisch, und der Rest in Englisch.
In der Tat.
Ausserdem muss eine perfekte 1:1 Kopie des Originaldokuments vorliegen.
IIRC wird der per OCR ermittelte Text zusätzlich ins PDF gesteckt, sodaß die Kopie des Dokuments nicht verändert wird. So wie man bei den von Google eingescannten Büchern ja auch das "Original" sieht, aber trotzdem suchen kann. Hier findest du auch ein so erstelltes Sandwich-PDF, in dem man direkt Text markieren kann: http://www.auxnet.de/blog/blog-post/2009/04/02/cuneiform-und-hocr2pdf-unter- ubuntulinux-installieren-und-einsetzen.html Gruß Jan -- A nod is as good as a wink to a blind horse. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org