OCR in Gang setzen

17 Mar 2010

      moin zusammen,

nachdem ich mir den Vormittag um die Ohren geschlagen habe auf der Suche
in Foren nach einer plausiblen Lösung meine Frage hier in die Runde:

Ich will gocr einsetzen, um Texte, die ich mit xsane eingescannt habe,
auslesen und später bearbeiten zu können. Zwar habe ich beide Programme
via yast installiert, Abhängigkeiten wurden nicht angemeckert, so dass
von der Seite alles in Ordnung zu sein scheint.

Folgendes passiert: Ich scanne eine Datei als jpg ein, speicher sie ab
und rufe die Datei (Endung pnm oder jpg) mit gocr auf. gocr tut so, als
würde die Datei umgewandelt, am Ende sind es aber 0 Byte, nichts ist
passiert.

Kooka (will sagen kdegraphics4) scheint die Scan-Option nicht mehr zu
bieten.

Ich habe mir dann noch tesseract installiert, in der Hoffnung, wenigsten
auf der Konsolenebene weiterzukommen. Ebenfalls Essig.

ich habe tesseract von der OpensuseSeite installiert einschließlich des
Moduls für die deutsche Texterkennung.

Aber hier gibts auch  nur Fehlermeldungen und ein annähernd brauchbares
Howto habe ich nicht entdeckt, weiß jemand von Euch mehr?

Fehlermeldungen sind dieser Art:

Unable to load unicharset file /usr/share/tessdata/german.unicharset

oder:

rechnername:/home_user/user/Documents/Texte/Anderes> tesseract
rezepte.jpg  rezepte.txt -l deu
Tesseract Open Source OCR Engine
name_to_image_type:Error:Unrecognized image type:rezepte.jpg
IMAGE::read_header:Error:Can't read this image type:rezepte.jpg
tesseract:Error:Read of file failed:rezepte.jpg
Speicherzugriffsfehler

Ich rede bei den verschiedenen Programmen jeweils von den aktuellen
Versionen, die für einen 11.2 mit default-kernel in einer x86_64
Umgebung zu haben sind.
KDE ist bei mir der 4.4, aktuelles Release. Die Kooka-Problematik führe
ich unter Umständen hierauf zurück. Das ist aber nur eine Vermutung.

Wie auch immer: Ich würde mich über Tipps freuen, die OCR wieder
verwendungsfähig machen - in einer KDE 4.4 Umgebung nach Möglichkeit.
Möchte ungern wieder auf 4.3 oder 4.1 wechseln.

Beste Grüße

Christoph v. Gallera

Christoph von Gallera

Jan Ritzerfeld

Timothy Kesten

Alexander Winzer

tags

participants (4)