moin zusammen, nachdem ich mir den Vormittag um die Ohren geschlagen habe auf der Suche in Foren nach einer plausiblen Lösung meine Frage hier in die Runde: Ich will gocr einsetzen, um Texte, die ich mit xsane eingescannt habe, auslesen und später bearbeiten zu können. Zwar habe ich beide Programme via yast installiert, Abhängigkeiten wurden nicht angemeckert, so dass von der Seite alles in Ordnung zu sein scheint. Folgendes passiert: Ich scanne eine Datei als jpg ein, speicher sie ab und rufe die Datei (Endung pnm oder jpg) mit gocr auf. gocr tut so, als würde die Datei umgewandelt, am Ende sind es aber 0 Byte, nichts ist passiert. Kooka (will sagen kdegraphics4) scheint die Scan-Option nicht mehr zu bieten. Ich habe mir dann noch tesseract installiert, in der Hoffnung, wenigsten auf der Konsolenebene weiterzukommen. Ebenfalls Essig. ich habe tesseract von der OpensuseSeite installiert einschließlich des Moduls für die deutsche Texterkennung. Aber hier gibts auch nur Fehlermeldungen und ein annähernd brauchbares Howto habe ich nicht entdeckt, weiß jemand von Euch mehr? Fehlermeldungen sind dieser Art: Unable to load unicharset file /usr/share/tessdata/german.unicharset oder: rechnername:/home_user/user/Documents/Texte/Anderes> tesseract rezepte.jpg rezepte.txt -l deu Tesseract Open Source OCR Engine name_to_image_type:Error:Unrecognized image type:rezepte.jpg IMAGE::read_header:Error:Can't read this image type:rezepte.jpg tesseract:Error:Read of file failed:rezepte.jpg Speicherzugriffsfehler Ich rede bei den verschiedenen Programmen jeweils von den aktuellen Versionen, die für einen 11.2 mit default-kernel in einer x86_64 Umgebung zu haben sind. KDE ist bei mir der 4.4, aktuelles Release. Die Kooka-Problematik führe ich unter Umständen hierauf zurück. Das ist aber nur eine Vermutung. Wie auch immer: Ich würde mich über Tipps freuen, die OCR wieder verwendungsfähig machen - in einer KDE 4.4 Umgebung nach Möglichkeit. Möchte ungern wieder auf 4.3 oder 4.1 wechseln. Beste Grüße Christoph v. Gallera
Am Mittwoch, 17. März 2010 schrieb Christoph von Gallera:
(...). name_to_image_type:Error:Unrecognized image type:rezepte.jpg (...).
jpeg ist IMHO ein denkbar schlechtes Format für Texterkennung! Und offensichtlich kann tesseract auch nichts damit anfangen. Probiers doch mal mit einem unkomprimierten tiff. Gruß Jan -- If you consult enough experts, you can confirm any opinion. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hi Christoph, ich habe das früher mal so mit recht gutem Erfog gemacht. Scannen mit kooka - binary, 600 dpi speichern als .pbm OCR mit ocrad inputdateiname.pbm -o zeitdateiname.txt Das ging ganz gut. ocrad ging , so glaube ich, bei mir besser als gocr. HTH Timothy -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
Hallo, helfen kann ich Dir leider nicht. Aber passen zum Thema: Ich versuche mich gerade auch an OCR. An gocr hatte ich mich vor längerer Zeit mal probiert und es dann wieder aufgegeben. Ich fand es zu umständlich und die Ergebnisse waren - jedenfalls bei mir - nicht berauschend. Ich bin dann später eher durch Zufall auf cuneiform gestoßen. Zwar muss man auch hier die Bilder am besten ins bmp-Format bringen (jgeg ist wirklich kein gutes Format für OCR schon wegen der Artefakte). Aber das Umwandeln ist dank convert kein Problem und lässt sich in einem Skript machen. Von den ersten Ergebnissen war ich sehr beeindruckt. Wir archivieren unsere Schreiben hier im verlustfreien und vor allem offenen png-Format. Da die Bilder recht groß werden, haben sie in Anlehnung an die immer noch übliche Fax-Auflösung nur 200 dpi in X- und Y-Richtung bei teilweise sehr kleiner Schrift. Ich habe einfach mit diesen Bildern begonnen. Dennoch fand ich die Ergebnisse beeindruckend. Es gibt - so nebenbei - im Netz auch ein schönes howto, wie man z.B. sog. Sandwich-pdf damit erstellen kann: http://www.auxnet.de/blog/blog-post/2009/04/02/cuneiform-und-hocr2pdf-unter-... Wenn Du die Bilder nicht neu einscannen kannst und womöglich nur als jpeg hast, dann dürfte das schwierig werden. Gruß, Alex -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org
participants (4)
-
Alexander Winzer
-
Christoph von Gallera
-
Jan Ritzerfeld
-
Timothy Kesten