... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit convert datei.tif datei.pgm ins pgm-Format umgewandelt und anschließend mit pgmtopbm datei.pgm > datei.pbm eine pbm-Datei erzeugt, die ich wiederum mit cat datei.pbm | ocrad -v -o datei.txt in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ... Irgendwelche anderen Ideen? mfG Bernward Otto Heiner Kuhlmann schrieb:
Am Mittwoch, 22. Februar 2006 14:02 schrieb Bernward Otto - SuSE-Linux-Liste:
Hallo Liste,
wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte?
Hallo Otto,
PDF kann man unmittelbar mit pdftotext wandeln. Ist im Paket xpdf enthalten.
Mit convert aus dem Paket ImageMagick kannst fast alle Bilder wandeln.
Gruß Heiner