TIFF oder PDF mit ocrad "erkennen" (OCR für Linux)
Hallo Liste, wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte? mfG Bernward Otto
Am Mittwoch, 22. Februar 2006 14:02 schrieb Bernward Otto - SuSE-Linux-Liste:
Hallo Liste,
wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte?
Hallo Otto, PDF kann man unmittelbar mit pdftotext wandeln. Ist im Paket xpdf enthalten. Mit convert aus dem Paket ImageMagick kannst fast alle Bilder wandeln. Gruß Heiner
... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit convert datei.tif datei.pgm ins pgm-Format umgewandelt und anschließend mit pgmtopbm datei.pgm > datei.pbm eine pbm-Datei erzeugt, die ich wiederum mit cat datei.pbm | ocrad -v -o datei.txt in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ... Irgendwelche anderen Ideen? mfG Bernward Otto Heiner Kuhlmann schrieb:
Am Mittwoch, 22. Februar 2006 14:02 schrieb Bernward Otto - SuSE-Linux-Liste:
Hallo Liste,
wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte?
Hallo Otto,
PDF kann man unmittelbar mit pdftotext wandeln. Ist im Paket xpdf enthalten.
Mit convert aus dem Paket ImageMagick kannst fast alle Bilder wandeln.
Gruß Heiner
Am Mittwoch, 22. Februar 2006 15:33 schrieb Bernward Otto - SuSE-Linux-Liste:
... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit
convert datei.tif datei.pgm
ins pgm-Format umgewandelt und anschließend mit
pgmtopbm datei.pgm > datei.pbm
eine pbm-Datei erzeugt, die ich wiederum mit
cat datei.pbm | ocrad -v -o datei.txt
in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ...
Irgendwelche anderen Ideen?
convert datei.tif datei.bpm ginge auch. Das Problem scheint aber die Konvertierung eines farbigen Bildes in ein schwarz-weißes zu sein. Eventuell helfen Funktionen (Optionen) von convert: man convert und man ImageMagick. Hast Du Dir das Bild datei.bpm mal angesehen? Heiner
... und wie wird die bpm-Datei dann weiterverarbeitet? ocrad verlangt eine pbm-Datei ... mfG Bernward Otto Heiner Kuhlmann schrieb:
Am Mittwoch, 22. Februar 2006 15:33 schrieb Bernward Otto - SuSE-Linux-Liste:
... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit
convert datei.tif datei.pgm
ins pgm-Format umgewandelt und anschließend mit
pgmtopbm datei.pgm > datei.pbm
eine pbm-Datei erzeugt, die ich wiederum mit
cat datei.pbm | ocrad -v -o datei.txt
in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ...
Irgendwelche anderen Ideen?
convert datei.tif datei.bpm
ginge auch. Das Problem scheint aber die Konvertierung eines farbigen Bildes in ein schwarz-weißes zu sein. Eventuell helfen Funktionen (Optionen) von convert: man convert und man ImageMagick.
Hast Du Dir das Bild datei.bpm mal angesehen?
Heiner
... dann stellt sich auch wieder die Frage, wie weiterverarbeiten. Ich hab' inzwischen auch den Versuch mit convert datei.pdf datei.pbm gemacht, allerdings steigt ocrad mit einer Fehlermeldung aus ... mfG Bernward Heiner Kuhlmann schrieb:
Am Freitag, 24. Februar 2006 11:09 schrieb Bernward Otto - SuSE-Linux-Liste:
... und wie wird die bpm-Datei dann weiterverarbeitet? ocrad verlangt eine pbm-Datei ...
Tippfehler :-) sollte
convert datei.tif datei.bgm
sein.
Gruß Heiner
participants (2)
-
Bernward Otto - SuSE-Linux-Liste
-
Heiner Kuhlmann