TIFF oder PDF mit ocrad "erkennen" (OCR für Linux)

Bernward Otto - SuSE-Linux-Liste

22 Feb 2006 22 Feb '06

13:02

Hallo Liste, wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte? mfG Bernward Otto

Show replies by date

Heiner Kuhlmann

22 Feb 22 Feb

13:26

Am Mittwoch, 22. Februar 2006 14:02 schrieb Bernward Otto - SuSE-Linux-Liste:

...

Hallo Liste,

wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte?

Hallo Otto, PDF kann man unmittelbar mit pdftotext wandeln. Ist im Paket xpdf enthalten. Mit convert aus dem Paket ImageMagick kannst fast alle Bilder wandeln. Gruß Heiner

Bernward Otto - SuSE-Linux-Liste

14:33

... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit convert datei.tif datei.pgm ins pgm-Format umgewandelt und anschließend mit pgmtopbm datei.pgm > datei.pbm eine pbm-Datei erzeugt, die ich wiederum mit cat datei.pbm | ocrad -v -o datei.txt in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ... Irgendwelche anderen Ideen? mfG Bernward Otto Heiner Kuhlmann schrieb:

...

Am Mittwoch, 22. Februar 2006 14:02 schrieb Bernward Otto - SuSE-Linux-Liste:

...
Hallo Liste,

wie kann man unter SuSE 9.2 mit ocrad eine TIFF- oder PDF-Datei in bearbeitbaren Text umwandeln? Laut ocrad-Manual wird eine pbm-Datei benötigt. Bei den entsprechenden Konvertern **topbm habe ich aber noch nichts passendes gefunden. Irgendeine Idee , wie man hier vorgehen könnte?

Hallo Otto,

PDF kann man unmittelbar mit pdftotext wandeln. Ist im Paket xpdf enthalten.

Mit convert aus dem Paket ImageMagick kannst fast alle Bilder wandeln.

Gruß Heiner

Heiner Kuhlmann

15:35

Am Mittwoch, 22. Februar 2006 15:33 schrieb Bernward Otto - SuSE-Linux-Liste:

...

... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit

convert datei.tif datei.pgm

ins pgm-Format umgewandelt und anschließend mit

pgmtopbm datei.pgm > datei.pbm

eine pbm-Datei erzeugt, die ich wiederum mit

cat datei.pbm | ocrad -v -o datei.txt

in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ...

Irgendwelche anderen Ideen?

convert datei.tif datei.bpm ginge auch. Das Problem scheint aber die Konvertierung eines farbigen Bildes in ein schwarz-weißes zu sein. Eventuell helfen Funktionen (Optionen) von convert: man convert und man ImageMagick. Hast Du Dir das Bild datei.bpm mal angesehen? Heiner

Bernward Otto - SuSE-Linux-Liste

24 Feb 24 Feb

10:09

... und wie wird die bpm-Datei dann weiterverarbeitet? ocrad verlangt eine pbm-Datei ... mfG Bernward Otto Heiner Kuhlmann schrieb:

...

Am Mittwoch, 22. Februar 2006 15:33 schrieb Bernward Otto - SuSE-Linux-Liste:

...
... die Datei wird mit der Scan-Einheit eines Kopierers erzeugt, der automatisch das Scanergebnis in eine TIFF- oder PDF-Datei umwandelt (die PDF-Datei enthält dabei nicht den Text!) und die so entstandene Datei in einem Linux-Server-Verzeichnis ablegt. Ich habe jetzt testweise eine solche TIFF-Datei (Originaltextausdruck Schriftart Arial 12-Punkt, mit 600dpi eingescant) mit

convert datei.tif datei.pgm

ins pgm-Format umgewandelt und anschließend mit

pgmtopbm datei.pgm > datei.pbm

eine pbm-Datei erzeugt, die ich wiederum mit

cat datei.pbm | ocrad -v -o datei.txt

in eine Textdatei umgewandelt habe. Das Ergebnis ist allerdings nicht zu gebrauchen. Der Text läßt sich nur erahnen ...

Irgendwelche anderen Ideen?

convert datei.tif datei.bpm

ginge auch. Das Problem scheint aber die Konvertierung eines farbigen Bildes in ein schwarz-weißes zu sein. Eventuell helfen Funktionen (Optionen) von convert: man convert und man ImageMagick.

Hast Du Dir das Bild datei.bpm mal angesehen?

Heiner

Heiner Kuhlmann

11:36

Am Freitag, 24. Februar 2006 11:09 schrieb Bernward Otto - SuSE-Linux-Liste:

...

... und wie wird die bpm-Datei dann weiterverarbeitet? ocrad verlangt eine pbm-Datei ...

Tippfehler :-) sollte convert datei.tif datei.bgm sein. Gruß Heiner

Bernward Otto - SuSE-Linux-Liste

27 Feb 27 Feb

11:00

... dann stellt sich auch wieder die Frage, wie weiterverarbeiten. Ich hab' inzwischen auch den Versuch mit convert datei.pdf datei.pbm gemacht, allerdings steigt ocrad mit einer Fehlermeldung aus ... mfG Bernward Heiner Kuhlmann schrieb:

...

Am Freitag, 24. Februar 2006 11:09 schrieb Bernward Otto - SuSE-Linux-Liste:

...
... und wie wird die bpm-Datei dann weiterverarbeitet? ocrad verlangt eine pbm-Datei ...

Tippfehler :-) sollte

convert datei.tif datei.bgm

sein.

Gruß Heiner

6643

Age (days ago)

6648

Last active (days ago)

List overview

Download

6 comments

2 participants

participants (2)

Bernward Otto - SuSE-Linux-Liste
Heiner Kuhlmann