Am 22.09.2016 um 19:12 schrieb Jan Ritzerfeld:
Am Donnerstag, 22. September 2016, 10:33:11 schrieb Handwerker, Jan:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft. Die Dinger werden gerne Sandwich PDF genannt. Ich habe eine iPhone-App, solche PDFs erzeugt.
Ich finde das absolut genial. Ich auch.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht. https://software.opensuse.org/package/pdfsandwich?search_term=pdfsandwich
Viele Grüße Jan
Leider wieder mal "das Übliche" pdfsandwich klingt sehr interessant, also Paket für meine OS (13.2) runtergeladen und mit yast installiert. Ging anstandslos. Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert. Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf Eine weitere 1/2 Stunde im google erfolglos nach einer Lösung für "distribution was not found and is required by" gesucht. Da geht es offenbar an Python-Internes und ich habe weder Lust und noch weniger Zeit mich in Python einzuarbeiten. Über 1 stunde verbraten, aufgegeben. Schade. wäre interessant gewesen. Grüße, Norbert -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org