Norbert Zawodsky [23.09.2016 11:11]:
Am 22.09.2016 um 19:12 schrieb Jan Ritzerfeld:
Am Donnerstag, 22. September 2016, 10:33:11 schrieb Handwerker, Jan:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft. Die Dinger werden gerne Sandwich PDF genannt. Ich habe eine iPhone-App, solche PDFs erzeugt.
Ich finde das absolut genial. Ich auch.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht. https://software.opensuse.org/package/pdfsandwich?search_term=pdfsandwich
Viele Grüße Jan
Leider wieder mal "das Übliche"
pdfsandwich klingt sehr interessant, also Paket für meine OS (13.2) runtergeladen und mit yast installiert. Ging anstandslos.
Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert.
Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach
Ich hätte mir jetzt mal ein "zypper se magic" gegönnt und nachgesehen, ob was mit Python dabei ist. Bei mir (Leap 42.1) kommt ein Paket python-magic in Betracht. "zypper info python-magic" sagt mir 'This package contains the python binding that require the magic "file" interface.'. Das könnte also das sein, was Du suchst. HDH, Werner --