Hallo Jan, liebe Liste On 22.09.2016 10:33, Handwerker, Jan (IMK) wrote:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
[...]
als einer, der das Vorhaben selber noch nicht angefangen hat und deshalb gar nicht so richtig weiß, wovon er redet, möchte ich hier noch auf zwei Webseiten zum Thema hinweisen, die ich mir vor geraumer Zeit mal zusammengesucht habe, weil auch ich das mit der Text-Layer im PDF ja irgendwann doch noch mal in Angriff nehmen möchte. Tesseract kommt auch vor, ist ja hier schon in der Diskussion, aber beide besprechen auch die Möglichkeit, Tesseract eben nicht nur als Arbeitspferd von PDFSandwich zu nutzen, sondern sich eine Scriptumgebung drumherum maßzuschneidern, was ich in der Diskussion hier bislang nicht gelesen oder überlesen habe ... Langer Rede kurze Links: https://dr-luthardt.de/linux.htm?tip=pdfx http://www.konradvoelkel.com/2013/03/scan-to-pdfa/ Onkel Hulbee und Tante Startpage kennen vermutlich noch einige ähnliche Seiten; auf github ist bestimmt auch was, aber meine Schnellsuche hat es nicht zu Tage fördern können ... Gutes Gelingen, groetjes, Jörg -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org