Re: Texterkennung in pdf-Datei

24 Sep 2016

      Hallo Jan, liebe Liste

On 22.09.2016 10:33, Handwerker, Jan (IMK) wrote:
...
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich
eingescannte Dokumente enthalten (man sieht den Briefbogen,
Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen
und Text markieren. Offensichtlich ist eine OCR über den Scan
gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
[...]
als einer, der das Vorhaben selber noch nicht angefangen hat und deshalb gar nicht so richtig weiß, wovon er redet, möchte ich hier noch auf zwei Webseiten zum Thema hinweisen, die ich mir vor geraumer Zeit mal zusammengesucht habe, weil auch ich das mit der Text-Layer im PDF ja irgendwann doch noch mal in Angriff nehmen möchte.

Tesseract kommt auch vor, ist ja hier schon in der Diskussion, aber beide besprechen auch die Möglichkeit, Tesseract eben nicht nur als Arbeitspferd von PDFSandwich zu nutzen, sondern sich eine Scriptumgebung drumherum maßzuschneidern, was ich in der Diskussion hier bislang nicht gelesen oder überlesen habe ... Langer Rede kurze Links:

https://dr-luthardt.de/linux.htm?tip=pdfx
http://www.konradvoelkel.com/2013/03/scan-to-pdfa/

Onkel Hulbee und Tante Startpage kennen vermutlich noch einige ähnliche Seiten; auf github ist bestimmt auch was, aber meine Schnellsuche hat es nicht zu Tage fördern können ...

Gutes Gelingen, groetjes, Jörg

-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+owner@opensuse.org

Re: Texterkennung in pdf-Datei

Joerg Tiemann