Unter Leap PDF-Dateien in durchsuchbare PDF-Dateien konvertieren

Hallo Liste, ich möchte auf meinem Rechner mit OpenSuSE Leap via Doku-Scanner gescannte Dateien (PDF oder PDF/A) in durchsuchbare PDF oder PDF/A-Dateien konvertieren. Ich habe hierzu gesehen, dass beispielsweise OCRmyPDF mit Tesseract verwendet werden kann. Hat hier irgendwer Erfahrungen mit diesen oder ähnlichen Programmen bzw. welche weiteren Lösungen gibt es, die hierzu erfolgreich eingesetzt werden? Im Idealfall würde ich einen Ordner für Scans nutzen, der dann alle neuen Scans mit einer OCR-PDF Lösung automatisch in durchsuchbare PDF-Dateien umwandelt. Über Hinweise und Tipps würde ich mich freuen. -- Viele Grüße Mathias Klose

Am 07.03.21 um 20:40 schrieb Mathias Klose:
Hallo Liste,
ich möchte auf meinem Rechner mit OpenSuSE Leap via Doku-Scanner gescannte Dateien (PDF oder PDF/A) in durchsuchbare PDF oder PDF/A-Dateien konvertieren. Ich habe hierzu gesehen, dass beispielsweise OCRmyPDF mit Tesseract verwendet werden kann.
Hat hier irgendwer Erfahrungen mit diesen oder ähnlichen Programmen bzw. welche weiteren Lösungen gibt es, die hierzu erfolgreich eingesetzt werden? Im Idealfall würde ich einen Ordner für Scans nutzen, der dann alle neuen Scans mit einer OCR-PDF Lösung automatisch in durchsuchbare PDF-Dateien umwandelt.
Über Hinweise und Tipps würde ich mich freuen. --
Viele Grüße
Mathias Klose
Hallo Mathias, das funktioniert sehr gut, auch bei nicht sehr guten Scans. In der ct erschien 2019 ein Artikel über das Verfahren. Ich habe mir dafür ein Script gebastelt, das mir eingescannte Dokumente in durchsuchbare PDF/A-Dateien konvertiert. Ich verkette einzelne pdf-Dateien zu einer einzigen, sorge für eine nicht zu hohe Auflösung (200 dpi) und wandle zum Schluss das Ergebnis mit meinem Tesseract-Script zu PDF/A. Den kopierten ct-Artikel kann ich Dir gerne per PM zukommen lassen. Viele Grüße, Klaus

Am 09.03.21 um 09:29 schrieb funedv@gmx.de:
Am 07.03.21 um 20:40 schrieb Mathias Klose:
Hallo Liste,
ich möchte auf meinem Rechner mit OpenSuSE Leap via Doku-Scanner gescannte Dateien (PDF oder PDF/A) in durchsuchbare PDF oder PDF/A-Dateien konvertieren. Ich habe hierzu gesehen, dass beispielsweise OCRmyPDF mit Tesseract verwendet werden kann.
Hat hier irgendwer Erfahrungen mit diesen oder ähnlichen Programmen bzw. welche weiteren Lösungen gibt es, die hierzu erfolgreich eingesetzt werden? Im Idealfall würde ich einen Ordner für Scans nutzen, der dann alle neuen Scans mit einer OCR-PDF Lösung automatisch in durchsuchbare PDF-Dateien umwandelt.
Über Hinweise und Tipps würde ich mich freuen. --
Viele Grüße
Mathias Klose Hallo Mathias,
das funktioniert sehr gut, auch bei nicht sehr guten Scans.
In der ct erschien 2019 ein Artikel über das Verfahren. Ich habe mir dafür ein Script gebastelt, das mir eingescannte Dokumente in durchsuchbare PDF/A-Dateien konvertiert.
Ich verkette einzelne pdf-Dateien zu einer einzigen, sorge für eine nicht zu hohe Auflösung (200 dpi) und wandle zum Schluss das Ergebnis mit meinem Tesseract-Script zu PDF/A.
Den kopierten ct-Artikel kann ich Dir gerne per PM zukommen lassen.
Viele Grüße, Klaus
Hallo Klaus, danke für die Info, das hört sich ja gut an. An dem Artikel aus der c't habe ich großes Interesse, bitte einfach mal via PM zuschicken. -- Vielen Dank und schöne Grüße Mathias

Am 09.03.21 10:34 schrieb Mathias Klose:
Am 09.03.21 um 09:29 schrieb funedv@gmx.de:
Am 07.03.21 um 20:40 schrieb Mathias Klose:
Hallo Liste,
ich möchte auf meinem Rechner mit OpenSuSE Leap via Doku-Scanner gescannte Dateien (PDF oder PDF/A) in durchsuchbare PDF oder PDF/A-Dateien konvertieren. Ich habe hierzu gesehen, dass beispielsweise OCRmyPDF mit Tesseract verwendet werden kann.
Hat hier irgendwer Erfahrungen mit diesen oder ähnlichen Programmen bzw. welche weiteren Lösungen gibt es, die hierzu erfolgreich eingesetzt werden? Im Idealfall würde ich einen Ordner für Scans nutzen, der dann alle neuen Scans mit einer OCR-PDF Lösung automatisch in durchsuchbare PDF-Dateien umwandelt.
Über Hinweise und Tipps würde ich mich freuen. --
Viele Grüße
Mathias Klose Hallo Mathias,
das funktioniert sehr gut, auch bei nicht sehr guten Scans.
In der ct erschien 2019 ein Artikel über das Verfahren. Ich habe mir dafür ein Script gebastelt, das mir eingescannte Dokumente in durchsuchbare PDF/A-Dateien konvertiert.
Ich verkette einzelne pdf-Dateien zu einer einzigen, sorge für eine nicht zu hohe Auflösung (200 dpi) und wandle zum Schluss das Ergebnis mit meinem Tesseract-Script zu PDF/A.
Den kopierten ct-Artikel kann ich Dir gerne per PM zukommen lassen.
Viele Grüße, Klaus
Hallo Klaus,
danke für die Info, das hört sich ja gut an. An dem Artikel aus der c't habe ich großes Interesse, bitte einfach mal via PM zuschicken. --
Vielen Dank und schöne Grüße
Mathias
Hallo Klaus, ich habe in diesem Thread gleich interessiert mitgelesen, da auch ich genau das schon seit längerem erreichen wollte. Meine ersten Versuche vor Monaten mit Tesseract waren nur leider äußerst enttäuschend. Tesseract hat weniger als 5% der Texte "erkannt". Wahrscheinlich hätte ich einfach nur "tunen" oder "trainieren" müssen. Aber die Zeit mich da hinein zu vertiefen hatte ich damals nicht. Könntest Du auch mir den Artikel per PM schicken? Und vielleicht Dein gebasteltes script ????? 😁😁 Danke! Norbert
participants (3)
-
funedv@gmx.de
-
Mathias Klose
-
Norbert Zawodsky