Texterkennung in pdf-Datei
Liebe Liste, manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft. Ich finde das absolut genial. Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht. Herzliche Grüße Jan -- _________________________________________________________________ Jan Handwerker http://www.imk-tro.kit.edu/jan.handwerker.php
Hallo Jan, Am 22.09.2016 um 10:33 schrieb Handwerker, Jan (IMK):
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
Ich finde das absolut genial.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht.
Herzliche Grüße Jan such mal nach OCRmyPDF - das könnte evtl. genau dein Tool sein.
Gruß Martin -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 22.09.2016 um 10:33 schrieb Handwerker, Jan (IMK):
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
Ich finde das absolut genial.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht.
Herzliche Grüße Jan
Es könnte aber auch genau umgekehrt sein. Man nehme, z.B. in LibreOffice, ein leeres Textdokument, plaziere "Briefbogen, Unterschriften und Stempel", wie Du es nennst, als grafische Images. Dann den Text schreiben und das ganze als PDF exportieren. Schon hast Du genau das was Du manchmal zugemailt bekommst. Text mit Bildern "gemischt". Habe vor einigen Jahren mal viele viele Stunden mit OCR "verbraten". Es war nur frustrierend. Vielleicht ist es ja jetzt besser, aber damals war absolut kein brauchbares Ergebnis zu bekommen. Grüße, Norbert -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Norbert, Am 22.09.2016 um 12:14 schrieb Norbert Zawodsky:
Am 22.09.2016 um 10:33 schrieb Handwerker, Jan (IMK):
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
Es könnte aber auch genau umgekehrt sein.
Man nehme, z.B. in LibreOffice, ein leeres Textdokument, plaziere "Briefbogen, Unterschriften und Stempel", wie Du es nennst, als grafische Images. Dann den Text schreiben und das ganze als PDF exportieren.
Schon hast Du genau das was Du manchmal zugemailt bekommst. Text mit Bildern "gemischt".
so könnte man so eine Datei erstellen. Stimmt. Bei den Beispielen, die ich meine, handelt es sich aber um Schriftverkehr, der vom Empfänger digitalisiert wird. Das macht dieser Empfänger systematisch und offensichtlich hat er dafür eine spezielle Hard- und Software, die das geschäftsmäßig erledigt. Gruß Jan -- _________________________________________________________________ Jan Handwerker http://www.imk-tro.kit.edu/jan.handwerker.php
Am Thu, 22 Sep 2016 13:18:43 +0200 schrieb "Handwerker, Jan (IMK)" <jan.handwerker@kit.edu>:
Schon hast Du genau das was Du manchmal zugemailt bekommst. Text mit Bildern "gemischt".
so könnte man so eine Datei erstellen. Stimmt. Bei den Beispielen, die ich meine, handelt es sich aber um Schriftverkehr, der vom Empfänger digitalisiert wird. Das macht dieser Empfänger systematisch und offensichtlich hat er dafür eine spezielle Hard- und Software, die das geschäftsmäßig erledigt.
Dokumente die mit dem Textsatz-System TeX/LaTeX/XeTeX (TexLive 2016) als PDF erstellt worden sind verhalten sich auch so wie beschrieben. https://www.tug.org/texlive/ -- Mit freundlichen Grüßen Kind Regards Peter Ragosch -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Donnerstag, 22. September 2016, 10:33:11 schrieb Handwerker, Jan:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
Die Dinger werden gerne Sandwich PDF genannt. Ich habe eine iPhone-App, solche PDFs erzeugt.
Ich finde das absolut genial.
Ich auch.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht.
https://software.opensuse.org/package/pdfsandwich?search_term=pdfsandwich Viele Grüße Jan -- A closed mouth gathers no feet. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 22.09.2016 um 19:12 schrieb Jan Ritzerfeld:
Am Donnerstag, 22. September 2016, 10:33:11 schrieb Handwerker, Jan:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft. Die Dinger werden gerne Sandwich PDF genannt. Ich habe eine iPhone-App, solche PDFs erzeugt.
Ich finde das absolut genial. Ich auch.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht. https://software.opensuse.org/package/pdfsandwich?search_term=pdfsandwich
Viele Grüße Jan
Leider wieder mal "das Übliche" pdfsandwich klingt sehr interessant, also Paket für meine OS (13.2) runtergeladen und mit yast installiert. Ging anstandslos. Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert. Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf Eine weitere 1/2 Stunde im google erfolglos nach einer Lösung für "distribution was not found and is required by" gesucht. Da geht es offenbar an Python-Internes und ich habe weder Lust und noch weniger Zeit mich in Python einzuarbeiten. Über 1 stunde verbraten, aufgegeben. Schade. wäre interessant gewesen. Grüße, Norbert -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Norbert Zawodsky [23.09.2016 11:11]:
Am 22.09.2016 um 19:12 schrieb Jan Ritzerfeld:
Am Donnerstag, 22. September 2016, 10:33:11 schrieb Handwerker, Jan:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft. Die Dinger werden gerne Sandwich PDF genannt. Ich habe eine iPhone-App, solche PDFs erzeugt.
Ich finde das absolut genial. Ich auch.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht. https://software.opensuse.org/package/pdfsandwich?search_term=pdfsandwich
Viele Grüße Jan
Leider wieder mal "das Übliche"
pdfsandwich klingt sehr interessant, also Paket für meine OS (13.2) runtergeladen und mit yast installiert. Ging anstandslos.
Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert.
Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach
Ich hätte mir jetzt mal ein "zypper se magic" gegönnt und nachgesehen, ob was mit Python dabei ist. Bei mir (Leap 42.1) kommt ein Paket python-magic in Betracht. "zypper info python-magic" sagt mir 'This package contains the python binding that require the magic "file" interface.'. Das könnte also das sein, was Du suchst. HDH, Werner --
Am 23.09.2016 um 11:37 schrieb Werner Flamme:
Am 22.09.2016 um 19:12 schrieb Jan Ritzerfeld:
Am Donnerstag, 22. September 2016, 10:33:11 schrieb Handwerker, Jan:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft. Die Dinger werden gerne Sandwich PDF genannt. Ich habe eine iPhone-App, solche PDFs erzeugt.
Ich finde das absolut genial. Ich auch.
Nun wüsste ich natürlich gerne, ob ich das mit meinen eigenen Scans auch irgendwie bewerkstelligen kann. Gibt es ein Tool, dem ich eine reine Grafik-pdf Datei geben kann und das mir dann eine verknüpfte Text- und Grafik-pdf Datei ausspuckt? Eine reine OCR meine ich nicht. https://software.opensuse.org/package/pdfsandwich?search_term=pdfsandwich
Viele Grüße Jan Leider wieder mal "das Übliche"
pdfsandwich klingt sehr interessant, also Paket für meine OS (13.2) runtergeladen und mit yast installiert. Ging anstandslos.
Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert.
Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach Ich hätte mir jetzt mal ein "zypper se magic" gegönnt und nachgesehen, ob was mit Python dabei ist. Bei mir (Leap 42.1) kommt ein Paket
Norbert Zawodsky [23.09.2016 11:11]: python-magic in Betracht. "zypper info python-magic" sagt mir 'This package contains the python binding that require the magic "file" interface.'. Das könnte also das sein, was Du suchst.
HDH, Werner
Ok, ich habs halt mit yast gemacht, und nicht mit zypper. Nachdem in der Fehlermeldung "filemagic" steht habe ich im yast nach "filemagic" gesucht: "keine Ergebnisse" Dann habe ich nach "file-magic" gesucht: gibt mir ein paket "file-magic" welches ohnehin installiert ist. Ich bin leider nicht auf Idee gekommen nur nach "magic" zu suchen Habe jetzt also das paket "python-magic" installiert und wieder pdfsandwich versucht Leider nach wie vor die Fehlermeldung "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr" Norbert -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Norbert Zawodsky [23.09.2016 11:48]:
Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach
Ich hätte mir jetzt mal ein "zypper se magic" gegönnt und nachgesehen, ob was mit Python dabei ist. Bei mir (Leap 42.1) kommt ein Paket python-magic in Betracht. "zypper info python-magic" sagt mir 'This package contains the python binding that require the magic "file" interface.'. Das könnte also das sein, was Du suchst.
HDH, Werner
Ok, ich habs halt mit yast gemacht, und nicht mit zypper.
Nachdem in der Fehlermeldung "filemagic" steht habe ich im yast nach "filemagic" gesucht: "keine Ergebnisse" Dann habe ich nach "file-magic" gesucht: gibt mir ein paket "file-magic" welches ohnehin installiert ist. Ich bin leider nicht auf Idee gekommen nur nach "magic" zu suchen
Habe jetzt also das paket "python-magic" installiert und wieder pdfsandwich versucht
Leider nach wie vor die Fehlermeldung "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr"
Norbert
Tja dann... Auf <https://pypi.python.org/pypi/filemagic/> finde ich den Hinweis, "pip install filemagic" zu verwenden. Der Befehl pip ist im Paket python-pip enthalten... HDH, Werner --
Am 23.09.2016 um 12:37 schrieb Werner Flamme:
Norbert Zawodsky [23.09.2016 11:48]:
Aufruf 2. Versuch scheitert wieder da es während der Ausführung wiederholt den Fehler gibt "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr". Zusätzlich während der Ausführung mehrfach Ich hätte mir jetzt mal ein "zypper se magic" gegönnt und nachgesehen, ob was mit Python dabei ist. Bei mir (Leap 42.1) kommt ein Paket python-magic in Betracht. "zypper info python-magic" sagt mir 'This package contains the python binding that require the magic "file" interface.'. Das könnte also das sein, was Du suchst.
HDH, Werner
Ok, ich habs halt mit yast gemacht, und nicht mit zypper.
Nachdem in der Fehlermeldung "filemagic" steht habe ich im yast nach "filemagic" gesucht: "keine Ergebnisse" Dann habe ich nach "file-magic" gesucht: gibt mir ein paket "file-magic" welches ohnehin installiert ist. Ich bin leider nicht auf Idee gekommen nur nach "magic" zu suchen
Habe jetzt also das paket "python-magic" installiert und wieder pdfsandwich versucht
Leider nach wie vor die Fehlermeldung "pkg_resources.DistributionNotFound: The 'filemagic' distribution was not found and is required by hocr"
Norbert
Tja dann...
Auf <https://pypi.python.org/pypi/filemagic/> finde ich den Hinweis, "pip install filemagic" zu verwenden. Der Befehl pip ist im Paket python-pip enthalten...
HDH, Werner
Die nächste kryptische Meldung: rincewind:~ # pip install filemagic Downloading/unpacking filemagic Downloading filemagic-1.6.tar.gz Running setup.py (path:/tmp/pip_build_root/filemagic/setup.py) egg_info for package filemagic Installing collected packages: filemagic Running setup.py install for filemagic Could not find .egg-info directory in install record for filemagic Successfully installed filemagic Cleaning up... rincewind:~ # Außerdem hätte ich schon erwartet dass das "automatisch" abläuft, wenn ich filemagic über yast installiere.. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Freitag, 23. September 2016, 11:11:18 schrieb Norbert Zawodsky:
(...). Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert. (...). Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf (...).
13.2, okay. Probier mal das neuere tesseract 3.04.1 aus dem Publishing- Repositrory zu installieren aus dem du auch pdfsandwich her hast. Denn neuere Versionen von pdfsandwich benutzen gar kein hocr mehr sobald tesseract >= 3.03 installiert ist und du hast "nur" das offizielle 3.02 installiert. Gruß Jan -- You cannot successfully determine beforehand which side of the bread to butter. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 23.09.2016 um 21:08 schrieb Jan Ritzerfeld:
Am Freitag, 23. September 2016, 11:11:18 schrieb Norbert Zawodsky:
(...). Aufruf 1. Versuch scheitert da es offenbar "hocr2pdf" benötigt, das rpm das offenbar aber nicht "kommuniziert". Also hocr2pdf gesucht, in einem devel:lang:python repo gefunden, installiert. (...). Tesseract Open Source OCR Engine v3.02.02 with Leptonica read_params_file: Can't open pdf (...). 13.2, okay. Probier mal das neuere tesseract 3.04.1 aus dem Publishing- Repositrory zu installieren aus dem du auch pdfsandwich her hast. Denn neuere Versionen von pdfsandwich benutzen gar kein hocr mehr sobald tesseract >= 3.03 installiert ist und du hast "nur" das offizielle 3.02 installiert.
Gruß Jan
Ich finde in http://download.opensuse.org/repositories/Publishing/openSUSE_13.2/x86_64/ nur tesseract 3.02.02 -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Freitag, 23. September 2016, 22:06:41 schrieb Norbert Zawodsky:
(...). Ich finde in http://download.opensuse.org/repositories/Publishing/openSUSE_13.2/x86_64/ nur tesseract 3.02.02
Ach Mist, sorry, da hat sich die openSUSE-Software-Suche wieder auf mein Leap 42.1 umgestellt. Hier gibt es aber 3.04.01 für 13.2: http://download.opensuse.org/repositories/home:/frispete:/graphics/openSUSE_... Gruß Jan -- I am drinking to drown my problems, but these goddamn bastards can swim! -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 23.09.2016 um 22:54 schrieb Jan Ritzerfeld:
Am Freitag, 23. September 2016, 22:06:41 schrieb Norbert Zawodsky:
(...). Ich finde in http://download.opensuse.org/repositories/Publishing/openSUSE_13.2/x86_64/ nur tesseract 3.02.02 Ach Mist, sorry, da hat sich die openSUSE-Software-Suche wieder auf mein Leap 42.1 umgestellt. Hier gibt es aber 3.04.01 für 13.2: http://download.opensuse.org/repositories/home:/frispete:/graphics/openSUSE_...
Gruß Jan
Hey cool. Jetzt funktioniert es! Die OCR Erkennung ist fantastisch. Habe mal meine letzte Stromrechnung eingescannt und dann mit pdfsandwich bearbeitet. Texte und Zahlen werden alle richtig erkannt. ABER: Öffne ich das erzeugte PDF mit okular und suche ich darin mit Strg-F nach dem Text "Jahresabrechnung" wird er NICHT gefunden. Suche ich allerdings nach dem Text "J a h r e s a b r e c h n u n g" wird er gefunden, und das an der richtigen Stelle! Und das gilt für jedes Wort im Text. OCR scheint nach jedem Zeichen ein Leerzeichen einzufügen. Hmmm... -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Freitag, 23. September 2016, 23:31:42 schrieb Norbert Zawodsky:
(...). Die OCR Erkennung ist fantastisch. Habe mal meine letzte Stromrechnung eingescannt und dann mit pdfsandwich bearbeitet. Texte und Zahlen werden alle richtig erkannt.
Das freut mich.
(...). OCR scheint nach jedem Zeichen ein Leerzeichen einzufügen.
Ja. Liegt irgendwie am Zusammenspiel mit ghostscript: https://sourceforge.net/p/pdfsandwich/bugs/10/ Die neue Version 0.1.5 von pdfsandwich benutzt statt ghostscript pdfinfo und pdfunite. Die ist vom 4.8.2016 und noch nicht in den openSUSE-Repos. Gruß Jan -- All's fair in Love and War (Is there a difference?) -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Fri, 23 Sep 2016 22:54:30 +0200 schrieb Jan Ritzerfeld <suse@mailinglists.jan.ritzerfeld.org>:
Am Freitag, 23. September 2016, 22:06:41 schrieb Norbert Zawodsky:
(...). Ich finde in http://download.opensuse.org/repositories/Publishing/openSUSE_13.2/x86_64/ nur tesseract 3.02.02
Ach Mist, sorry, da hat sich die openSUSE-Software-Suche wieder auf mein Leap 42.1 umgestellt. Hier gibt es aber 3.04.01 für 13.2: http://download.opensuse.org/repositories/home:/frispete:/graphics/openSUSE_...
tesseract wird erst richtig gut, wenn Wortlisten verwendet werden. Bei meinen tesseract-3.02.831-20.1 sind das tesseract-data-deu-3.02.831-20.1.noarch.rpm undtesseract-data-eng-3.02.831-20.1.noarch.rpm Die werden aber von OS nicht mitgeliefert. Starpage findet sie allerdings im Internet. Grüße Heiner -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Jan, liebe Liste On 22.09.2016 10:33, Handwerker, Jan (IMK) wrote:
Liebe Liste,
manchmal bekomme ich pdf-Dateien zugemailt, die ganz offensichtlich eingescannte Dokumente enthalten (man sieht den Briefbogen, Unterschriften und Stempel) und trotzdem kann ich nach Texten suchen und Text markieren. Offensichtlich ist eine OCR über den Scan gegangen und hat den (ASCII-)Text mit der Grafik verknüpft.
[...]
als einer, der das Vorhaben selber noch nicht angefangen hat und deshalb gar nicht so richtig weiß, wovon er redet, möchte ich hier noch auf zwei Webseiten zum Thema hinweisen, die ich mir vor geraumer Zeit mal zusammengesucht habe, weil auch ich das mit der Text-Layer im PDF ja irgendwann doch noch mal in Angriff nehmen möchte. Tesseract kommt auch vor, ist ja hier schon in der Diskussion, aber beide besprechen auch die Möglichkeit, Tesseract eben nicht nur als Arbeitspferd von PDFSandwich zu nutzen, sondern sich eine Scriptumgebung drumherum maßzuschneidern, was ich in der Diskussion hier bislang nicht gelesen oder überlesen habe ... Langer Rede kurze Links: https://dr-luthardt.de/linux.htm?tip=pdfx http://www.konradvoelkel.com/2013/03/scan-to-pdfa/ Onkel Hulbee und Tante Startpage kennen vermutlich noch einige ähnliche Seiten; auf github ist bestimmt auch was, aber meine Schnellsuche hat es nicht zu Tage fördern können ... Gutes Gelingen, groetjes, Jörg -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
participants (8)
-
Handwerker, Jan (IMK)
-
Heiner Kuhlmann
-
Jan Ritzerfeld
-
Joerg Tiemann
-
Martin Hofius
-
Norbert Zawodsky
-
Peter Ragosch
-
Werner Flamme