Re: PDF-Tabelle in Text/ODT konventieren

27 Oct 2016

      Hallo,

Am Wed, 26 Oct 2016, K. Elo schrieb:
...
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte
diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die
Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer
wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es
handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien
konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu
identifizieren (was in meinem Fall wichtig ist, um die Daten
einzuordnen, die Option -layout hilft hier nicht weiter). Mit
'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber
recht viel nachbessern.
Ohne Nachbearbeitung geht es nicht. Dafür ist das PDF-Format nun
einmal nicht gedacht. Selbst Adobe bringt es nicht fertig. Auch mit 
Adobe Acrobat umgewandelte Dateien erfordern viel Nacharbeit.

Besser gelingt es teilweise mit OCR-Programmen wie Abby Finereader,
aber da muss man eben zumindest alle Zahlen genau nachprüfen.

Acrobat und Finereader gibt es zudem nur für Windows.

Testen könntest du noch Calibre, aber nach meinen Erfahrungen bringt
das auch nicht viel.

Beste Grüße

Heinz

-- 

Buchsatz für Autoren. Vom Manuskript zum Buch   www.pahlke-online.de
Bücher abseits des Mainstreams               www.buchentdeckungen.de
Barrierefreies Webdesign                www.Pahlke-KunstWebDesign.de
-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+owner@opensuse.org

Re: PDF-Tabelle in Text/ODT konventieren

Heinz W. Pahlke