Hallo, vielen Dank für eure schnellen und vielseitigen Antworten. Mein Verdacht wurde bestätigt, es gibt keinen einfachen Weg :) OCR hatte ich schon ausprobiert, die Resultate waren eher für '/dev/null'. Am besten erscheint mir der Weg PDF->HTML->python/awk/sed, da kenne ich mich auch am besten aus, so das es recht zügig klappen sollte... Man fragt sich nur, warum die "Datenquelle" Tabellen nur als PDF freigibt. Ich kann die Quelle aber nicht beeinflussen, muss mich also mit der Materiallage begnügen. Nochmals vielen Dank! BG, Kimmo 27.10.2016, 09:12, Heinz W. Pahlke schrieb:
Hallo,
Am Wed, 26 Oct 2016, K. Elo schrieb:
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Ohne Nachbearbeitung geht es nicht. Dafür ist das PDF-Format nun einmal nicht gedacht. Selbst Adobe bringt es nicht fertig. Auch mit Adobe Acrobat umgewandelte Dateien erfordern viel Nacharbeit.
Besser gelingt es teilweise mit OCR-Programmen wie Abby Finereader, aber da muss man eben zumindest alle Zahlen genau nachprüfen.
Acrobat und Finereader gibt es zudem nur für Windows.
Testen könntest du noch Calibre, aber nach meinen Erfahrungen bringt das auch nicht viel.
Beste Grüße
Heinz
-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org