![](https://seccdn.libravatar.org/avatar/b15b3c42107eff333c4be0e8b0435ffd.jpg?s=120&d=mm&r=g)
Hallo, Am Wed, 26 Oct 2016, K. Elo schrieb:
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Ohne Nachbearbeitung geht es nicht. Dafür ist das PDF-Format nun einmal nicht gedacht. Selbst Adobe bringt es nicht fertig. Auch mit Adobe Acrobat umgewandelte Dateien erfordern viel Nacharbeit. Besser gelingt es teilweise mit OCR-Programmen wie Abby Finereader, aber da muss man eben zumindest alle Zahlen genau nachprüfen. Acrobat und Finereader gibt es zudem nur für Windows. Testen könntest du noch Calibre, aber nach meinen Erfahrungen bringt das auch nicht viel. Beste Grüße Heinz -- Buchsatz für Autoren. Vom Manuskript zum Buch www.pahlke-online.de Bücher abseits des Mainstreams www.buchentdeckungen.de Barrierefreies Webdesign www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org