Am Wed, 26 Oct 2016 11:49:51 +0300 schrieb "K. Elo" <maillists@pp.inet.fi>:
Moin allerseits!
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Die Frage: gäbe es irgendwelche Tools, mit dem ich die PDF-Tabellen in ODT/CSV konvertieren könnten, ohne die Struktur zu verlieren? Ich suche nicht nach 1:1-Ergebnis, aber die Zelleninhalte sollten eindeutig identifizierbar sein...
Hallo Kimmo es sieht so aus, als gäbe es kein Tool, das das in einem Rutsch macht. Ich würde mit mit pdftohtml in HTML wandeln und dann perl auswerten. sed oder awk gehen sicher auch. FF viel Vergnügen Heiner -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org