PDF-Tabelle in Text/ODT konventieren

26 Oct 2016

      Moin allerseits!

Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese 
jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten 
jedoch konvertieren, am liebesten in Textformat.

Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer 
wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es 
handelt sich um bloße fehldende Daten.

Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien 
konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu 
identifizieren (was in meinem Fall wichtig ist, um die Daten 
einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' 
kriege ich schon die Struktur recht gut hin, muss aber recht viel 
nachbessern.

Die Frage: gäbe es irgendwelche Tools, mit dem ich die PDF-Tabellen in 
ODT/CSV konvertieren könnten, ohne die Struktur zu verlieren? Ich suche 
nicht nach 1:1-Ergebnis, aber die Zelleninhalte sollten eindeutig 
identifizierbar sein...

Danke schon im Voraus!

BG, Kimmo

-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um den Listen Administrator zu erreichen, schicken
Sie eine Mail an: opensuse-de+owner@opensuse.org

PDF-Tabelle in Text/ODT konventieren

K. Elo