PDF-Tabelle in Text/ODT konventieren
Moin allerseits! Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat. Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten. Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern. Die Frage: gäbe es irgendwelche Tools, mit dem ich die PDF-Tabellen in ODT/CSV konvertieren könnten, ohne die Struktur zu verlieren? Ich suche nicht nach 1:1-Ergebnis, aber die Zelleninhalte sollten eindeutig identifizierbar sein... Danke schon im Voraus! BG, Kimmo -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
On 10/26/2016 10:49 AM, K. Elo wrote:
Die Frage: gäbe es irgendwelche Tools, mit dem ich die PDF-Tabellen in ODT/CSV konvertieren könnten, ohne die Struktur zu verlieren? Ich suche nicht nach 1:1-Ergebnis, aber die Zelleninhalte sollten eindeutig identifizierbar sein...
Sofern KDE in Benutzung ist: In händischer Manier ließe sich das eventuell mittels Okular und dem Tabellen-Selektionswerkzeug (Strg+5) bewerkstelligen. Erst ein Rechteck um die gesamte Tabelle ziehen und am Rand der Selektion - sollte die automatische Erkennung nicht hinhauen - Trennelemente hinzufügen oder entfernen. Der kopierte Inhalt kann anschließend in LibreOffices Calc eingefügt werden. Ferner werden leere Zellen im Ausgangsdokument wie gewünscht leer bleiben. Bei größeren und komplexen Tabellenstrukturen artet es aber in Frickelei aus. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Wed, 26 Oct 2016 11:49:51 +0300 schrieb "K. Elo" <maillists@pp.inet.fi>:
Moin allerseits!
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Die Frage: gäbe es irgendwelche Tools, mit dem ich die PDF-Tabellen in ODT/CSV konvertieren könnten, ohne die Struktur zu verlieren? Ich suche nicht nach 1:1-Ergebnis, aber die Zelleninhalte sollten eindeutig identifizierbar sein...
Hallo Kimmo es sieht so aus, als gäbe es kein Tool, das das in einem Rutsch macht. Ich würde mit mit pdftohtml in HTML wandeln und dann perl auswerten. sed oder awk gehen sicher auch. FF viel Vergnügen Heiner -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Guten Morgen, Am 27.10.2016 um 07:29 schrieb Heiner Kuhlmann:
Am Wed, 26 Oct 2016 11:49:51 +0300 schrieb "K. Elo" <maillists@pp.inet.fi>:
Moin allerseits!
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Die Frage: gäbe es irgendwelche Tools, mit dem ich die PDF-Tabellen in ODT/CSV konvertieren könnten, ohne die Struktur zu verlieren? Ich suche nicht nach 1:1-Ergebnis, aber die Zelleninhalte sollten eindeutig identifizierbar sein...
M$ Word 2013 kann PDF lesen. Vielleicht noch Apaches PDFBox oder Tika? Habs aber (noch) nicht ausprobiert Viel Erfolg, Andreas -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 Hallo Andreas,
M$ Word 2013 kann PDF lesen.
Vielleicht noch Apaches PDFBox oder Tika? Habs aber (noch) nicht ausprobiert
LO allerdings schon wesentlich länger. Nur ist natürlich die Frage, wie dabei Tabellen behandelt werden. Gruß Robert -----BEGIN PGP SIGNATURE----- Version: GnuPG v2 iQIcBAEBAgAGBQJYEZZJAAoJELDKYwaoS9AIurMP/jjb2qIWd8GKmdFfBWodiRVk J2X4ubX9KbPpz96Oy6daF45kTvjRSGziVGzmlD7dtmcQ8M3CjPEMvZ+AFSRWYjbS gCWDVO6QPSW4ldCQ7M9j/bUr4vEJ9YN1QAv56qmeWx51sy+tPp36/rAQaqvFoJI5 icz89QvXZ2sjbiIHZri0lruO3LlRHbWa6jHC3a59Yjygnb+IGh4slQ+lB5AyUkKw 56sZziaWsv0RJd/zItCVzY2NnzRUrwdzQzRjotN6zSTHWRcqiDPicGDO6ezIoaUe YSdqt7nLATWdjaO4O2EJOuc7fYtqbk8XB3TP+KfRcFI4GOuORP22BvBheJ//KO3H g/MNOqEVeq4cALrIZ+yHJiTG/pPZUGP/9rwG0Bpi+qFSk0BPqXUzg5dYNT77zOMc ReoUYvcOYI3SGI9BVdSpoeydPIRTUS3yqtDoUkSEyIM3m5M3+ogYnoI6nOT/wmZc 4YGIHgX6aL1iElGggE09zC9E9vUehZTb9jorp7f6cHPcwBFweMvccxnR6dwsB+mT UVfaG3GzJi1oL1AdeS1o4sNWg48M+RoguJ3UCFgqI2vazGRVJm+14wPl/ZtTe1uK p/MZkEAkDEX6nhXtpcaYgsc5v1Quc9sCFiflXc8ibwfflI7RpUgfnwXRsIh4Vz7b jP8uprkJt2FOno826S7Y =ii/x -----END PGP SIGNATURE----- -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 27.10.2016 um 07:53 schrieb Robert Großkopf:
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1
Hallo Andreas,
M$ Word 2013 kann PDF lesen.
Vielleicht noch Apaches PDFBox oder Tika? Habs aber (noch) nicht ausprobiert
LO allerdings schon wesentlich länger.
aber nur als IMG in Draw und das ist leider meist zu wenig, wenn man es weiterverarbeiten will. Das kann Word "besser" und LO leider nicht. Andreas -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 Hallo Andreas,
M$ Word 2013 kann PDF lesen.
Vielleicht noch Apaches PDFBox oder Tika? Habs aber (noch) nicht ausprobiert
LO allerdings schon wesentlich länger.
aber nur als IMG in Draw und das ist leider meist zu wenig, wenn man es weiterverarbeiten will. Das kann Word "besser" und LO leider nicht.
Stimmt nicht. Ich lese das zwar in Draw ein, kann aber sehr wohl den Text bearbeiten. Der Text wird nämlich in entsprechende Felder umgesetzt . Ich habe jetzt eben noch einmal einen Test gemacht: Ein Dokument mit Tabelle und Grafik im Writer nach *.pdf exportiert und anschließend wieder aus dem *.pdf eingelesen. Die Tabelle wird bearbeitbar umgesetzt. Der einzige Nachteil dieser bisherigen Konstruktion: Ich erhalte keinen Fließtext sondern habe den gesamten Text eben Zeile für Zeile in Textfeldern sitzen. Gruß Robert -----BEGIN PGP SIGNATURE----- Version: GnuPG v2 iQIcBAEBAgAGBQJYEg+jAAoJELDKYwaoS9AInk8P/2dVJW4LV5Pwc7jtlALjWSEp 5dvt4bFwDwhrmyAnpTmK7JYB6HzplML8FeEJpKtD2Y2I17wpR3pqDx8Ejq/jEUbs ENJ3WDiCcYm0niI56FfUnQgddXHMbJIHdi/R9JIwC9ANFww5/7dEq/qRzl7M2HbO xT1i8+KPngomvJKM+GMf73oj7CKbs9tIsrDDTX+sb8hvLGEVuSgHStIF4HzJHTaG B/e3TRiZielaTtIPyJJ+2hEDenegg5jL0cN1JI3/Kc8oeYwDumpSNmeQj3Buiocj q+BBQPoUhn1nhWHSewKyRiOMF+KxVzt6e9vj0aQKaljlGE3dzEplEUSqA7lVgFFZ PM47o2LMfFmhxYAgS5A0Yc5EP6QClczxcmaCjwxWGbTKvKaVQkNAU49eVP1nNXDj 8Q79Y+0vQUxlApT8D33lwIKNSKu9u7OiY8lnNQtxZEIt9P2zdD9VjZ+e6hnKSqZk Y5lIdQDf6YYBZpmGuvu0/jLahhv4Vpaasxf/JnFBYRXs+IkoLnP2bXwcbuhVDqEG 4wbABg0ksY5ubAGJcV/SYdu0gMzF6BtCprBloZY7leDVEvwHKd/SV4lSWU8vzIZh 4gyjBUSV7jfK/yYBLK8taLgVSBmD/ePrmuIvVHS1gyCcHRDF3sT7F/svMz1ydPBF MRJtyZZSTX8OdUXjD5pg =8Nbr -----END PGP SIGNATURE----- -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo nochmals, 27.10.2016, 17:31, Robert Großkopf schrieb:
aber nur als IMG in Draw und das ist leider meist zu wenig, wenn man es weiterverarbeiten will. Das kann Word "besser" und LO leider nicht.
Stimmt nicht. Ich lese das zwar in Draw ein, kann aber sehr wohl den Text bearbeiten. Der Text wird nämlich in entsprechende Felder umgesetzt .
Ich habe jetzt eben noch einmal einen Test gemacht: Ein Dokument mit Tabelle und Grafik im Writer nach *.pdf exportiert und anschließend wieder aus dem *.pdf eingelesen. Die Tabelle wird bearbeitbar umgesetzt.
Der einzige Nachteil dieser bisherigen Konstruktion: Ich erhalte keinen Fließtext sondern habe den gesamten Text eben Zeile für Zeile in Textfeldern sitzen.
Jep, LO Draw liest PDF schon ein, jedoch sind alle Texte als Textframes vorhanden. Mit einer Tabelle mit ein paar Zeilen wäre dies sicherlich kein Problem, meine Tabelle hat aber ca. 2000 Zellen... (ca. 400 Zeilen mit je 5 Spalten). Habe jetzt mit M$ Word probiert und konnte die Tabelle einlesen und von dort aus in Excel kopieren und speichern. Soweit so gut, da ich aber meistens nur Linux-Rechner rum habe (keine dual-boots), möchte ich eine Linux-Lösung basteln :) Ich kriege ja jede Woche eine neue Tabelle zugemailt... BG, Kimmo -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Kimmo, hallo zusammen, Am Donnerstag, 27. Oktober 2016, 21:25:54 CEST schrieb K. Elo:
Jep, LO Draw liest PDF schon ein, jedoch sind alle Texte als Textframes vorhanden. Mit einer Tabelle mit ein paar Zeilen wäre dies sicherlich kein Problem, meine Tabelle hat aber ca. 2000 Zellen... (ca. 400 Zeilen mit je 5 Spalten).
Nur mal als Idee: Das LibreOffice-Dateiformat ist ein ZIP und darin XML. Ich würde vermuten, dass es zu den Textframes jeweils die Koordinaten gibt - und anhand derer könntest Du die Position des jeweiligen Frames in eine Zelle "übersetzen". Hmm, eigentlich[tm] ist PDF auch nur ein Textformat [1] mit Formatierungsanweisungen - Du könntest also auch direkt das PDF auswerten. Guck mal mit $EDITOR ins PDF ;-) Ich sage nicht, dass die Umsetzung dieser Idee schnell geht und/oder eine schöne Lösung ergibt, aber es sollte funktionieren ;-) Startpage (Suchbegriff "pdf extract table" [2]) liefert ein paar Alternativen, die deutlich weniger schmerzhaft sind: - http://tabula.technology/ - "Tabula is a tool for liberating data tables locked inside PDF files." (Java-Programm) - https://pdftables.com/ - Onlineservice, geringe Seitenzahlen kostenlos - http://pdftoxls.com/ - Onlineservice, alphaversion Alles ungetestet ;-) - ich hätte aber Interesse an Deinen Testergebnissen. Gruß Christian Boltz [1] es gibt allerdings auch eine Binärversion davon - die lässt sich mit ghostscript o. ä. ins Textformat umwandeln. Falls Du direkt mit dem PDF arbeiten willst, würde ich einen Blick auf https://leanpub.com/pdfkungfoo empfehlen, und/oder speziell für Binär -> Text auf http://stackoverflow.com/questions/3446651/ [2] https://www.startpage.com/do/search?query=pdf+extract+table -- Oh, I'm being an ass sometimes too, don't think I'm an angel here, or 'without sin'. [Jos Poortvliet in opensuse-factory] -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo, Am Wed, 26 Oct 2016, K. Elo schrieb:
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Ohne Nachbearbeitung geht es nicht. Dafür ist das PDF-Format nun einmal nicht gedacht. Selbst Adobe bringt es nicht fertig. Auch mit Adobe Acrobat umgewandelte Dateien erfordern viel Nacharbeit. Besser gelingt es teilweise mit OCR-Programmen wie Abby Finereader, aber da muss man eben zumindest alle Zahlen genau nachprüfen. Acrobat und Finereader gibt es zudem nur für Windows. Testen könntest du noch Calibre, aber nach meinen Erfahrungen bringt das auch nicht viel. Beste Grüße Heinz -- Buchsatz für Autoren. Vom Manuskript zum Buch www.pahlke-online.de Bücher abseits des Mainstreams www.buchentdeckungen.de Barrierefreies Webdesign www.Pahlke-KunstWebDesign.de -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo, vielen Dank für eure schnellen und vielseitigen Antworten. Mein Verdacht wurde bestätigt, es gibt keinen einfachen Weg :) OCR hatte ich schon ausprobiert, die Resultate waren eher für '/dev/null'. Am besten erscheint mir der Weg PDF->HTML->python/awk/sed, da kenne ich mich auch am besten aus, so das es recht zügig klappen sollte... Man fragt sich nur, warum die "Datenquelle" Tabellen nur als PDF freigibt. Ich kann die Quelle aber nicht beeinflussen, muss mich also mit der Materiallage begnügen. Nochmals vielen Dank! BG, Kimmo 27.10.2016, 09:12, Heinz W. Pahlke schrieb:
Hallo,
Am Wed, 26 Oct 2016, K. Elo schrieb:
Ich habe einige Forschungsdaten als PDF-Datei erhalten und möchte diese jetzt mit diversen Tools weiterarbeiten. Dafür sollte ich die Daten jedoch konvertieren, am liebesten in Textformat.
Das Problem ist, dass die PDFs Tabellen sind, in denen jedoch immer wieder leere Zellen vorkommen. Es gibt keine Systematik, sondern es handelt sich um bloße fehldende Daten.
Mit 'pdftotext' kann ich zwar die Datei mühelos in Textdateien konventieren, jedoch sind danach die Spalteninhalte nicht mehr zu identifizieren (was in meinem Fall wichtig ist, um die Daten einzuordnen, die Option -layout hilft hier nicht weiter). Mit 'pdf2html' kriege ich schon die Struktur recht gut hin, muss aber recht viel nachbessern.
Ohne Nachbearbeitung geht es nicht. Dafür ist das PDF-Format nun einmal nicht gedacht. Selbst Adobe bringt es nicht fertig. Auch mit Adobe Acrobat umgewandelte Dateien erfordern viel Nacharbeit.
Besser gelingt es teilweise mit OCR-Programmen wie Abby Finereader, aber da muss man eben zumindest alle Zahlen genau nachprüfen.
Acrobat und Finereader gibt es zudem nur für Windows.
Testen könntest du noch Calibre, aber nach meinen Erfahrungen bringt das auch nicht viel.
Beste Grüße
Heinz
-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am 27.10.2016 um 14:47 schrieb K. Elo:
Hallo,
Man fragt sich nur, warum die "Datenquelle" Tabellen nur als PDF freigibt. Ich kann die Quelle aber nicht beeinflussen, muss mich also mit der Materiallage begnügen.
BG, Kimmo Entweder die "Datenquelle" will verhindern dass ohne ihre Zustimmung ihre Daten maschinell weiterverarbeitet werden. Oder die Datenquelle kennt sich einfach nicht aus in der EDV Welt
-- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
participants (8)
-
Andreas Dafferner
-
Christian Boltz
-
dw
-
Heiner Kuhlmann
-
Heinz W. Pahlke
-
K. Elo
-
Norbert Zawodsky
-
Robert Großkopf