Hallo Kimmo, hallo zusammen, Am Donnerstag, 27. Oktober 2016, 21:25:54 CEST schrieb K. Elo:
Jep, LO Draw liest PDF schon ein, jedoch sind alle Texte als Textframes vorhanden. Mit einer Tabelle mit ein paar Zeilen wäre dies sicherlich kein Problem, meine Tabelle hat aber ca. 2000 Zellen... (ca. 400 Zeilen mit je 5 Spalten).
Nur mal als Idee: Das LibreOffice-Dateiformat ist ein ZIP und darin XML. Ich würde vermuten, dass es zu den Textframes jeweils die Koordinaten gibt - und anhand derer könntest Du die Position des jeweiligen Frames in eine Zelle "übersetzen". Hmm, eigentlich[tm] ist PDF auch nur ein Textformat [1] mit Formatierungsanweisungen - Du könntest also auch direkt das PDF auswerten. Guck mal mit $EDITOR ins PDF ;-) Ich sage nicht, dass die Umsetzung dieser Idee schnell geht und/oder eine schöne Lösung ergibt, aber es sollte funktionieren ;-) Startpage (Suchbegriff "pdf extract table" [2]) liefert ein paar Alternativen, die deutlich weniger schmerzhaft sind: - http://tabula.technology/ - "Tabula is a tool for liberating data tables locked inside PDF files." (Java-Programm) - https://pdftables.com/ - Onlineservice, geringe Seitenzahlen kostenlos - http://pdftoxls.com/ - Onlineservice, alphaversion Alles ungetestet ;-) - ich hätte aber Interesse an Deinen Testergebnissen. Gruß Christian Boltz [1] es gibt allerdings auch eine Binärversion davon - die lässt sich mit ghostscript o. ä. ins Textformat umwandeln. Falls Du direkt mit dem PDF arbeiten willst, würde ich einen Blick auf https://leanpub.com/pdfkungfoo empfehlen, und/oder speziell für Binär -> Text auf http://stackoverflow.com/questions/3446651/ [2] https://www.startpage.com/do/search?query=pdf+extract+table -- Oh, I'm being an ass sometimes too, don't think I'm an angel here, or 'without sin'. [Jos Poortvliet in opensuse-factory] -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org