Tool zum Konvertieren von PDFs
Moin in die Runde, habe eine "Spezialanfrage" an die unter euch, die sich mit Ausgabehilfen für behinderte Menschen etwas auskennen. Habe hier ein PDF (gescannt mit Xsane), was ich gerne einem sehbehinderten Menschen, der mit Brailezeile arbeitet zugänglich machen möchte. Er selbst hat Windows als BS. Ich suche also ein Tool, welches das PDF in einen Text umwandelt (TXT, doc, odt-whatever). Hat jemand ne Idee? Danke im Voraus und ein schönes WE, Christian -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo Christian, Am 23.11.2013 05:00, schrieb Pubanz:
Moin in die Runde,
habe eine "Spezialanfrage" an die unter euch, die sich mit Ausgabehilfen für behinderte Menschen etwas auskennen.
Habe hier ein PDF (gescannt mit Xsane), was ich gerne einem sehbehinderten Menschen, der mit Brailezeile arbeitet zugänglich machen möchte. Er selbst hat Windows als BS.
auch als pdf gescannte Vorlagen sind meist nur als Bild eingelesen, um ausgabefähige Dokumente daraus zu machen bedarf es wohl oder übel ocr Software.
Ich suche also ein Tool, welches das PDF in einen Text umwandelt (TXT, doc, odt-whatever).
Hat jemand ne Idee?
Danke im Voraus und ein schönes WE,
Christian
Johannes -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Hallo, Am Sat, 23 Nov 2013, Pubanz schrieb:
Ich suche also ein Tool, welches das PDF in einen Text umwandelt (TXT, doc, odt-whatever).
Hat jemand ne Idee?
Wenig überraschend: pdftotext. Kommt aber nur mit eher einfachen Layouts klar. U.u. könnte noch ne Konvertierung nach PS (z.B. mit pdf2ps oder pdftopdf oder 'acroread -toPostScript foo.pdf foo.ps' und anschließend ein ps -> Text Konverter wie pstotext helfen. HTH, -dnh -- Relax, now there's Larts-R-Us! Here at Larts-R-Us we have /bins and /bins of tools, objects, materials and chemicals, as well as complete volumes on how to create, concoct, launch and deploy methods of revenge and retribution. -- Kevin in asr -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
Am Samstag, 23. November 2013, 05:00:02 schrieb Pubanz:
[...] Habe hier ein PDF (gescannt mit Xsane), was ich gerne einem sehbehinderten Menschen, der mit Brailezeile arbeitet zugänglich machen möchte. Er selbst hat Windows als BS.
Ich suche also ein Tool, welches das PDF in einen Text umwandelt (TXT, doc, odt-whatever).
Wie Johannes schon schrieb, brauchst du wohl ein OCR-Programm dafür, das das gescannte Bild in Text umwandelt. Probier mal das Kommandozeilentool hier aus: http://software.opensuse.org/package/tesseract Es kann sein, dass du das PDF aber wieder in ein PNG umwandeln musst. Umwandeln geht dann so: $ tesseract myscan.png out -l deu Oder noch einfacher, nimm diesen Web-Service, der auch auf tesseract aufbaut, aber nur falls es nichts "geheimes" ist: http://www.ocr-extract.com/ Das funktionierte unter Windows (FreeOCR) erträglich gut. Solange du das nicht häufig brauchst, wirst du die notwendige manuelle Nacharbeit wohl verkraften. Allerdings funktionieren die kommerziellen Tools deutlich besser: http://ocr4linux.com/_media/de:linux_magazin_07_2010_abbyy_ocr_test.pdf Gruß Jan -- The world wisely chooses happiness over wisdom. -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um den Listen Administrator zu erreichen, schicken Sie eine Mail an: opensuse-de+owner@opensuse.org
participants (4)
-
David Haller
-
Jan Ritzerfeld
-
Johannes Kapune
-
Pubanz