xpdf: pdftotext erzeugt nur leere Datei
Hallo Liste, ich hoffe, ich bin hier im richtigen Forum. Falls es ein besseres gibt, bin ich um Hinweise dankbar. Gerade bin ich dabei, zum Faxen gw4capisuite einzurichten, um von einem Windows-PC aus über meinen Linux-Rechner Faxe versenden zu können. gw4capisuite nutzt hierzu u.a. ps2pdf, um aus den von cups erzeugten ps files pdfs zu kreieren. Außerdem soll das pdf file mittels pdftotext in Text umgewandelt werden, um die Faxnummer zu erhalten. Dies funktioniert allerdings nicht. pdftotext liefert nur eine 2 Byte große Datei mit einem ^L. Das PDF scheint in Ordnung zu sein. Zumindest kann es mit Adobe Acrobat fehlerfrei angezeigt werden. Ich benutze pdftotext aus dem xpdf-Paket in Version 3.00-78.9. SuSE Linux 9.2. Kernel 2.6.8-24.16. Weiß jemand Rat? Danke und Gruß Alex
Hallo, On Jul 26 15:04 Alexander Kiesl wrote (shortened):
gw4capisuite nutzt hierzu u.a. ps2pdf, um aus den von cups erzeugten ps files pdfs zu kreieren. Außerdem soll das pdf file mittels pdftotext in Text umgewandelt werden, um die Faxnummer zu erhalten.
Dies funktioniert allerdings nicht. pdftotext liefert nur eine 2 Byte große Datei mit einem ^L.
Zum Nachweis ob es grundsätzlich geht z.B. folgendes: 1. Eine simple PostScript Datei erzeugen: echo foobar | a2ps -1 -o foobar.ps 2. Kontrolle, wie die PostScript Datei aussieht: gs foobar.ps ([Ctrl]+[C] zum Beenden) 3. Nach PDF umwandeln: ps2pdf foobar.ps foobar.pdf 4. Kontrolle, wie die PDF Datei aussieht: gs foobar.pdf ([Ctrl]+[C] zum Beenden) 5. Den Text extrahieren: pdftotext foobar.pdf foobar.pdftxt 6. Kontrolle, welcher Text extrahiert werden konnte: cat foobar.pdftxt Bei mir (Suse Linux 9.3) funktioniert das alles.
Das PDF scheint in Ordnung zu sein. Zumindest kann es mit Adobe Acrobat fehlerfrei angezeigt werden.
Ob Text extrahiert werden kann oder nicht, liegt daran, wie der Text im PDF hineincodiert ist, siehe "man pdftotext": ----------------------------------------------------------------- Some PDF files contain fonts whose encodings have been mangled beyond recognition. There is no way (short of OCR) to extract text from these files. ----------------------------------------------------------------- Vermutlich liegt es schon an der ursprünglichen Datei, die an CUPS geschickt wurde. Zum Test es mit einer einfachen Textdatei probieren, etwa: echo foobar >foobar.txt Gruss, Johannes Meixner -- SUSE LINUX Products GmbH, Maxfeldstrasse 5 Mail: jsmeix@suse.de 90409 Nuernberg, Germany WWW: http://www.suse.de/
Hallo nochmal, vielen Dank für die schnelle Antwort: Die u.a. Vorgehensweise führt zum Erfolg. Das mit den Schriftarten verstehe ich allerdings nicht so ganz. Ich habe folgendes ausprobiert: Fall 1) - Einfachen Text auf Linux Maschine in kate eingegeben. - Drucken an gw4capisuite Drucker Ergebnis: Schon das .ps file ist leer. kate sollte doch standardmäßig eigentlich nicht mit "fonts whose encodings have been mangled beyond recognition" arbeiten, oder? ;-) Fall 2) - Drucken vom Windows-PC aus (notepad) an gw4capisuite Drucker auf Linux Maschine - .ps file ist mit gs lesbar - .pdf file (kreiert mit ps2pdf) ist mit gs lesbar Ergebnis: pdftotext erzeugt 2 Byte große Datei ohne Inhalt Bei notepad kann ich mir auch nicht vorstellen, dass es ein Font-Problem gibt?! Was könnte dann das Problem sein? Gruß Alex
-----Original Message----- From: Johannes Meixner [mailto:jsmeix@suse.de] Sent: Tuesday, July 26, 2005 3:23 PM To: suse-linux@suse.com Subject: Re: xpdf: pdftotext erzeugt nur leere Datei
Hallo,
On Jul 26 15:04 Alexander Kiesl wrote (shortened):
gw4capisuite nutzt hierzu u.a. ps2pdf, um aus den von cups erzeugten ps files pdfs zu kreieren. Außerdem soll das pdf file mittels pdftotext in Text umgewandelt werden, um die Faxnummer zu erhalten.
Dies funktioniert allerdings nicht. pdftotext liefert nur eine 2 Byte große Datei mit einem ^L.
Zum Nachweis ob es grundsätzlich geht z.B. folgendes:
1. Eine simple PostScript Datei erzeugen: echo foobar | a2ps -1 -o foobar.ps
2. Kontrolle, wie die PostScript Datei aussieht: gs foobar.ps ([Ctrl]+[C] zum Beenden)
3. Nach PDF umwandeln: ps2pdf foobar.ps foobar.pdf
4. Kontrolle, wie die PDF Datei aussieht: gs foobar.pdf ([Ctrl]+[C] zum Beenden)
5. Den Text extrahieren: pdftotext foobar.pdf foobar.pdftxt
6. Kontrolle, welcher Text extrahiert werden konnte: cat foobar.pdftxt
Bei mir (Suse Linux 9.3) funktioniert das alles.
Das PDF scheint in Ordnung zu sein. Zumindest kann es mit Adobe Acrobat fehlerfrei angezeigt werden.
Ob Text extrahiert werden kann oder nicht, liegt daran, wie der Text im PDF hineincodiert ist, siehe "man pdftotext": ----------------------------------------------------------------- Some PDF files contain fonts whose encodings have been mangled beyond recognition. There is no way (short of OCR) to extract text from these files. -----------------------------------------------------------------
Vermutlich liegt es schon an der ursprünglichen Datei, die an CUPS geschickt wurde.
Zum Test es mit einer einfachen Textdatei probieren, etwa: echo foobar >foobar.txt
Gruss, Johannes Meixner -- SUSE LINUX Products GmbH, Maxfeldstrasse 5 Mail: jsmeix@suse.de 90409 Nuernberg, Germany WWW: http://www.suse.de/
-- Um die Liste abzubestellen, schicken Sie eine Mail an: suse-linux-unsubscribe@suse.com Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: suse-linux-help@suse.com
Hi, On Tue, 26 Jul 2005, Alexander Kiesl wrote:
Die u.a. Vorgehensweise führt zum Erfolg. Das mit den Schriftarten verstehe ich allerdings nicht so ganz.
Ich habe folgendes ausprobiert:
Fall 1) - Einfachen Text auf Linux Maschine in kate eingegeben. - Drucken an gw4capisuite Drucker Ergebnis: Schon das .ps file ist leer.
kate sollte doch standardmäßig eigentlich nicht mit "fonts whose encodings have been mangled beyond recognition" arbeiten, oder? ;-)
Fall 2) - Drucken vom Windows-PC aus (notepad) an gw4capisuite Drucker auf Linux Maschine - .ps file ist mit gs lesbar - .pdf file (kreiert mit ps2pdf) ist mit gs lesbar Ergebnis: pdftotext erzeugt 2 Byte große Datei ohne Inhalt
Bei notepad kann ich mir auch nicht vorstellen, dass es ein Font-Problem gibt?!
Was könnte dann das Problem sein?
Dass deine PDF Dateien nur Bilder und keinen Text enthalten? Ist allerdings nur ein Schuß ins Hellblaue :) Greetings Daniel -- Gefühle gibt es nicht, Frieden gibt es. Unwissenheit gibt es nicht, Wissen gibt es. Leidenschaft gibt es nicht, Gelassenheit gibt es. Den Tod gibt es nicht, die Macht gibt es. -- Auszug aus dem Jedi-Codex
-----Original Message----- From: Daniel Lord [mailto:d_lord@gmx.de] Sent: Tuesday, July 26, 2005 7:18 PM To: suse-linux@suse.com Subject: Re: xpdf: pdftotext erzeugt nur leere Datei
Hi,
On Tue, 26 Jul 2005, Alexander Kiesl wrote:
Die u.a. Vorgehensweise führt zum Erfolg. Das mit den Schriftarten verstehe ich allerdings nicht so ganz.
Ich habe folgendes ausprobiert:
Fall 1) - Einfachen Text auf Linux Maschine in kate eingegeben. - Drucken an gw4capisuite Drucker Ergebnis: Schon das .ps file ist leer.
kate sollte doch standardmäßig eigentlich nicht mit "fonts whose encodings have been mangled beyond recognition" arbeiten, oder? ;-)
Fall 2) - Drucken vom Windows-PC aus (notepad) an gw4capisuite Drucker auf Linux Maschine - .ps file ist mit gs lesbar - .pdf file (kreiert mit ps2pdf) ist mit gs lesbar Ergebnis: pdftotext erzeugt 2 Byte große Datei ohne Inhalt
Bei notepad kann ich mir auch nicht vorstellen, dass es ein Font-Problem gibt?!
Was könnte dann das Problem sein?
Dass deine PDF Dateien nur Bilder und keinen Text enthalten? Ist allerdings nur ein Schuß ins Hellblaue :)
Greetings Daniel
Da kann ich schon kein Blau mehr erkennen, so hell ist das. *lach* :-) Gruß Alex
Am Dienstag, 26. Juli 2005 22:34 schrieb Alexander Kiesl:
From: Daniel Lord [mailto:d_lord@gmx.de]
[Kein Text mit pdftotxt] Was könnte dann das Problem sein?
Dass deine PDF Dateien nur Bilder und keinen Text enthalten? Ist allerdings nur ein Schuß ins Hellblaue :)
Greetings Daniel
Da kann ich schon kein Blau mehr erkennen, so hell ist das. *lach* :-)
Nö, nö... Daniel könnte bei gewissen PDFs recht haben: Wenn ich z.B. gar nicht möchte, das jemand mein PDF zu Text verwandelt, dann erstelle ich es mit meiner Amiga-Textverarbeitung unter dem UAE. Die hat einen PS-Export, dem ich sagen kann: Alle Zeichen in Vektorzeichnungen auflösen! In diesem Falle findest du absolut keinen Text in den daraus gebauten PDFs. Die enthalten nur Vektorgrafik. Da musst du schon mit OCR ran, wenn du daraus wieder einen Text machen willst ;-) Gruß, Michael -- ____ / / / / /__/ Michael Höhne / / / / / / mih-hoehne@t-online.de / _____________________________________/
participants (4)
-
Alexander Kiesl
-
Daniel Lord
-
Johannes Meixner
-
Michael Höhne