-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2005-12-12 a las 17:58 +0100, Rafa Grimán escribió:
Este fin de semana estuve leyendo un PDF de esos que comentas y el KPDF sí lo abre, pdf2ps lo transfroma a ps y ps2pdf (probé los 3 ó 4 que vienen en SUSE 10) lo transforma de ps a pdf.
En NINGUNO de los casos pude copiar y pegar texto del documento. No con el propio Acrobat Reader. Se copiaba, pero al pegar ... sólo aparecía basura.
¿y con kpdf, gpdf, tampoco funcionaba el copy paste? ¿Y el grabar el fichero en disco?
Aquí en el curro lo he probado con MS-Windows XP y el Acrobat Reader (versión 7 en ambos casos: Linux y MS-Windows) y TAMPOCO me deja copiar texto ...
Es que son dos cosas. Una es el grabar el fichero a disco, y otra el poder copiar trozos con el ratón. El fichero pdf puede tener los siguientes permisos, según el acroread (la traducción es mia, puede no ser exacta): Imprimir: Permitido Ensamblado del documento: No Permitido Copia o extracción del contenido: Permitido Extracción de contenido para accesibilidad: Permitido Comentarios: No permitido Rellenado de formularios: Permitido Firmado: No Permitido Creación de plantillas de pagina: No Permitido Entrega de formularios: No Permitido Los permisos que he puesto son los que aparecen en un documento creado desde el OOo en linux. Yo no me he topado con un documento de esos, pero si con otros que, al marcar el texto, la selección va a saltos en orden aleatorio por toda la página, y al empastar se ve un galimatías. Hubo un hilo en agosto en la lista inglesa en el que se estuvo hablando de eso; copio un trocito: | Date: Mon, 29 Aug 2005 13:59:09 +0100 (BST) | From: Ted.Harding@ | Subject: Re: [SLE] PDF to TXT (ascii) ... helppppppp ... | I have made a serious attempt to analyse the PS file. It's a | monstrous nightmare. ... | The basic issue, it seems to me, is that (apart from one tiny patch | in the middle of a Figure which may have been imported from some | other application), the entire text is in bit-mapped glyphs set up | as Type 3 fonts. There is a total of 8 "user-defined" Type 3 fonts. ... | Having had a good look at all this, I'm coming to the conclusion that | Maura's ambition to be able to extract ASCII text (which is what | it looks like when displayed on screen) by "select&paste" is probably | hopeless. Al que le interese, le recomiendo que lo lea; y lo más curioso es que el autor del pdf tenía publicado un html, que al final sirvió para lo que querían, que era copiar un trozo para una referencia (era una tesis). Acabo de probar, con pdftk: cer@nimrodel:~> pdftk p.pdf output p.128.pdf owner_pw foo allow printing y resulta un pdf encriptado que sólo permite imprimir. Si tratas de seleccionar texto, lo hace, pero Edit/copy y edit/paste están deshabilitados en el menu del acroread. En cambio, grabar una copia idéntica si está permitido. Los resultados con xpdf son similares: Error: Copying of text from this document is not allowed.
No sé cómo lo harán, pero lo hacen. Lo que dice Jose María es verdad: un sw para capturar pantallas (shutterbug, ksnapshot, ...) es útil ... pero pesado porque luego hay que echar mano de la "tecnología digital" y escribirse "amanuense" el texto. También lo puedes imprimir y pasar un OCR ;)
Si no han usado fuentes anti-ocr. Visualmente se leen, pero deben tener errores sutiles que confunden al ocr. Como las antitempest. - -- Saludos Carlos Robinson -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.0 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFDndfFtTMYHG2NR9URAv8cAJwL7fijhpnRK/GChtK+fRuLXdf3iACcC/hc UJqMdVrwEjlaykl0nTn144U= =s00I -----END PGP SIGNATURE-----