[opensuse-es] ocr y pdf

Hola a todos, mi pregunta es la siguiente, conoce alguien algun buen programa de ocr para archivos pdf... ...si es que existen claro. Alguien escaneo un libro y lo paso a formato pdf y me interesaria pasarle un ocr. Gracias /Nacho -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 Content-ID: <alpine.LSU.2.00.0810272008010.4842@nimrodel.valinor> El 2008-10-27 a las 19:59 +0100, Nacho escribió:
Hola a todos, mi pregunta es la siguiente, conoce alguien algun buen programa de ocr para archivos pdf...
Bueno, y sobre linux, no, no conozco ninguno. Ni para PDF ni nada. Es un area pobre. Y por cierto, los textos escaneados funcionan mejor con el formato djvu que sobre pdf. Pero dejavú es casi desconocido (viene en la distro). Está el "gocr", pero yo nunca lo he conseguido hacer funcionar bien. Y una vez la distro trajo uno propietario que iba algo, en kde. Ah, buscando veo que la distro trae uno que no me suena: ocrad-0.17-43.1 GNU Ocrad is an OCR (Optical Character Recognition) program implemented as a filter and based on a feature extraction method. It reads a bitmap image in PBM format and outputs text in the ISO-8859-1 (Latin-1) charset. It can be used as a stand-alone console application or as a back-end to other programs. gocr is another interesting command line OCR tool. Both can be plugged into Kooka, the KDE scan and OCR program. Lo instalare. El autor tiene nombre español. [...] anda, si lo tengo instalado... Lo pruebo. [...] El resultado es simplemente _horrible_: , \ , R,`\'\(\hh\\\\\WW\ ww m \ \ ,, ,,, ' '` ' , , a Meac Row ' ' herf uaPr' mout reQaind oen for arm írmrme ' tnal lhmer, u aoth ete firín oxdew o' ' ' myhg et íuPa Prefrom. Qn tn rm Aod llle, hre úrrímg rm r, a mu4t| \ ' rooDSing oun, ere of pur| eaks through hP osphere rdí&tg aay framl RdolOh yP's ck B ' Compara con lo que hizo el windows con el mismo párrafo hace años (es que lo guardo para comparar, para ver si el OCR alguna vez funciona en linux): Robot AL-76 Goes Astray 91 bottom of the trees; at the end he was swinging wildly from one of the topmost branches. The same impulse that had driven the posse horizontally had driven him vertically. As to how he had covered the fifty feet from roots to top - whether he had climbed, jumped, or flown - he did not know, and he didn't give a particle of never-mind. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.9 (GNU/Linux) iEYEARECAAYFAkkGFoIACgkQtTMYHG2NR9XYhACfb5R2o5dX28bPJ6uEbHvQ/gKb sukAnR+sl5/xYp29edP4M6yD6tGZmohd =669f -----END PGP SIGNATURE-----

El Monday 27 October 2008 20:29:02 Carlos E. R. escribió:
Está el "gocr", pero yo nunca lo he conseguido hacer funcionar bien.
Yo tampoco
Ah, buscando veo que la distro trae uno que no me suena: ocrad-0.17-43.1
Algo mejor, pero de acertar un 5% (gocr) a un 10% (ocrad) aproximadamente... tampoco es para echar cohetes. Tambien he probado Tesseract. Hay una serie de plantillas con un texto prefijado en multiples idiomas (incluido castellano) y diferentes fuentes para poder "entrenarlo". El resultado es mucho mejor, pero el ratio de aciertos lo estimo como mucho en un 35% y dependes de que el texto a reconocer este en una de las fuentes entrenadas para que mejore el resultado. El tesseract se puede combinar con ocropus y dicen (no lo he probado) que asi mejora "MUCHO". Tienes ambos en un repositorio (aunque las versiones no son las ultimas): http://download.opensuse.org/repositories/home:/jnweiger/openSUSE_11.0/ Suerte. Yo me cansé de hacer pruebas, pero es cierto que lo hice solo por curiosear. Alfredo -- "Una vez que se descarta lo imposible, lo que queda es la verdad por improbable que parezca" (Sherlock Holmes <El signo de los 4 - Conan Doyle>) -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

Hola. El Lunes 27 Octubre 2008, Nacho escribió:
Hola a todos, mi pregunta es la siguiente, conoce alguien algun buen programa de ocr para archivos pdf... ...si es que existen claro. Alguien escaneo un libro y lo paso a formato pdf y me interesaria pasarle un ocr.
Para pfd, no es mejor usar pstoascii ya te extrae todo el texto o simplemente lo abres y le dices exportar como texto O el openoffice3 con el plugin pdfedit, lo abres y lo editas y lo copias y pegas sobre un odt -- Un Saludo. Carlos Lorenzo Matés. clmates AT mundo-r.com

Para pfd, no es mejor usar pstoascii ya te extrae todo el texto
o simplemente lo abres y le dices exportar como texto
O el openoffice3 con el plugin pdfedit, lo abres y lo editas
y lo copias y pegas sobre un odt
No creo que sea así de fácil, pues me imagino que las páginas del documento son imágenes y no texto.... -- Nicolás Guarín Zapata Ingeniería Física Medellín Colombia -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

Nicolas Guarin escribió:
Para pfd, no es mejor usar pstoascii ya te extrae todo el texto
o simplemente lo abres y le dices exportar como texto
O el openoffice3 con el plugin pdfedit, lo abres y lo editas
y lo copias y pegas sobre un odt
No creo que sea así de fácil, pues me imagino que las páginas del documento son imágenes y no texto....
Todavía no tengo el OOo3, pero he leído que es así, que tiene razón el autor (que borraste) de la respuesta anterior. Enseguida alguien que lo tenga nos dirá. Saludos -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

Hola. El Lunes 27 Octubre 2008, Alberto Vicat escribió:
Nicolas Guarin escribió:
Para pfd, no es mejor usar pstoascii ya te extrae todo el texto
o simplemente lo abres y le dices exportar como texto
O el openoffice3 con el plugin pdfedit, lo abres y lo editas
y lo copias y pegas sobre un odt
No creo que sea así de fácil, pues me imagino que las páginas del documento son imágenes y no texto....
Todavía no tengo el OOo3, pero he leído que es así, que tiene razón el autor (que borraste) de la respuesta anterior. Enseguida alguien que lo tenga nos dirá.
Si se ha convertido con un escaner o algo asi, entonces es un tiff embebido en el pdf, de forma que el OpenOffice te lo importa como una imagen y no puedes copiarlo como texto a un odt. pero si puedes usar eso, para extraer la imagen tiff y pasarla por un ocr suerte -- Un Saludo. Carlos Lorenzo Matés. clmates AT mundo-r.com

Hola. El Lunes 27 Octubre 2008, Nicolas Guarin escribió:
Para pfd, no es mejor usar pstoascii ya te extrae todo el texto
o simplemente lo abres y le dices exportar como texto
O el openoffice3 con el plugin pdfedit, lo abres y lo editas
y lo copias y pegas sobre un odt
No creo que sea así de fácil, pues me imagino que las páginas del documento son imágenes y no texto....
Pues si es asi, lo mejor es intentar convertir el pdf a tiff y luego usar cualquier ocr, es mas facil que soporten tiff que pdf directamente. -- Un Saludo. Carlos Lorenzo Matés. clmates AT mundo-r.com

-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2008-10-27 a las 22:00 +0100, Carlos Lorenzo Matés escribió:
Alguien escaneo un libro y lo paso a formato pdf y me interesaria pasarle un ocr.
Para pfd, no es mejor usar pstoascii ya te extrae todo el texto
o simplemente lo abres y le dices exportar como texto
O el openoffice3 con el plugin pdfedit, lo abres y lo editas
Eso no funciona con documentos escaneados, lo que contiene es la foto, no las letras. Para tener las letras ha de ser un documento generado por ordenador, como por ejemplo, un documento impreso desde OOo o word. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.9 (GNU/Linux) iEYEARECAAYFAkkGNEMACgkQtTMYHG2NR9WK5QCeMdOZQI0SrL//FhZbSEIjp3sa 3wUAnA5YmhF6KeBtIGIhqSsVR6sQjo1f =Tu1E -----END PGP SIGNATURE-----

El 27/10/08, Nacho escribió:
mi pregunta es la siguiente, conoce alguien algun buen programa de ocr para archivos pdf... ...si es que existen claro. Alguien escaneo un libro y lo paso a formato pdf y me interesaria pasarle un ocr.
¿Conoces a alguien que tenga el Acrobat Professional 7.x ? :-) Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

El 27/10/08, Nacho escribió:
mi pregunta es la siguiente, conoce alguien algun buen programa de ocr para archivos pdf... ...si es que existen claro. Alguien escaneo un libro y lo paso a formato pdf y me interesaria pasarle un ocr.
¿Conoces a alguien que tenga el Acrobat Professional 7.x ? :-)
Para Linux? -- Nicolás Guarín Zapata Ingeniería Física Medellín Colombia -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

El 28/10/08, Nicolas Guarin escribió:
Para Linux?
No, que yo sepa. Pero no se acaba el mundo. Cuando a alguien le van a implantar un marcapasos no pregunta al médico si es "compatible con...", sólo si funciona :-) Obviamente dependerá del interés, la necesidad o los medios que se tengan para pasar un OCR a esos documentos... Y no creas, tengo mis dudas de que el Acrobat Pro lo haga correctamente (con una precisión de más del 95%) con un documento en español :-/ Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

Para Linux?
No, que yo sepa.
Pues deberían scar una versión (si existe una para Mac :P). Si quieren me manda unas paginas y yo miro ahora en el laboratorio, allá tengo Adobe Pro (alguna version).
Pero no se acaba el mundo. Cuando a alguien le van a implantar un marcapasos no pregunta al médico si es "compatible con...", sólo si funciona :-)
Yo sí preguntaría, yo no le metería algo al cuerpo que tiene incompatibilidad, tanto de harware como de software :P, no sé tú. -- Nicolás Guarín Zapata Ingeniería Física Medellín Colombia -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2008-10-28 a las 07:25 -0500, Nicolas Guarin escribió:
Pero no se acaba el mundo. Cuando a alguien le van a implantar un marcapasos no pregunta al médico si es "compatible con...", sólo si funciona :-)
Yo sí preguntaría, yo no le metería algo al cuerpo que tiene incompatibilidad, tanto de harware como de software :P, no sé tú.
Pues la verdad, no. Se pregunta al médico sobre la compatibilidad biológica con el cuerpo, pero no sobre si para interrogar al marcapasos sobre las incidencias registradas puedo usar linux, o debo usar el software caro-de-la-leche que tiene el hospital, por narices >:-) Al fin y al cabo es el médico quien lo va a usar, no yo. Y no, no veo yo que el software abierto vaya a parar ahí, porque tienes que certificarlo, y no para su uso en industria, sino para uso médico cuando la vida depende de ello. Y eso cuesta una pasta, además del seguro que tienes que contratar por si falla y te llevan a juicio. >>>:-) - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.9 (GNU/Linux) iEYEARECAAYFAkkHBycACgkQtTMYHG2NR9VApgCcC4YC9LHl2nMNFps0zyhHgBPp 0YwAn1WMqX6fVdHFWy2aDM8U578uKER6 =tWb1 -----END PGP SIGNATURE-----

Al fin y al cabo es el médico quien lo va a usar, no yo.
Y no, no veo yo que el software abierto vaya a parar ahí, porque tienes que certificarlo, y no para su uso en industria, sino para uso médico cuando la vida depende de ello. Y eso cuesta una pasta, además del seguro que tienes que contratar por si falla y te llevan a juicio.
Te tiraste el chiste!!!! -- Nicolás Guarín Zapata Ingeniería Física Medellín Colombia -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 Nicolas Guarin wrote:
Al fin y al cabo es el médico quien lo va a usar, no yo.
Y no, no veo yo que el software abierto vaya a parar ahí, porque tienes que certificarlo, y no para su uso en industria, sino para uso médico cuando la vida depende de ello. Y eso cuesta una pasta, además del seguro que tienes que contratar por si falla y te llevan a juicio.
Te tiraste el chiste!!!!
Me lo pusiste muy fácil :-) - -- Cheers / Saludos, Carlos E. R. (from 11.1-factory) -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.9 (GNU/Linux) Comment: Using GnuPG with SUSE - http://enigmail.mozdev.org iEYEARECAAYFAkkHYQoACgkQU92UU+smfQUnigCfSo0Esxy1eMgxmlM3BfaqEykN UX0Anip3+HJA+VmZfxVCyLvVwLDiszou =On27 -----END PGP SIGNATURE----- -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

El 28/10/08, Nicolas Guarin escribió:
Pues deberían scar una versión (si existe una para Mac :P). Si quieren me manda unas paginas y yo miro ahora en el laboratorio, allá tengo Adobe Pro (alguna version).
Huy... teniendo el cuenta "lo bien" (entre comillas) que les ha salido el plugin de flash para linux, casi mejor que no X-)
Yo sí preguntaría, yo no le metería algo al cuerpo que tiene incompatibilidad, tanto de harware como de software :P, no sé tú.
Con que haya pasado la normativa vigente Europea, "pá" dentro sin preguntar. El médico sabrá lo que pone... y si pasa algo, pues aquí si puedo pedir responsabilidades (bueno, yo no, mis caracoles controlados vía wifi, en todo caso, porque yo ya estaré ko). :-) Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

Hola, El ocr de Adobe Acrobat funciona sin ningún problema. Hasta ahora con un 100% de eficacia en los documentos que he escaneado. Lo mismo sucede con Mac tiene un rendimiento muy bueno. Lo ideal sería que se implementara en el OO.org como la extensión de edición de pdf (que por cierto aún no he conseguido instalarla, me sale un error y me dice que siga intentándolo :-) ), porque de momento no advierto que exista algún proyecto serio de edición de pdf para linux. Por eso sería interesante aprovechar lo que se tiene y "tirá pa delante". Un saludo -- Octavio Ávalos -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

2008/11/3 Octavio <octavio-avalos@terra.es>:
El ocr de Adobe Acrobat funciona sin ningún problema. Hasta ahora con un 100% de eficacia en los documentos que he escaneado. Lo mismo sucede con Mac tiene un rendimiento muy bueno.
Curiosidad: Ese OCR de Adobe, ¿lo tienes bajo Linux? Me interesaría bastante saberlo para temas en mi trabajo. Gracias! -- Have a nice day ;-) TooManySecrets ============================ Dijo Confucio: "Exígete mucho a ti mismo y espera poco de los demás. Así te ahorrarás disgustos." ============================

El día 3 de noviembre de 2008 16:14, TooMany Secrets <toomany@toomany.net> escribió:
2008/11/3 Octavio <octavio-avalos@terra.es>:
El ocr de Adobe Acrobat funciona sin ningún problema. Hasta ahora con un 100% de eficacia en los documentos que he escaneado. Lo mismo sucede con Mac tiene un rendimiento muy bueno.
Curiosidad: Ese OCR de Adobe, ¿lo tienes bajo Linux? Me interesaría bastante saberlo para temas en mi trabajo.
Gracias!
No, que va. Hace un año aproximadamente que salió una noticia de Adobe de que estaban preparando la aplicación para Linux pero ya se sabe .............. Por el momento nada de nada. Que yo sepa sigue todo igual ni con Wine, excepto la versión 5 que sí corre. Confio en que desarrollen la extensión definitiva pdf para OO.org, aún está en beta. Una solución sería escanearlo desde OO.org y exportarlo directamente a pdf y editarlo con la extensión de edición pdf. Pero como ya comenté anteriormente, me da error al tratar de instalar esta extensión Un saludo -- Octavio Ávalos -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org

2008/10/27 Nacho <idejuan@ya.com>:
Hola a todos, mi pregunta es la siguiente, conoce alguien algun buen programa de ocr para archivos pdf... ...si es que existen claro. Alguien escaneo un libro y lo paso a formato pdf y me interesaria pasarle un ocr.
Hace menos de un año yo me estaba planteando estas cosas... Tenía que escanear unas 800k páginas en inglés/árabe, y luego pasarles el OCR. En Open/Free no encontré nada decente, así que me pasé a herramientas cerradas. Encontré bastante útil y no muy caro (+/- 100€) el readiris: <http://www.irislink.com/c2-532-189/OCR-Software---Product-list.aspx> Si por un casual te ves escaneando en árabe, te recomiendo que configures el windows en árabe también, porque si no no funciona. -- Saludos, miguel Los agujeros negros son lugares donde dios dividió por cero. Black holes are places where god divided by zero. Steven Wright -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
participants (10)
-
Alberto Vicat
-
Alfredo J. V. P.
-
Camaleón
-
Carlos E. R.
-
Carlos Lorenzo Matés
-
miguel gmail
-
Nacho
-
Nicolas Guarin
-
Octavio
-
TooMany Secrets