[opensuse-es] OCR libre que hace PDFs indexables
Creo que el término indexable no es el adecuado, pero vale, lo acabo de ver en /. Un live cd que crea un servidor en la red que provee un servicio OCR, el cual crea PDFs en los que se puede leer el texto. http://2tu.us/2huh No puedo revisar el enlace en estos instantes. =/ pero creo que la gente estará interesada. -- Carlos A. -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El Thu, 22 Jul 2010 22:15:13 -0500, Shinji Ikari escribió:
Creo que el término indexable no es el adecuado, pero vale, lo acabo de ver en /.
"Indexar" lo da como bueno la RAE. Indexable... pues sería la lógica acepción de algo que "se puede indexar o que es susceptible de ser indexado" :-P (Me gusta más el término "indexar" que "indizar", que es otra de las formas utilizadas para esta palabra)
Un live cd que crea un servidor en la red que provee un servicio OCR, el cual crea PDFs en los que se puede leer el texto.
No puedo revisar el enlace en estos instantes. =/ pero creo que la gente estará interesada.
Hum... qué bien suena eso. Es como la opción que tiene el Acrobat Professional (convierte en "indexable" un documento en PDF -imagen- aplicando un OCR). El problema es que se trata de una solución todo en uno, una distribución preparada para instalar y trabajar exclusivamente en la conversión. Aún así no está mal. Yo tengo en mente algo más sencillo. Por ejemplo, a nosotros nos vendría muy bien poder convertir los faxes (archivos recibidos y enviados) en documentos "indexables" por las herramientas/frameworks de escritorio convencionales (tracker, beagle -¿qué habrá sido de beagle? hace meses que no oigo nada de este programa- o nepomuk). Sería estupendo que HylaFAX pudiera añadir automáticamente metadatos (información o palabras clave que permitan indexar el archivo a los motores de búsqueda) a los documentos que procesa (tanto los de la cola de envío -creo que los procesa como PostSript- como en la de recepción - los almacena como TIFF-), así se podría buscar un fax con sólo teclear una palabra en el buscador de archivos :-)~ Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 On 2010-07-29 16:53, Camaleón wrote:
Hum... qué bien suena eso. Es como la opción que tiene el Acrobat Professional (convierte en "indexable" un documento en PDF -imagen- aplicando un OCR).
El problema es que se trata de una solución todo en uno, una distribución preparada para instalar y trabajar exclusivamente en la conversión. Aún así no está mal.
Cierto.
Yo tengo en mente algo más sencillo. Por ejemplo, a nosotros nos vendría muy bien poder convertir los faxes (archivos recibidos y enviados) en documentos "indexables" por las herramientas/frameworks de escritorio convencionales (tracker, beagle -¿qué habrá sido de beagle? hace meses que no oigo nada de este programa- o nepomuk).
Sería estupendo que HylaFAX pudiera añadir automáticamente metadatos (información o palabras clave que permitan indexar el archivo a los motores de búsqueda) a los documentos que procesa (tanto los de la cola de envío -creo que los procesa como PostSript- como en la de recepción - los almacena como TIFF-), así se podría buscar un fax con sólo teclear una palabra en el buscador de archivos :-)~
Usad email >:-) Lo que me recuerda uno de los comentarios que vi. Que algunos escribían una carta, la imprimían, la pasaban por la máquina escaneadora, usando el botón de "scan 2 email" para enviar la carta por email... se supone que porque no saben mandar un email ellos solitos. - -- Cheers / Saludos, Carlos E. R. (from 11.2 x86_64 "Emerald" GM (Elessar)) -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.12 (GNU/Linux) Comment: Using GnuPG with SUSE - http://enigmail.mozdev.org/ iEYEARECAAYFAkxRoVoACgkQU92UU+smfQWCcACfekAUmB1hzkvMXrvmdpmuPPFj kL8AnjgjC8T2wT2tJUgpB3BH/SSBz8wP =d/Kk -----END PGP SIGNATURE----- -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
El Jueves 29 Julio 2010, Carlos E. R. escribió:
On 2010-07-29 16:53, Camaleón wrote:
Hum... qué bien suena eso. Es como la opción que tiene el Acrobat Professional (convierte en "indexable" un documento en PDF -imagen- aplicando un OCR).
El problema es que se trata de una solución todo en uno, una distribución preparada para instalar y trabajar exclusivamente en la conversión. Aún así no está mal.
Cierto.
* Hay paquetes individuales en el sitio de descarga, no obstante en si mismo es una coleccion de scripts que utilizan dos herrameintas conocidas. * Aqui hay un script que utiliza convert y tesseract , http://venagraphica.es/blog/ocr-y-desbloqueo-de-archivos-pdf
El Thu, 29 Jul 2010 17:42:18 +0200, Carlos E. R. escribió:
On 2010-07-29 16:53, Camaleón wrote:
(...)
Sería estupendo que HylaFAX pudiera añadir automáticamente metadatos (información o palabras clave que permitan indexar el archivo a los motores de búsqueda) a los documentos que procesa (tanto los de la cola de envío -creo que los procesa como PostSript- como en la de recepción - los almacena como TIFF-), así se podría buscar un fax con sólo teclear una palabra en el buscador de archivos :-)~
Usad email >:-)
¡Je! Ya nos gustaría... dialoga tú con la administración y diles que no les envías un fax sino un e-mail, a ver qué te dicen >>:-) stt005:~# ls -l /var/spool/hylafax/doneq | wc -l; ls -l /var/spool/hylafax/recvq | wc -l 3114 ← faxes enviados 753 ← faxes recibidos La cantidad de papel y tinta/tóner que nos ha ahorrado HylaFAX :-)
Lo que me recuerda uno de los comentarios que vi. Que algunos escribían una carta, la imprimían, la pasaban por la máquina escaneadora, usando el botón de "scan 2 email" para enviar la carta por email... se supone que porque no saben mandar un email ellos solitos.
Sí, lo leí :-D Saludos, -- Camaleón -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 On 2010-07-29 20:02, Camaleón wrote:
El Thu, 29 Jul 2010 17:42:18 +0200, Carlos E. R. escribió:
Usad email >:-)
¡Je! Ya nos gustaría... dialoga tú con la administración y diles que no les envías un fax sino un e-mail, a ver qué te dicen >>:-)
stt005:~# ls -l /var/spool/hylafax/doneq | wc -l; ls -l /var/spool/hylafax/recvq | wc -l 3114 ← faxes enviados 753 ← faxes recibidos
La cantidad de papel y tinta/tóner que nos ha ahorrado HylaFAX :-)
X-) Bueno, donde yo estaba vi como retiraban unos teletipos de cinta de papel hace unos meses... dicen que ya no funcionaban desde hace mucho más, pero no se... igual sí los usaban >:-) La verdad es que al sitio de la administración al que yo tenía que mandar faxes todos los meses, lleva desde noviembre o así averiado el fax. Menos mal que pusieron un pincha pincha por web, y por ahí accedo, que si no...
Lo que me recuerda uno de los comentarios que vi. Que algunos escribían una carta, la imprimían, la pasaban por la máquina escaneadora, usando el botón de "scan 2 email" para enviar la carta por email... se supone que porque no saben mandar un email ellos solitos.
Sí, lo leí :-D
Vete a saber si el que lo contó no puso el paso intermedio que justifica el procedimiento, que es la firma a bolígrafo de la carta antes de escanearla. O también puede ser que el paso intermedio ya no se haga, pero el procedimiento del libro de procedimientos, tomo 15, pagina 786, dice que hay que hacerlo asín, pos se hace. Claro que... en un sitio donde estaba escaneamos la firma del jefe (con su conocimiento y a sus ordenes) para ponerla en los documentos de word que él dijera y enviar los faxes por la linea rdsi, la del ordenador. Historias hay a montones :-) - -- Cheers / Saludos, Carlos E. R. (from 11.2 x86_64 "Emerald" GM (Elessar)) -----BEGIN PGP SIGNATURE----- Version: GnuPG v2.0.12 (GNU/Linux) Comment: Using GnuPG with SUSE - http://enigmail.mozdev.org/ iEYEARECAAYFAkxR0iIACgkQU92UU+smfQVbnwCfcta9W76Sz4HVCdWaeOSzXTbw 5LgAn12xd17MOB27Z39DXeiJ3qhubk9j =XwbR -----END PGP SIGNATURE----- -- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
participants (4)
-
Camaleón
-
Carlos E. R.
-
jose maria
-
Shinji Ikari