-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-09-13 a las 10:49 +0200, miguel gmail escribió:
El formato de salida lo definiré yo... estaba pensando en pdf.
Dejavú.
Diablos, lo que me ha costado entenderte. Querías decir Djvu! :D
Oops O:-) DjVu, es la grafía correcta.
Cómo de bueno es? Lo pregunto porque te he leído despotricar contra los OCR libres desde siempre.
MUY bueno. No es un OCR, es un formato gráfico especializado precisamente en documentos escaneados, para su posterior visualización y distribución electrónica, que es precisamente el caso. Es un formato para archivado que compite con el PDF. Puede también incluir una capa de texto en formato texto sacado del OCR. Pero el PDF los gráficos los guarda internamente como jpgs: el PDF se usa simplemente porque es una forma práctica de poner un libro con las fotos, o sea, un multipágina. Hay dos herramientas principales para crear .djvu, una comercial y otra libre. La libre funciona, pero es linea de comandos con muchas opciones que hay que ajustar mediante prueba y error hasta conseguir el resultado apetecible. No es práctico para tantos documentos. La comercial no la he probado, pero se supone que automatiza el proceso,, y facilita hacer cosas que yo no he hecho, como separar el plano monocolor o añadir texto. Mira en: http://en.wikipedia.org/wiki/Djvu pue eso. http://djvu.sourceforge.net/ software libre http://www.djvu.org/ noticias, foro, galería http://any2djvu.djvuzone.org/ public server http://www.lizardtech.com/ comercial http://www.lizardtech.com/download/dl_options.php?page=plugins plugines para iexplorer, firefox, safari, windows, linux, mac. En http://mybook.bibalex.org/?v=c tienes ejemplos en árabe (Egyptian Arabic Illustrated Childrens Stories). Por ejemplo, http://mybook.bibalex.org/book.php?b=005040 (panel derecho) parece un documento (36 páginas) sobre las pirámides de la "Biblioteca Alexandrina". El konkeror lo soporta, puede mostrar los miniiconos. Pero no lo soporta el gimp, ni puedes incluir las fotos en el OOo, aunque se pueden reconvertir facilmente a graficos que sí.
Me estoy parando a pensar ahora cómo es el proceso, y me asaltan dudas:
1. Escanear la hoja... Cual es el resultado de esta operación?
2. Me imagino que será un jpg, o un pdf.
Yo lo haría a PNG. Luego, a jpg o pdf como postproceso que puedes ajustar. Los escaneres que convierten directamente a PDF lo hacen con mala calidad. El jpg está bien, pero no siempre lo hace con la calidad que te interesa (o sí). El PNG permite convertir a cualquier formato posteriormente - incluyendo DjVu. Una posibilidad (que hacen las bibliotecas serias) es ofrecer la documentación en varios formatos. Luego el PNG se puede borrar una vez hechos todos los procesamientos (producto final aceptado). Si el resultado no gusta, con el PNG puedes volver a procesarlo sin necesidad de escanear de nuevo.
3. Cómo se realiza el proceso de OCR sobre lo que sea que salga del escaner?
Ni idea. No tiene que ver con el DjVu ni el pdf: los formatos de almacenamiento se limitan a eso, a almacenar.
4. Una vez se haya realizado el OCR... cual es el resultado? En que formato viene el texto?
Depende del programa de OCR. Puede ser ASCII, o lo que sea que usen los árabes, que no lo se. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFG6R51tTMYHG2NR9URAnqXAKCIz2MhQggV9mIpxqvqJGCgth3bigCfSKkY /wHmwkP4LRZ0IiVu3KB9KpQ= =/Rne -----END PGP SIGNATURE-----