-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-09-13 a las 19:00 +0200, miguel gmail escribió:
Cómo de bueno es? Lo pregunto porque te he leído despotricar contra los OCR libres desde siempre.
MUY bueno.
Viniendo de tí me lo creo!
:-) Pero hay quien discrepa, cuidado. Es bastante desconocido. Que una cosa sea buena no quiere decir que tenga éxito... recuerda la guerra de los formatos de vídeo en España.
No es un OCR, es un formato gráfico especializado precisamente en documentos escaneados, para su posterior visualización y distribución electrónica, que es precisamente el caso. Es un formato para archivado que compite con el PDF. Puede también incluir una capa de texto en formato texto sacado del OCR.
Vale. Entonces... por qué más abajo sugieres PNG??
Te refieres a que el proceso sea:
suite escaner dejavu SW OCR | | | papel -> .djv -> PNG -> .pdf (o .doc, o .loquesea)
Es así? (espero que no se rompa mi muestra de ascii art)
No. El escaner saca como resultado un fichero gráfico en PNG. De ese, como postproceso, se convierte a todos los demás: JPG, PDF, DjVu, ascii via OCR, etc. De hecho, en linux al menos, se usa un formato gráfico distinto para hacer esa operación: PNM. The PNM format is just an abstraction of the PBM, PGM, and PPM formats. I.e. the name 'PNM' refers collectively to PBM, PGM, and PPM. The name 'PNM' is an acronym derived from 'Portable Any Map.' This derivation makes more sense if you consider it in the con- text of the other Netpbm format names: PBM, PGM, and PPM. The more general term 'Netpbm format' refers to the PNM formats plus PAM. Es un formato horriblemente gigantesco, es enorme, sin comprimir. Pero algunos programas de OCR lo usan como origen, y el conversor libre a DjVu también. La conversión a DjVu es computacionalmente pesada. Bastante más que a jpg. En cambio la lectura es rápida: está diseñado para su transmisión web de modo que la imagen va apareciendo poco a poco según la visualizas, sin tener que esperar a que se descargue entera. Encima el visualizador usa poca memoria. No encontrarás escaners que saquen directamente DjVu, no lo creo. Pero a PDF sí, incluso en baratos. Bueno, en realidad es el driver que hace la conversión interna; estoy seguro que graba en un formato gráfico intermedio temporalmente.
Pero el PDF los gráficos los guarda internamente como jpgs: el PDF se usa simplemente porque es una forma práctica de poner un libro con las fotos, o sea, un multipágina.
Hay dos herramientas principales para crear .djvu, una comercial y otra libre. La libre funciona, pero es linea de comandos con muchas opciones que hay que ajustar mediante prueba y error hasta conseguir el resultado apetecible. No es práctico para tantos documentos.
Tal vez, si los documentos tienen calidad similar, se puedan usar ajustes similares, y meterlo todo en un batch.
Podría ser. Pero conseguir ficheros DjVu con todas las florituras no es facil con software libre. Yo no lo he conseguido. Yo uso este proceso: C44=/usr/bin/c44 PNGTOPNM=pngtopnm echo Converting $FILE if test -s "$FILE" ; then DIRECTORIO=`dirname "$FILE"` TIPO=`/usr/bin/file -ib "$FILE"` case "$TIPO" in "image/jpeg") $C44 -dpi 240 -slice $SLICE -crcbhalf "$FILE" ;; "image/png") NOMBRE=`basename "$FILE" png` NOMBRECMPLTO=$DIRECTORIO/$NOMBRE echo calculating resolution set -- $(identify -units PixelsPerInch -format "%x %y %z" $FILE) case "$1" in 359.994) DPI=360 ;; 240.005) DPI=240 ;; *) echo resolución $1 no prevista echo -$1- $2 -$3- $4 break ;; esac echo "Using DPI="$DPI echo calculating PNM. $PNGTOPNM "$FILE" > "$NOMBRECMPLTO"pnm echo converting to djvu #ls -lh "$NOMBRECMPLTO"pnm #$C44 -dpi 240 -slice $SLICE -crcbhalf "$NOMBRECMPLTO"pnm case "$OPT" in # no le gustan los espacios dentro de las comillas "" -low) $C44 -dpi $DPI -slice "19+17+13+9+7+5+3+2+1" -crcbhalf "$NOMBRECMPLTO"pnm ;; -med) $C44 -dpi $DPI -slice "23+19+17+13+9+7+5+3" -crcbhalf "$NOMBRECMPLTO"pnm ;; -hi) $C44 -dpi $DPI -slice "23+19+17+13+9+7+5+3+2+1" "$NOMBRECMPLTO"pnm ;; #-vhi) $C44 -dpi 360 -slice "27+23+19+17+13+9+7+5+3" "$NOMBRECMPLTO"pnm ;; -vhi) $C44 -dpi $DPI -slice "72+11+10+10" "$NOMBRECMPLTO"pnm ;; -ehi) $C44 -dpi $DPI -slice "72+11+10+10" "$NOMBRECMPLTO"pnm ;; #72+11+10+10 esac rm "$NOMBRECMPLTO"pnm ;; *) echo "Non recognized file type ($TIPO) for this script." exit ;; esac Nota: se puede convertir de jpg a djvu directamente, pero no es recomendable: es un proceso con doble pérdida.
La comercial no la he probado, pero se supone que automatiza el proceso,, y facilita hacer cosas que yo no he hecho, como separar el plano monocolor o añadir texto.
Lo investigaré (si es que el diagrama de arriba es correcto)
No, no lo era :-)
En http://mybook.bibalex.org/?v=c tienes ejemplos en árabe (Egyptian Arabic Illustrated Childrens Stories). Por ejemplo, http://mybook.bibalex.org/book.php?b=005040 (panel derecho) parece un documento (36 páginas) sobre las pirámides de la "Biblioteca Alexandrina".
Oichs, qué cosas tan bonitas!
Desde luego que lo es, aunque no entiendo ni papa de lo que dice :-)
Yo lo haría a PNG. Luego, a jpg o pdf como postproceso que puedes ajustar. Los escaneres que convierten directamente a PDF lo hacen con mala calidad. El jpg está bien, pero no siempre lo hace con la calidad que te interesa (o sí). El PNG permite convertir a cualquier formato posteriormente - incluyendo DjVu.
O sea, salida del escaner como PNG, y luego convertirlo a djv... por qué? No lo veo :-?
Porque el PNG es un formato "raster", un bitmap mejorado por compresión y portabilidad. El djvu es un formato complejo y procesado.
3. Cómo se realiza el proceso de OCR sobre lo que sea que salga del escaner?
Ni idea.
... me lo tendrán que contar los proveedores de OCR, quienes sean.
He visto en la wiki de OCR unos cuantos. Pero no tengo ni idea de cuales son mejores o peores... alguien tiene alguna idea?:
Nop. A lo mejor tienes que probarlos, porque se trata de árabe. Igual teneis que subcontratar a un árabe entendido en el tema ;-)
Pero me queda ver en qué etapa aparece el djv :-?
Postproceso de la imagen ya escaneada, como formato de visualización y almacenamiento para el usuario final. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFG6X4EtTMYHG2NR9URAtJtAKCJJ3vJozhkDgzYdCjVbnvRRP8logCgmRWu EBq0/H87mE+IF+MH+fMn//o= =0iD0 -----END PGP SIGNATURE-----