Re: [opensuse-es] OT: escaneo masivo de documentos

13 Sep 2007

      ...
...
Cómo de bueno es? Lo pregunto porque te he leído despotricar contra
los OCR libres desde siempre.
MUY bueno.
Viniendo de tí me lo creo!
...
No es un OCR, es un formato gráfico especializado precisamente en
documentos escaneados, para su posterior visualización y distribución
electrónica, que es precisamente el caso. Es un formato para archivado que
compite con el PDF. Puede también incluir una capa de texto en formato
texto sacado del OCR.
Vale. Entonces... por qué más abajo sugieres PNG??

Te refieres a que el proceso sea:

                     suite
      escaner   dejavu      SW OCR
          |             |                |
papel ->   .djv    ->  PNG    ->    .pdf (o .doc, o .loquesea)

Es así? (espero que no se rompa mi muestra de ascii art)
...
Pero el PDF los gráficos los guarda internamente como jpgs: el PDF se usa
simplemente porque es una forma práctica de poner un libro con las fotos,
o sea, un multipágina.
Hay dos herramientas principales para crear .djvu, una comercial y otra
libre. La libre funciona, pero es linea de comandos con muchas opciones
que hay que ajustar mediante prueba y error hasta conseguir el resultado
apetecible. No es práctico para tantos documentos.
Tal vez, si los documentos tienen calidad similar, se puedan usar
ajustes similares, y meterlo todo en un batch.
...
La comercial no la he probado, pero se supone que automatiza el proceso,,
y facilita hacer cosas que yo no he hecho, como separar el plano monocolor
o añadir texto.
Lo investigaré (si es que el diagrama de arriba es correcto)
...
En http://mybook.bibalex.org/?v=c tienes ejemplos en árabe (Egyptian
Arabic Illustrated Childrens Stories). Por ejemplo,
http://mybook.bibalex.org/book.php?b=005040 (panel derecho) parece un
documento (36 páginas) sobre las pirámides de la "Biblioteca Alexandrina".
Oichs, qué cosas tan bonitas!
...
El konkeror lo soporta, puede mostrar los miniiconos. Pero no lo soporta
el gimp, ni puedes incluir las fotos en el OOo, aunque se pueden
reconvertir facilmente a graficos que sí.
...
Me estoy parando a pensar ahora cómo es el proceso, y me asaltan dudas:
1. Escanear la hoja... Cual es el resultado de esta operación?
2. Me imagino que será un jpg, o un pdf.
Yo lo haría a PNG. Luego, a jpg o pdf como postproceso que puedes ajustar.
Los escaneres que convierten directamente a PDF lo hacen con mala calidad.
El jpg está bien, pero no siempre lo hace con la calidad que te interesa
(o sí). El PNG permite convertir a cualquier formato posteriormente -
incluyendo DjVu.
O sea, salida del escaner como PNG, y luego convertirlo a djv... por
qué? No lo veo :-?
...
Una posibilidad (que hacen las bibliotecas serias) es ofrecer la
   documentación en varios formatos.
Luego el PNG se puede borrar una vez hechos todos los procesamientos
(producto final aceptado). Si el resultado no gusta, con el PNG puedes
volver a procesarlo sin necesidad de escanear de nuevo.
...
3. Cómo se realiza el proceso de OCR sobre lo que sea que salga del escaner?
Ni idea.
... me lo tendrán que contar los proveedores de OCR, quienes sean.

He visto en la wiki de OCR unos cuantos. Pero no tengo ni idea de
cuales son mejores o peores... alguien tiene alguna idea?:

    * ABBYY FineReader OCR
    * GOCR
    * Falcon32
    * IPStudio
    * Microsoft Office Document Imaging
    * NovoDynamics VERUS
    * Ocrad
    * Ocropus
    * OmniPage
    * Readiris
    * SmartScore
    * Tesseract (software)
    * TopSoft TopOCR
...
No tiene que ver con el DjVu ni el pdf: los formatos de almacenamiento
se limitan a eso, a almacenar.
Entiendo.

Pero me queda ver en qué etapa aparece el djv :-?

-- 
Saludos,
miguel

Los agujeros negros son lugares donde dios dividió por cero.

Black holes are places where god divided by zero.
---------------------------------------------------------------------
Para dar de baja la suscripciÃ³n, mande un mensaje a:
   opensuse-es+unsubscribe@opensuse.org
Para obtener el resto de direcciones-comando, mande
un mensaje a:
   opensuse-es+help@opensuse.org

Re: [opensuse-es] OT: escaneo masivo de documentos

miguel gmail