Cómo de bueno es? Lo pregunto porque te he leído despotricar contra los OCR libres desde siempre.
MUY bueno.
Viniendo de tí me lo creo!
No es un OCR, es un formato gráfico especializado precisamente en documentos escaneados, para su posterior visualización y distribución electrónica, que es precisamente el caso. Es un formato para archivado que compite con el PDF. Puede también incluir una capa de texto en formato texto sacado del OCR.
Vale. Entonces... por qué más abajo sugieres PNG?? Te refieres a que el proceso sea: suite escaner dejavu SW OCR | | | papel -> .djv -> PNG -> .pdf (o .doc, o .loquesea) Es así? (espero que no se rompa mi muestra de ascii art)
Pero el PDF los gráficos los guarda internamente como jpgs: el PDF se usa simplemente porque es una forma práctica de poner un libro con las fotos, o sea, un multipágina.
Hay dos herramientas principales para crear .djvu, una comercial y otra libre. La libre funciona, pero es linea de comandos con muchas opciones que hay que ajustar mediante prueba y error hasta conseguir el resultado apetecible. No es práctico para tantos documentos.
Tal vez, si los documentos tienen calidad similar, se puedan usar ajustes similares, y meterlo todo en un batch.
La comercial no la he probado, pero se supone que automatiza el proceso,, y facilita hacer cosas que yo no he hecho, como separar el plano monocolor o añadir texto.
Lo investigaré (si es que el diagrama de arriba es correcto)
En http://mybook.bibalex.org/?v=c tienes ejemplos en árabe (Egyptian Arabic Illustrated Childrens Stories). Por ejemplo, http://mybook.bibalex.org/book.php?b=005040 (panel derecho) parece un documento (36 páginas) sobre las pirámides de la "Biblioteca Alexandrina".
Oichs, qué cosas tan bonitas!
El konkeror lo soporta, puede mostrar los miniiconos. Pero no lo soporta el gimp, ni puedes incluir las fotos en el OOo, aunque se pueden reconvertir facilmente a graficos que sí.
Me estoy parando a pensar ahora cómo es el proceso, y me asaltan dudas:
1. Escanear la hoja... Cual es el resultado de esta operación?
2. Me imagino que será un jpg, o un pdf.
Yo lo haría a PNG. Luego, a jpg o pdf como postproceso que puedes ajustar. Los escaneres que convierten directamente a PDF lo hacen con mala calidad. El jpg está bien, pero no siempre lo hace con la calidad que te interesa (o sí). El PNG permite convertir a cualquier formato posteriormente - incluyendo DjVu.
O sea, salida del escaner como PNG, y luego convertirlo a djv... por qué? No lo veo :-?
Una posibilidad (que hacen las bibliotecas serias) es ofrecer la documentación en varios formatos.
Luego el PNG se puede borrar una vez hechos todos los procesamientos (producto final aceptado). Si el resultado no gusta, con el PNG puedes volver a procesarlo sin necesidad de escanear de nuevo.
3. Cómo se realiza el proceso de OCR sobre lo que sea que salga del escaner?
Ni idea.
... me lo tendrán que contar los proveedores de OCR, quienes sean. He visto en la wiki de OCR unos cuantos. Pero no tengo ni idea de cuales son mejores o peores... alguien tiene alguna idea?: * ABBYY FineReader OCR * GOCR * Falcon32 * IPStudio * Microsoft Office Document Imaging * NovoDynamics VERUS * Ocrad * Ocropus * OmniPage * Readiris * SmartScore * Tesseract (software) * TopSoft TopOCR
No tiene que ver con el DjVu ni el pdf: los formatos de almacenamiento se limitan a eso, a almacenar.
Entiendo. Pero me queda ver en qué etapa aparece el djv :-? -- Saludos, miguel Los agujeros negros son lugares donde dios dividió por cero. Black holes are places where god divided by zero. --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org