Hace unos dias salió un articulo sobre el tema en Linux Magazine:
http://www.linux-mag.com/id/5320
En el habla de un par de aplicaciones de Google:
Tesseract http://code.google.com/p/tesseract-ocr/
y Ocropus http://code.google.com/p/ocropus/ que trabaja con la
aplicación anterior como base.
Has usado alguna de estas?
Luego el articulo describe el gscan2pdf, que el resultado del escaneo
lo entrega en archivo pdf: http://gscan2pdf.sourceforge.net
Aparece otro que segun dice el articulo tiene resultados similares al tesseract:
VueScan (http://www.hamrick.com).
Despues otros ya mas o menos conocidos:
GNU Ocrad (http://www.gnu.org/software/ocrad/ocrad.html)
GOCR (http://jocr.sourceforge.net)
Otro proyecto discontinuado: Clara OCR http://www.geocities.com/claraocr/
Salu2
El 12/03/08, miguel gmail
Pues un poco como resumen del proyectito (alguien lo pidio):
Escaneres:
2x Canon 7080DR Estos escaneres escanean bastante rápido, y se pueden usar separadores (paginas especiales) para separar documentos entre sí.Se puede usar una raiz comun en el nombre de los ficheros generados, facilitando generar una convención de nombres. Escaneamos a 300dpi (aunque estos escaneres podían hacerlo hasta 600dpi) debido a que algunos OCR afirman que funcionan mejor a 300dpi.
OCR:
Necesitaba uno que reconociese tanto inglés como árabe. Por el inglés no hay problema, pero el arabe es otro cantar. Encontramos un sw egipcio con buenas referencias en ministerios de Emiratos:
http://www.sakhr.com/products/OCR/Default.aspx?sec=Product&item=OCR
sobre el papel ofrecía un buen número de caraterísticas: - gran soporte de árabe - procesado automático de imágenes - posibilidad de enseñarle: El ocr devuelve errores para ciertos caracteres. A veces, algunos caracteres no eran reconocidos (los indicaba con un caracter especial) y otras veces eren simplemente reconocidos erroneamente. El paquete te permite seleccionar aquellos caracteres no reconocidos o reconocidos erroneamente y enseñarle cual era el caracter adecuado en esos casos. - solo soportaba como formatos de salida rtf, art (un formato suyo) y xml. Así que tuvimos que usar rtf. - coste asumible: 1500 USD - API disponible en la version platinium.
Sobre el papel muy bien, pero cuando lo pusimos a trabajar era un autentico desastre. En los documentos en ingles tenía una precisión del 50%, en árabe, las más veces producía documentos en blanco. Estuvimos en contacto con el soporte, lo miraron ellos, lo revisaron ellos. No fueron capaces de ponerlo a funcionar. Así que lo devolvimos. No os lo recomiendo en absoluto, ni por el producto ni por el soporte post venta, son un auténtico desastre.
El otro que probamos se llama ReadIris: http://www.irislink.com/c2-532-189/OCR-Software---Product-list.aspx Sobre el papel, la lista de características no era tan completa:
- soporte de arabe e ingles - no tiene soporte para procesar imagenes automaticamente (si tuviese eso, estaría cerca de la perfección). - mayor numero de formatos de salida (doc, rtf, pdf, txt...) - coste: realmente tirado de precio: menos de 90€ !!! - no se le puede enseñar. - no hay un teléfono donde acudir, no se si quiera si hay soporte... Para tener ese coste han reducido a la mínima expresión varios departamentos como soporte y ventas.
El único problema que nos dio fue que para poder procesar ficheros en árabe es que hay que usarlo con la GUI en arabe, si no funcionaba bastante mal. En ingles tiene una precisión del 99% o más. Es realmente bueno. En árabe tiene una precisión de un 80%, que comparado con la otra basura nos pareció el paraíso musulmán. Hay que hacer un poco de edición manual, pero nada realmente preocupante. Nos hubiese gustado poder hacerlo automáticamente, pero visto lo visto, nos dimos con un canto en los dientes.
Google Search Appliance: Es una maquinita realmente curiosa. Es realmente sencilla de administrar y configurar, no es cara para la funcionalidad que ofrece. Pero nos vino con un par de bugs, que nos retrasaron considerablemente la ejecución del proyecto. No obstante tengo que decir que el soporte de Google fué impresionante. Nos ayudaron mucho una vez les contamos el problema. Por cierto, el técnico que me tocó, resultó ser español, una máquina el tío.
Pues eso es todo. No mucho, como podeís ver. Espero que le pueda ayudar a alguien.
Slds, miguel
2007/9/12 miguel gmail
: Estimados,
qué haríais vosotros para escanear 750mil documentos en mes - mes y medio?
Tenéis idea de cual es el rendimiento de un escaner 'industrial'?
La idea es escanear esa burrada de documentos y pasarlos por un OCR, meterlos en un servidor de ficheros, e indexarlos con google appliance.
Estaba pensando en contratrar un par de personas de perfil bajo para llevar a cabo la tarea, pero mi cuello de botella está en el número de máquinas, que no se cuantas necesito.
Para más inri, los documentos están en árabe :-/
Muchas gracias! Y perdon por el muy OT
-- Saludos, miguel
Los agujeros negros son lugares donde dios dividió por cero.
Black holes are places where god divided by zero.
-- Saludos, miguel
Los agujeros negros son lugares donde dios dividió por cero.
Black holes are places where god divided by zero. --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org
--------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org