Pues un poco como resumen del proyectito (alguien lo pidio):
Escaneres:
2x Canon 7080DR
Estos escaneres escanean bastante rápido, y se pueden usar separadores
(paginas especiales) para separar documentos entre sí.Se puede usar
una raiz comun en el nombre de los ficheros generados, facilitando
generar una convención de nombres.
Escaneamos a 300dpi (aunque estos escaneres podían hacerlo hasta
600dpi) debido a que algunos OCR afirman que funcionan mejor a 300dpi.
OCR:
Necesitaba uno que reconociese tanto inglés como árabe. Por el inglés
no hay problema, pero el arabe es otro cantar.
Encontramos un sw egipcio con buenas referencias en ministerios de Emiratos:
http://www.sakhr.com/products/OCR/Default.aspx?sec=Product&item=OCR
sobre el papel ofrecía un buen número de caraterísticas:
- gran soporte de árabe
- procesado automático de imágenes
- posibilidad de enseñarle: El ocr devuelve errores para ciertos
caracteres. A veces, algunos caracteres no eran reconocidos (los
indicaba con un caracter especial) y otras veces eren simplemente
reconocidos erroneamente. El paquete te permite seleccionar aquellos
caracteres no reconocidos o reconocidos erroneamente y enseñarle cual
era el caracter adecuado en esos casos.
- solo soportaba como formatos de salida rtf, art (un formato suyo) y
xml. Así que tuvimos que usar rtf.
- coste asumible: 1500 USD
- API disponible en la version platinium.
Sobre el papel muy bien, pero cuando lo pusimos a trabajar era un
autentico desastre. En los documentos en ingles tenía una precisión
del 50%, en árabe, las más veces producía documentos en blanco.
Estuvimos en contacto con el soporte, lo miraron ellos, lo revisaron
ellos. No fueron capaces de ponerlo a funcionar. Así que lo
devolvimos. No os lo recomiendo en absoluto, ni por el producto ni por
el soporte post venta, son un auténtico desastre.
El otro que probamos se llama ReadIris:
http://www.irislink.com/c2-532-189/OCR-Software---Product-list.aspx
Sobre el papel, la lista de características no era tan completa:
- soporte de arabe e ingles
- no tiene soporte para procesar imagenes automaticamente (si tuviese
eso, estaría cerca de la perfección).
- mayor numero de formatos de salida (doc, rtf, pdf, txt...)
- coste: realmente tirado de precio: menos de 90€ !!!
- no se le puede enseñar.
- no hay un teléfono donde acudir, no se si quiera si hay soporte...
Para tener ese coste han reducido a la mínima expresión varios
departamentos como soporte y ventas.
El único problema que nos dio fue que para poder procesar ficheros en
árabe es que hay que usarlo con la GUI en arabe, si no funcionaba
bastante mal.
En ingles tiene una precisión del 99% o más. Es realmente bueno.
En árabe tiene una precisión de un 80%, que comparado con la otra
basura nos pareció el paraíso musulmán. Hay que hacer un poco de
edición manual, pero nada realmente preocupante. Nos hubiese gustado
poder hacerlo automáticamente, pero visto lo visto, nos dimos con un
canto en los dientes.
Google Search Appliance:
Es una maquinita realmente curiosa. Es realmente sencilla de
administrar y configurar, no es cara para la funcionalidad que ofrece.
Pero nos vino con un par de bugs, que nos retrasaron considerablemente
la ejecución del proyecto. No obstante tengo que decir que el soporte
de Google fué impresionante. Nos ayudaron mucho una vez les contamos
el problema. Por cierto, el técnico que me tocó, resultó ser español,
una máquina el tío.
Pues eso es todo. No mucho, como podeís ver.
Espero que le pueda ayudar a alguien.
Slds,
miguel
2007/9/12 miguel gmail
Estimados,
qué haríais vosotros para escanear 750mil documentos en mes - mes y medio?
Tenéis idea de cual es el rendimiento de un escaner 'industrial'?
La idea es escanear esa burrada de documentos y pasarlos por un OCR, meterlos en un servidor de ficheros, e indexarlos con google appliance.
Estaba pensando en contratrar un par de personas de perfil bajo para llevar a cabo la tarea, pero mi cuello de botella está en el número de máquinas, que no se cuantas necesito.
Para más inri, los documentos están en árabe :-/
Muchas gracias! Y perdon por el muy OT
-- Saludos, miguel
Los agujeros negros son lugares donde dios dividió por cero.
Black holes are places where god divided by zero.
-- Saludos, miguel Los agujeros negros son lugares donde dios dividió por cero. Black holes are places where god divided by zero. --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org