Re: [opensuse-es] Re: OT: escaneo masivo de documentos

12 Mar 2008

      Hace unos dias salió un articulo sobre el tema en Linux Magazine:
http://www.linux-mag.com/id/5320

En el habla de un par de aplicaciones de Google:

Tesseract  http://code.google.com/p/tesseract-ocr/

y Ocropus http://code.google.com/p/ocropus/  que trabaja con la
aplicación anterior como base.

Has usado alguna de estas?

Luego el articulo describe el gscan2pdf, que el resultado del escaneo
lo entrega en archivo pdf: http://gscan2pdf.sourceforge.net

Aparece otro que segun dice el articulo tiene resultados similares al tesseract:
VueScan (http://www.hamrick.com).

Despues otros ya mas o menos conocidos:

GNU Ocrad (http://www.gnu.org/software/ocrad/ocrad.html)

GOCR (http://jocr.sourceforge.net)

Otro proyecto discontinuado: Clara OCR http://www.geocities.com/claraocr/

Salu2

El 12/03/08, miguel gmail  escribió:
...
Pues un poco como resumen del proyectito (alguien lo pidio):
Escaneres:
2x Canon 7080DR
 Estos escaneres escanean bastante rápido, y se pueden usar separadores
 (paginas especiales) para separar documentos entre sí.Se puede usar
 una raiz comun en el nombre de los ficheros generados, facilitando
 generar una convención de nombres.
 Escaneamos a 300dpi (aunque estos escaneres podían hacerlo hasta
 600dpi) debido a que algunos OCR afirman que funcionan mejor a 300dpi.
OCR:
Necesitaba uno que reconociese tanto inglés como árabe. Por el inglés
 no hay problema, pero el arabe es otro cantar.
 Encontramos un sw egipcio con buenas referencias en ministerios de Emiratos:
http://www.sakhr.com/products/OCR/Default.aspx?sec=Product&item=OCR
sobre el papel ofrecía un buen número de caraterísticas:
  - gran soporte de árabe
  - procesado automático de imágenes
  - posibilidad de enseñarle: El ocr devuelve errores para ciertos
 caracteres. A veces, algunos caracteres no eran reconocidos (los
 indicaba con un caracter especial) y otras veces eren simplemente
 reconocidos erroneamente. El paquete te permite seleccionar aquellos
 caracteres no reconocidos o reconocidos erroneamente y enseñarle cual
 era el caracter adecuado en esos casos.
  - solo soportaba como formatos de salida rtf, art (un formato suyo) y
 xml. Así que tuvimos que usar rtf.
  - coste asumible: 1500 USD
  - API disponible en la version platinium.
Sobre el papel muy bien, pero cuando lo pusimos a trabajar era un
 autentico desastre. En los documentos en ingles tenía una precisión
 del 50%, en árabe, las más veces producía documentos en blanco.
 Estuvimos en contacto con el soporte, lo miraron ellos, lo revisaron
 ellos. No fueron capaces de ponerlo a funcionar. Así que lo
 devolvimos. No os lo recomiendo en absoluto, ni por el producto ni por
 el soporte post venta, son un auténtico desastre.
El otro que probamos se llama ReadIris:
 http://www.irislink.com/c2-532-189/OCR-Software---Product-list.aspx
 Sobre el papel, la lista de características no era tan completa:
- soporte de arabe e ingles
 - no tiene soporte para procesar imagenes automaticamente (si tuviese
 eso, estaría cerca de la perfección).
 - mayor numero de formatos de salida (doc, rtf, pdf, txt...)
 - coste: realmente tirado de precio: menos de 90€ !!!
 - no se le puede enseñar.
 - no hay un teléfono donde acudir, no se si quiera si hay soporte...
 Para tener ese coste han reducido a la mínima expresión varios
 departamentos como soporte y ventas.
El único problema que nos dio fue que para poder procesar ficheros en
 árabe es que hay que usarlo con la GUI en arabe, si no funcionaba
 bastante mal.
 En ingles tiene una precisión del 99% o más. Es realmente bueno.
 En árabe tiene una precisión de un 80%, que comparado con la otra
 basura nos pareció el paraíso musulmán. Hay que hacer un poco de
 edición manual, pero nada realmente preocupante. Nos hubiese gustado
 poder hacerlo automáticamente, pero visto lo visto, nos dimos con un
 canto en los dientes.
Google Search Appliance:
 Es una maquinita realmente curiosa. Es realmente sencilla de
 administrar y configurar, no es cara para la funcionalidad que ofrece.
 Pero nos vino con un par de bugs, que nos retrasaron considerablemente
 la ejecución del proyecto. No obstante tengo que decir que el soporte
 de Google fué impresionante. Nos ayudaron mucho una vez les contamos
 el problema. Por cierto, el técnico que me tocó, resultó ser español,
 una máquina el tío.
Pues eso es todo. No mucho, como podeís ver.
 Espero que le pueda ayudar a alguien.
Slds,
 miguel
2007/9/12 miguel gmail :
...
Estimados,
qué haríais vosotros para escanear 750mil documentos en mes - mes y medio?
Tenéis idea de cual es el rendimiento de un escaner 'industrial'?
La idea es escanear esa burrada de documentos y pasarlos por un OCR,
 meterlos en un servidor de ficheros, e indexarlos con google
 appliance.
Estaba pensando en contratrar un par de personas de perfil bajo para
 llevar a cabo la tarea, pero mi cuello de botella está en el número de
 máquinas, que no se cuantas necesito.
Para más inri, los documentos están en árabe :-/
Muchas gracias!
 Y perdon por el muy OT
--
 Saludos,
 miguel
Los agujeros negros son lugares donde dios dividió por cero.
Black holes are places where god divided by zero.
--
 Saludos,
 miguel
Los agujeros negros son lugares donde dios dividió por cero.
Black holes are places where god divided by zero.
 ---------------------------------------------------------------------
 Para dar de baja la suscripciÃ³n, mande un mensaje a:
   opensuse-es+unsubscribe@opensuse.org
 Para obtener el resto de direcciones-comando, mande
 un mensaje a:
   opensuse-es+help@opensuse.org
---------------------------------------------------------------------
Para dar de baja la suscripciÃ³n, mande un mensaje a:
   opensuse-es+unsubscribe@opensuse.org
Para obtener el resto de direcciones-comando, mande
un mensaje a:
   opensuse-es+help@opensuse.org

Re: [opensuse-es] Re: OT: escaneo masivo de documentos

Juan Erbes