Lo del escaneo masivo .......
* Creo que vas por mal camino y falta informacion sobre los objetivos.
Tienes razón. No tengo requerimientos como tales. Parece que el alcance de este 'proyecto' es la implementacion del GSA (Google Search Appliance) para digitalizar los 40mil docs, unas750mil paginas. Así, con esos nombres y apellidos. Lo que me jo** es que creen que el GSA es como la aspirina, que todo lo cura, y para todo viene bien, por lo que sus expectativas no serán cubiertas.
* ¿El documento final ha de ordenarse, clasificarse, nombrarse, referenciarse relacionarse y ser editable?, por que si es asi ponte en contacto con documentum y te diran scanners que es lo facil y ocr en cuestion, por que lo primero que necesitas para un procesado en que la manopla intervenga lo menos posible es una base de datos documental de narices que pueda adquirir directamente del scanner, procesar, nombrar, meter metadatos, referenciar, clasificar, almacenar en un lado las partes legibles, relacionarlas convirtiendo referencias para busquedas y el resto aparte, esto sobre linux te va a costar encontrarlo y si lo encuentras avisa, esto es carisimo y es llevado a cabo por empresas especializadas, no hay otra solucion (francamente creo que es lo que deberias hacer a la vista del tiempo y ausencia de infraestructura y experiencia en el asunto).
Esa es justo la idea que estuve pensando anoche. El documentum les vendría muy, pero que muy bien.
* Si el producto final "solo" ha de ser un documento nombrado, referenciado y clasificado a pseudomano e importacion masiva a las "colecciones" de la estructura del DMS, la ocr solo sirve para indexar el contenido legible (es una tarea en segundo plano), esta tarea ademas puede y debe efectuarse a la hora de importar masivamente y de forma desatendida los documentos a un Sistema Documental asi como tareas desatendidas con los ya importados (caracteristicas generales de cualquier DMS) tsearch en postgre (yo uso DocMGR), indexa el contenido (knowledge-tree, DocMGR y Alfresco desarrollador de documentum creo que esta todavia algo verde y es un proyecto mas alla de un DMS), esto es mucho mas barato pero nada de 6x1 y me llevo dos, calcula de cuatro meses para arriba y no te equivocaras, al menos dos scanners, 2 o 3 personas para el control de alimentacion y clasificado, al menos un operador que entienda Arabe (si son documentos de cierto perfil tecnico, facturas, documentos legales etc, ha de tener cierta cultura) el operador que trate el documento en pantalla (nombrado, referenciado), ha de descansar obligatoriamente cada hora como muy tarde o ser rotado).
* Puedes buscar tambien algun ERMS/ECM con caracteristicas avanzadas documentales.
* En esta segunda opcion (va a ser muy a manopla) yo buscaria un DMS que adquiera directamente del scanner, knowledge-tree las versiones de pago lo hacen, vale una pasta, el operador nombra, referencia y guarda (previa composicion de la estructura documental de almacenamiento que al cliente le interese), las aplicaciones de ocr integradas en el DMS (gocr u otras) ya se encargan periodicamente de repasar los documentos y acceden a diversos tipos de archivos tiff, pdf, word, etc y tsearch indexa el contenido (es decir esto seria un almacenamiento de ficheros del tipo que sean) con su correspondiente gestion documental y control de acceso, versiones, workflows, indexado, busqueda y estaria clasificado en secciones, etc.
* Puedes buscar tambien algun ERMS/ECM con caracteristicas avanzadas documentales.
Buff, voy a pasar tu mail por un intérprete. Tengo que leerlo un poco más despacio!
* Especifica que se pretende conseguir al final y te daremos una solucion y metodo de trabajo (cadena) necesitas un plan de etapas y trabajos previos, en unos u otros casos, que te evite problemas serios incluido el fiasco total.
A ver, esto es un poco despelote. Lo que el cliente _dice_ que quiere: Digitalizar e indexar con GSA su fondo documental (creo que de contratos) en papel, y poder realizar búsquedas. Lo que yo creo que necesitan: Una solución que aparte de indexar, categorize los documentos tal y como dices. por autor, por fecha de creación, por tipo de documento, etc... Y efectivamente, a raíz de todo esto, pienso que la estimación inicial de tiempo no es correcta, y seguramente la herramienta que han escogido ellos, tampoco. -- Saludos, miguel Los agujeros negros son lugares donde dios dividió por cero. Black holes are places where god divided by zero. --------------------------------------------------------------------- Para dar de baja la suscripción, mande un mensaje a: opensuse-es+unsubscribe@opensuse.org Para obtener el resto de direcciones-comando, mande un mensaje a: opensuse-es+help@opensuse.org