Re: [opensuse-es] OT: escaneo masivo de documentos

14 Sep 2007

      ...
...
Lo del escaneo masivo .......
* Creo que vas por mal camino y falta informacion sobre los objetivos.
Tienes razón.

No tengo requerimientos como tales.

Parece que el alcance de este 'proyecto' es la implementacion del GSA
(Google Search Appliance) para digitalizar los 40mil docs, unas750mil
paginas. Así, con esos nombres y apellidos.

Lo que me jo** es que creen que el GSA es como la aspirina, que todo
lo cura, y para todo viene bien, por lo que sus expectativas no serán
cubiertas.
...
* ¿El documento final ha de ordenarse, clasificarse, nombrarse, referenciarse
relacionarse y ser editable?, por que si es asi ponte en contacto con
documentum y te diran scanners que es lo facil y ocr en cuestion, por que lo
primero que necesitas para un procesado en que la manopla intervenga lo menos
posible es una base de datos documental de narices que pueda adquirir
directamente del scanner, procesar, nombrar, meter metadatos, referenciar,
clasificar, almacenar en un lado las partes legibles, relacionarlas
convirtiendo referencias para  busquedas y el resto aparte, esto sobre linux
te va a costar encontrarlo y si lo encuentras avisa, esto es carisimo y es
llevado a cabo por empresas especializadas, no hay otra solucion (francamente
creo que es lo que deberias hacer a la vista del tiempo y ausencia de
infraestructura y experiencia en el asunto).
Esa es justo la idea que estuve pensando anoche.

El documentum les vendría muy, pero que muy bien.
...
* Si el producto final "solo" ha de ser un documento nombrado, referenciado y
clasificado a pseudomano e importacion masiva a las "colecciones" de la
estructura del DMS, la ocr solo sirve para indexar el contenido legible (es
una tarea en segundo plano), esta tarea ademas puede y debe efectuarse a la
hora de importar masivamente y de forma desatendida los documentos a un
Sistema Documental asi como tareas desatendidas con los ya importados
(caracteristicas generales de cualquier DMS) tsearch en postgre (yo uso
DocMGR), indexa el contenido (knowledge-tree, DocMGR y Alfresco desarrollador
de documentum creo que esta todavia algo verde y es un proyecto mas alla de
un DMS), esto es mucho mas barato pero nada de 6x1 y me llevo dos, calcula de
cuatro meses para arriba y no te equivocaras, al menos dos scanners, 2 o 3
personas para el control de alimentacion y clasificado, al menos un operador
que entienda Arabe (si son documentos de cierto perfil tecnico, facturas,
documentos legales etc, ha de tener cierta cultura) el operador que trate el
documento en pantalla (nombrado, referenciado), ha de descansar
obligatoriamente cada hora como muy tarde o ser rotado).
* Puedes buscar tambien algun ERMS/ECM con caracteristicas avanzadas
documentales.
* En esta segunda opcion (va a ser muy a manopla) yo buscaria un DMS que
adquiera directamente del scanner, knowledge-tree las versiones de pago lo
hacen, vale una pasta,  el operador nombra, referencia y guarda (previa
composicion de la estructura documental de almacenamiento que al cliente le
interese), las aplicaciones de ocr integradas en el DMS (gocr u otras) ya se
encargan periodicamente de repasar los documentos y acceden a diversos tipos
de archivos tiff, pdf, word, etc y tsearch indexa el contenido (es decir esto
seria un almacenamiento de ficheros del tipo que sean) con su correspondiente
gestion documental y control de acceso, versiones, workflows, indexado,
busqueda y estaria clasificado en secciones, etc.
* Puedes buscar tambien algun ERMS/ECM con caracteristicas avanzadas
documentales.
Buff, voy a pasar tu mail por un intérprete. Tengo que leerlo un poco
más despacio!
...
* Especifica que se pretende conseguir al final y te daremos una solucion y
metodo de trabajo (cadena) necesitas un plan de etapas y trabajos previos, en
unos u otros casos, que te evite problemas serios incluido el fiasco total.
A ver, esto es un poco despelote.

Lo que el cliente _dice_ que quiere: Digitalizar e indexar con GSA su
fondo documental (creo que de contratos) en papel, y poder realizar
búsquedas.

Lo que yo creo que necesitan: Una solución que aparte de indexar,
categorize los documentos tal y como dices. por autor, por fecha de
creación, por tipo de documento, etc...

Y efectivamente, a raíz de todo esto, pienso que la estimación inicial
de tiempo no es correcta, y seguramente la herramienta que han
escogido ellos, tampoco.

-- 
Saludos,
miguel

Los agujeros negros son lugares donde dios dividió por cero.

Black holes are places where god divided by zero.
---------------------------------------------------------------------
Para dar de baja la suscripciÃ³n, mande un mensaje a:
   opensuse-es+unsubscribe@opensuse.org
Para obtener el resto de direcciones-comando, mande
un mensaje a:
   opensuse-es+help@opensuse.org

Re: [opensuse-es] OT: escaneo masivo de documentos

miguel gmail