Re: [opensuse-es] OT: escaneo masivo de documentos

13 Sep 2007

      -----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

El 2007-09-13 a las 11:38 +0200, miguel gmail escribió:
...
...
Lo mejor seria meterlo despues en una base de datos documental, con lo que el
pdf se deberia descartar, lo que dijo carlos el dejavu y creo que
propietarios hay alguno mas bastante bueno.
Por qué hay que descartar el pdf? No es que le tenga ningun cariño
particular, pero cual es la razon para descartarlo?
Yo he tenido que estudiarme hojas de características de chips en pdf 
escaneado, de fabricantes serios, y se me secaban las pestañas intentando 
descifrarlos. No me gusta.

El PDF está fantástico cuando el documento original es digital: es decir, 
el texto es texto. Es horrible con los escaneados de papel (IMO).
...
Escaneado manual, a 3 pag/minuto: 26 escáneres
Escaneado manual, a 6 pag/minuto: 13 escáneres
Escaneado automático: 20 pag/minuto: 4 escáneres
De locos.
Mira este vídeo:

http://www.atiz.com/bookdrive_diy.php
...
Más preguntas que se me ocurren:
- Hay alguna forma de añadir meta información, tales como autor, fecha
de creación del documento (la del papel, no la digital, obviamente)?
Depende del formato de salida. DjVu y PDF lo tienen previsto.
...
- El sw OCR forma parte del OCR? Si no es así, como creo... cómo se
enlazan los procesos de escaneo y ocr?
OCR es software, sólo software. Y gordo.

La entrada debe ser un formato gráfico (los baratos se enganchan al 
escanner). La salida es básicamente ascii, pero pueden integrarse con el 
Word, por ejemplo, entregando un documento básicamente formateado con sus 
fuentes de letra y todo - pero digo básicamente porque es para que el 
aspecto visual sea parecido, pero no para crear un documento word correcto 
en el que las páginas refluyan al cambiar los formatos.

- -- 
Saludos
       Carlos E.R.
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.5 (GNU/Linux)
Comment: Made with pgp4pine 1.76

iD8DBQFG6SpFtTMYHG2NR9URAgu1AJ92iWR0HRFiSPxi/MqM1cXOOv898gCZAWWw
BKNfowtlCnj0EoI9wMR91WI=
=tbhj
-----END PGP SIGNATURE-----

Re: [opensuse-es] OT: escaneo masivo de documentos

Carlos E. R.