
-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-09-13 a las 11:38 +0200, miguel gmail escribió:
Lo mejor seria meterlo despues en una base de datos documental, con lo que el pdf se deberia descartar, lo que dijo carlos el dejavu y creo que propietarios hay alguno mas bastante bueno.
Por qué hay que descartar el pdf? No es que le tenga ningun cariño particular, pero cual es la razon para descartarlo?
Yo he tenido que estudiarme hojas de características de chips en pdf escaneado, de fabricantes serios, y se me secaban las pestañas intentando descifrarlos. No me gusta. El PDF está fantástico cuando el documento original es digital: es decir, el texto es texto. Es horrible con los escaneados de papel (IMO).
Escaneado manual, a 3 pag/minuto: 26 escáneres Escaneado manual, a 6 pag/minuto: 13 escáneres Escaneado automático: 20 pag/minuto: 4 escáneres
De locos.
Mira este vídeo: http://www.atiz.com/bookdrive_diy.php
Más preguntas que se me ocurren:
- Hay alguna forma de añadir meta información, tales como autor, fecha de creación del documento (la del papel, no la digital, obviamente)?
Depende del formato de salida. DjVu y PDF lo tienen previsto.
- El sw OCR forma parte del OCR? Si no es así, como creo... cómo se enlazan los procesos de escaneo y ocr?
OCR es software, sólo software. Y gordo. La entrada debe ser un formato gráfico (los baratos se enganchan al escanner). La salida es básicamente ascii, pero pueden integrarse con el Word, por ejemplo, entregando un documento básicamente formateado con sus fuentes de letra y todo - pero digo básicamente porque es para que el aspecto visual sea parecido, pero no para crear un documento word correcto en el que las páginas refluyan al cambiar los formatos. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFG6SpFtTMYHG2NR9URAgu1AJ92iWR0HRFiSPxi/MqM1cXOOv898gCZAWWw BKNfowtlCnj0EoI9wMR91WI= =tbhj -----END PGP SIGNATURE-----