-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA1 El 2007-09-13 a las 12:15 +0200, Camaleón escribió:
El 13/09/07, miguel gmail escribió:
Es emiratos - Abu Dhabi (que todo lo queréis saber :P)
Es que el escenario que propones es un poco "peculiar", por eso :-).
El problema de externalizar el escaneado es que NO se pueden sacar los documentos del edificio donde están. De esto me acabo de enterar.
:-O :-O :-O
Je. Me lo sospechaba O:-) Además, necesita saber si están encuadernados o son hojas sueltas o soltables. Porque si están encuadernados implica usar un escaner orbital de los que comentamos el otro dia, y entonces la velocidad de escaneo baja una barbaridad.
Ni hablar. Los traductores son lo suficientemente malos como para fiarme de mi ingles, sobre un texto mal traducido, para deducir que el OCR se ha hecho mal.
Miguel, el proceso de escaneo + ocr es, básicamente, poner el original (si son hojas sueltas se puede automatizar), escanear con el programa a resolución alta para texto -y en árabe supongo que mayor aún-, seleccionar el área de escaneo (por lo general toda la superficie), y guardar el resultado en formato editable (que para eso es ocr) como texto plano, xml, pdf o similar, no sé si djvu es editable. Si la salida es un formato imagen (jpeg) el ocr no te hace ninguna función :-?
Los formatos como el DjVu guardan el texto gráficamente más una copia textual salida del OCR automático sin corrección - o con ella -, pero no es más que el texto en ASCII de otro fichero que se le ha pegado internamente. Creo que si se hace bien puedes incluso pinchar y cortar con el ratón, vamos, que el texto está posicionado. No se como se hace eso. El PDF hace lo mismo, o muy similar.
Lo del traductor te hará falta para evaluar el contenido (la calidad) de la salida, es decir, comprobar que si en el original pone "casa" en el texto digitalizado no pone "pasa", por hace falta una persona que sepa árabe.
Más que un traductor es un documentalista del edificio que conozca los documentos y compare original con "ocerreado". No hace falta que traduzca, sino que evalue. Depende de la calidad del OCR (probarlo con documentos iguales a los originales) si hará falta mucha corrección o no. Puede que tenga que contratar una sala entera de correctores a manuense.
Los ocr caseros fallan más que una escopeta de feria (en español y en inglés, en árabe supongo que más aún :-P)
Por eso le dije que necesitaba uno de los buenos y caros. - -- Saludos Carlos E.R. -----BEGIN PGP SIGNATURE----- Version: GnuPG v1.4.5 (GNU/Linux) Comment: Made with pgp4pine 1.76 iD8DBQFG6SC8tTMYHG2NR9URAq27AKCB4z/MtGGt+RfjnxJ+lJKZMzpUDwCfc4NM OuOtVv7P7ZBCo/ULqrJuNVM= =JEev -----END PGP SIGNATURE-----