Re: [opensuse-es] [OT] OpenOffice (Calc)

18 Jan 2007

      -----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

El 2007-01-18 a las 20:30 +0100, Camaleón escribió:
...
El fichero lo puedes descargar desdes este enlace:
http://ec.europa.eu/eurostat/ramon/nomenclatures/index.cfm?TargetUrl=LST_CLS_DLD&StrNom=CN_2007&StrLanguageCode=EN&StrLayoutCode=HIERARCHIC
Pulsa sobre "Formato CSV" y se te abrirá un pop-up, selecciona el
punto y coma (;) como separador y te descargará el fichero de 7 MB.
Si descubres algo, avisa :-)
Por lo pronto, viene en formato msdos, con retornos de carro incorrectos 
para unix. Si lo abres con "less", verás que lo interpreta como una única 
linea. El dos2unix lo convierte mal.

Observa:

cer@nimrodel:~/tmp> wc -l CN_2007_18-01-2007_20-57-16.csv
7 CN_2007_18-01-2007_20-57-16.csv

Intento abrirlo directamente con el OO. Ve el csv, le digo que el 
separador es unicamente el punto y coma, que la codificación es unicode 
utf-8, le digo que trate las tres primeras columnas como texto, no, 
todas... ¿Me suena que había una manera de decirle que la primera linea 
eran rótulos? ... Avanti.

Ha importado 13903 lineas - pero no se cuantas hay en realidad.

¿Y los otros formatos que hay, como xml, sirven?

Le cambio la extensión al original a .txt, lo abro con el OO como texto 
plano, separación de párrafos en "CR", grabo como texto plano:

cer@nimrodel:~/tmp> wc -l CN_2007_18-01-2007_20-57-16-OOo.txt
15155 CN_2007_18-01-2007_20-57-16-OOo.txt

Ya dice el número de lineas correcto. Probemos a importarlo. Le cambio el 
nombre a .csv. Importo en OOo.

Ha importado igualmente 13903, luego eso no funciona, faltan un par de 
miles de lineas.

Hay otra posibilidad más, ahora que lo tengo en texto plano: partirlo por 
la mitad, importarlas por separado, y luego unirlas.

cer@nimrodel:~/tmp> split --lines 10000 CN_2007_18-01-2007_20-57-16-OOo-txt.csv CN_2007_18-01-2007_20-57-16-OOo-txt-split
cer@nimrodel:~/tmp> l CN_2007_18-01-2007_20-57-16-OOo-txt-split*
- -rw-r--r-- 1 cer users 5086645 2007-01-18 21:31 CN_2007_18-01-2007_20-57-16-OOo-txt-splitaa
- -rw-r--r-- 1 cer users 2462902 2007-01-18 21:31 CN_2007_18-01-2007_20-57-16-OOo-txt-splitab

cer@nimrodel:~/tmp> mv CN_2007_18-01-2007_20-57-16-OOo-txt-splitaa CN_2007_18-01-2007_20-57-16-OOo-txt-split.aa.csv
cer@nimrodel:~/tmp> mv CN_2007_18-01-2007_20-57-16-OOo-txt-splitab CN_2007_18-01-2007_20-57-16-OOo-txt-split.ab.csv

cer@nimrodel:~/tmp> wc -l CN_2007_18-01-2007_20-57-16-OOo-txt-split.aa.csv CN_2007_18-01-2007_20-57-16-OOo-txt-split.ab.csv
  10000 CN_2007_18-01-2007_20-57-16-OOo-txt-split.aa.csv
   5155 CN_2007_18-01-2007_20-57-16-OOo-txt-split.ab.csv
  15155 total

Primera mitad, 10000 lineas - importa sólo 9355.
Segunda mitad, 5155 lineas - importa sólo 4548.

Junto las dos partes en una misma hoja, 13904 lineas incluyendo un 
separador entre ambas partes.

Luego el problema no es un límte de tamaño, es un problema con la 
importación en sí misma, un bug en el OO. Iba a decir que del 10.1, pero 
acabo de darme cuenta que dices que la 10.2 falla igual.

Tú que conoces la estructura de ese fichero podrías averiguar qué lineas 
le faltan, en qué falla. ¿Funcionaría un diff si grabamos un csv desde el 
OO? Quizás no. ¿Grabando sólo el campo indice y comparando cuales indices 
faltan?

Por cierto, que me tarda un montón en grabarlo como .odt el OOo. 

- -- 
Saludos
       Carlos E. R.
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.2 (GNU/Linux)
Comment: Made with pgp4pine 1.76

iD8DBQFFr9xWtTMYHG2NR9URAojGAJ9l0XGpGDx8tpyfI7CALN7746Lo+ACghWZe
kZbvZtavO5Wnhzp7OMjKLbo=
=nKmT
-----END PGP SIGNATURE-----