Am Sonntag, 25. Juli 2004 01:46 schrieb David Haller: Hallo David,
Am Sun, 25 Jul 2004, Al Bogner schrieb:
Ich habe hier eine Textdatei, die sich nach dem Schema /usr/bin/iconv -f latin1 -t utf-8 "$DATEINEU" -o "$DATEI" nicht konvertieren lässt.
Im Original sehen die Worte zB so aus: erha"ltlich erholungsbedu"rftig
Das ähnelt der LaTeX Eingabekodierung mit (n)german, allerdings in falscher Reihenfolge, das müsste 'erh"altlich' bzw. '-bed"urftig' sein.
Prinzipiell kennt recode die LaTeX-Kodierung, allerdings nicht die (n)german Kurzformen.
$ echo 'echo 'äöüßÄÖÜ' | recode latin9..latex | tee /dev/stderr \
| recode latex..latin9
\"a\"o\"u\ss{}\"A\"O\"U äöüßÄÖÜ
Das per script zu lösen wird schwierig, falls in dem Text noch " an anderer Stelle vorkommen.
Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
BTW: bist du sicher, daß das eine "reine" Textdatei ist?
Wenn du Lust hast, dann schau dir das an: wget ftp://ftp.se.openwall.com/pub/wordlists/all.gz Ich habe es allerdings mit anderen ftp-clients und Browsern nicht geschafft ein fehlerfreie Datei runterzuladen. da wurden dann immer an die 40GB statt 12MB angezeigt und meldeten mit gzip -d ein zerstörtes Archiv. Al