Ich habe hier eine Textdatei, die sich nach dem Schema /usr/bin/iconv -f latin1 -t utf-8 "$DATEINEU" -o "$DATEI" nicht konvertieren lässt. Im Original sehen die Worte zB so aus: erha"ltlich erholungsbedu"rftig ero"rternd budge'tise`rent bu`squeda cabri`o cafe'-the'a^tre Andere Worte aber passen, wie: busquées collatéral Muss ich mir zur Konvertierung ein Script bauen, oder geht das vielleicht irgendwie mit recode? Al
Hallo Al, Am Sun, 25 Jul 2004, Al Bogner schrieb:
Ich habe hier eine Textdatei, die sich nach dem Schema /usr/bin/iconv -f latin1 -t utf-8 "$DATEINEU" -o "$DATEI" nicht konvertieren lässt.
Im Original sehen die Worte zB so aus: erha"ltlich erholungsbedu"rftig
Das ähnelt der LaTeX Eingabekodierung mit (n)german, allerdings in falscher Reihenfolge, das müsste 'erh"altlich' bzw. '-bed"urftig' sein. In gewissen Usenet-Gruppen ist es auch üblich, Umlaute so zu kodieren anstatt ae, oe, ue, ss usw. zu verwenden.
Muss ich mir zur Konvertierung ein Script bauen, oder geht das vielleicht irgendwie mit recode?
Prinzipiell kennt recode die LaTeX-Kodierung, allerdings nicht die (n)german Kurzformen. $ echo 'echo 'äöüßÄÖÜ' | recode latin9..latex | tee /dev/stderr \ | recode latex..latin9 \"a\"o\"u\ss{}\"A\"O\"U äöüßÄÖÜ Das per script zu lösen wird schwierig, falls in dem Text noch " an anderer Stelle vorkommen. BTW: bist du sicher, daß das eine "reine" Textdatei ist? -dnh -- "Usenet is like a herd of performing elephants with diarrhea -- massive, difficult to redirect, awe-inspiring, entertaining, and a source of mind- boggling amounts of excrement when you least expect it." -- spaf (1992)
Am Sonntag, 25. Juli 2004 01:46 schrieb David Haller: Hallo David,
Am Sun, 25 Jul 2004, Al Bogner schrieb:
Ich habe hier eine Textdatei, die sich nach dem Schema /usr/bin/iconv -f latin1 -t utf-8 "$DATEINEU" -o "$DATEI" nicht konvertieren lässt.
Im Original sehen die Worte zB so aus: erha"ltlich erholungsbedu"rftig
Das ähnelt der LaTeX Eingabekodierung mit (n)german, allerdings in falscher Reihenfolge, das müsste 'erh"altlich' bzw. '-bed"urftig' sein.
Prinzipiell kennt recode die LaTeX-Kodierung, allerdings nicht die (n)german Kurzformen.
$ echo 'echo 'äöüßÄÖÜ' | recode latin9..latex | tee /dev/stderr \
| recode latex..latin9
\"a\"o\"u\ss{}\"A\"O\"U äöüßÄÖÜ
Das per script zu lösen wird schwierig, falls in dem Text noch " an anderer Stelle vorkommen.
Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
BTW: bist du sicher, daß das eine "reine" Textdatei ist?
Wenn du Lust hast, dann schau dir das an: wget ftp://ftp.se.openwall.com/pub/wordlists/all.gz Ich habe es allerdings mit anderen ftp-clients und Browsern nicht geschafft ein fehlerfreie Datei runterzuladen. da wurden dann immer an die 40GB statt 12MB angezeigt und meldeten mit gzip -d ein zerstörtes Archiv. Al
Hallo, Am Sun, 25 Jul 2004, Al Bogner schrieb:
Am Sonntag, 25. Juli 2004 01:46 schrieb David Haller:
Am Sun, 25 Jul 2004, Al Bogner schrieb:
Ich habe hier eine Textdatei, die sich nach dem Schema /usr/bin/iconv -f latin1 -t utf-8 "$DATEINEU" -o "$DATEI" nicht konvertieren lässt. [..] Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
Und die sind auch unterschiedlich kodiert, u.a. auch als cp1252.
BTW: bist du sicher, daß das eine "reine" Textdatei ist?
Wenn du Lust hast, dann schau dir das an: wget ftp://ftp.se.openwall.com/pub/wordlists/all.gz
Ich glaube nicht, dass du die konvertieren kannst, wenn dann muesstest du die wohl in einzelne Brocken zerlegen, die jew. gleich kodiert sind. Du musst die Datei also als quasi-binaer betrachten. -dnh -- cat /kat/ n. A furry keyboard cover
Am Sonntag, 25. Juli 2004 16:57 schrieb David Haller: Hallo David!
Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
Und die sind auch unterschiedlich kodiert, u.a. auch als cp1252.
Was macht das dann für einen Sinn, wenn die diversen Sprachen in _1_ Datei anbieten? Interessant ist ja, dass einige Sonderzeichen passen. Ich vermute mal, dass vi die Datei per default mit utf8-Zeichensatz darstellt. Gibt es eigentlich einen Editor unter X, der so große Dateien brauchbar bearbeiten kann? KWrite verabschiedet sich bevor die Datei fertig geladen ist.
BTW: bist du sicher, daß das eine "reine" Textdatei ist?
Wenn du Lust hast, dann schau dir das an: wget ftp://ftp.se.openwall.com/pub/wordlists/all.gz
Ich glaube nicht, dass du die konvertieren kannst, wenn dann muesstest du die wohl in einzelne Brocken zerlegen, die jew. gleich kodiert sind. Du musst die Datei also als quasi-binaer betrachten.
Ich vermute mal, dass diese 1 Datei die Summe der Einzeldateien von ftp://ftp.se.openwall.com/pub/wordlists/languages/ ist. Firefox stellt ftp://ftp.se.openwall.com/pub/wordlists/languages/German/1-small/lower.gz nicht richtig dar: abergla"ubischen, egal welche Kodierung ich einstelle. Ähnlich ist es mit ftp://ftp.se.openwall.com/pub/wordlists/languages/Spanish/lower.gz, zB maleco`n, das malecón sein sollte. IMHO haben die den Akzent verwechselt. Die 2. Version sieht hier aber wieder korrekt aus. ftp://ftp.se.openwall.com/pub/wordlists/languages/French/lower.gz abaisse'e abaissée Wie kommst du auf die Idee, dass Teile cp1252 kodiert sind? Al
Hallo, Am Sun, 25 Jul 2004, Al Bogner schrieb:
Am Sonntag, 25. Juli 2004 16:57 schrieb David Haller:
Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
Und die sind auch unterschiedlich kodiert, u.a. auch als cp1252.
Was macht das dann für einen Sinn, wenn die diversen Sprachen in _1_ Datei anbieten?
Einfach alle "Strings" (als Bytes / binaer aufgefasst) in einer Datei. Man liest einfach die Bytes aus und testet darauf, und ignoriert die Kodierung schlicht und einfach, es sind doch eh einfach alles nur Bits ;)
Interessant ist ja, dass einige Sonderzeichen passen. Ich vermute mal, dass vi die Datei per default mit utf8-Zeichensatz darstellt.
Huch![tm]
Gibt es eigentlich einen Editor unter X, der so große Dateien brauchbar bearbeiten kann? KWrite verabschiedet sich bevor die Datei fertig geladen ist.
(X)Emacs kommt mit solch grossen (sind ja nur ~40 MB) Dateien gut klar, aber zumindest meine uralte Version (20.4 "Emerald" von Fruehjahr '99) wird dann zumindest bei manchen Aktionen ziemlich lahm und legt u.U. auch mal minutenlang ne Pause ein (v.a. wenn font-lock aktiv ist). Neuere Versionen kommen AFAIK aber besser mit sowas klar. Der vim kommt aber auch mit wirklich grossen Dateien sehr gut zurecht (Tests habe ich u.a. mit MBox-Dateien von >400 MB schon gemacht ;) Bei solchen Dateien nehme auch ich(!) lieber vim als xemacs. Allerdings, wie gesagt, mein xemacs ist ueber 5 Jahre alt, mein vim 5.7 gerade mal gut 2 Jahre. Einen anderen GUI-Editor ausser XEmacs, GNU Emacs und gvim (ja, XEmacs und GNU Emacs laufen beide auf der Konsole und unter X, die XEmacs GUI gefaellt mir aber besser als die GNU Emacs GUI), der auch nur hinreichend gut ist und auch mit solch grossen Dateien klar kommt kenne ich nicht. Aber was spricht denn dagegen, ein xterm gross genug zu machen und dort vim aufzurufen? Oder gvim zu verwenden? BTW: ich hab gvim mit allen 3 GUI-TKs (athena, motif und gtk) installiert...
BTW: bist du sicher, daß das eine "reine" Textdatei ist?
Wenn du Lust hast, dann schau dir das an: wget ftp://ftp.se.openwall.com/pub/wordlists/all.gz
Ich glaube nicht, dass du die konvertieren kannst, wenn dann muesstest du die wohl in einzelne Brocken zerlegen, die jew. gleich kodiert sind. Du musst die Datei also als quasi-binaer betrachten.
Ich vermute mal, dass diese 1 Datei die Summe der Einzeldateien von ftp://ftp.se.openwall.com/pub/wordlists/languages/ ist.
Offenbar: ==== $ head -78 all #!comment: This list has been compiled by Solar Designer of Openwall Project, #!comment: http://www.openwall.com/wordlists/ #!comment: #!comment: Input wordlist files, in order: #!comment: passwords/password.lst #!comment: passwords/lower.lst #!comment: languages/English/1-tiny/lower.lst [..] #!comment: languages/Russian/windows-1251/2-extra/cslang.lst 12345 ====
Firefox stellt ftp://ftp.se.openwall.com/pub/wordlists/languages/German/1-small/lower.gz nicht richtig dar: abergla"ubischen, egal welche Kodierung ich einstelle.
Ja, die (La)TeX "(n)german" Kodierung ist eben spezifisch. Warum in dieser Datei aber diese Kodierung auftaucht weiss ich nicht: $ grep 'abergl.*bisch' all abergla"ubischen aberglaeubisch aberglaeubischem aberglaeubischen aberglaeubischer abergla"ubisch abergla"ubischem abergla"ubischer Seltsam, dass da nicht 'abergläubisch' auftaucht, weil anderswo werden durchaus auch 'ä' verwendet... $ grep 'ä' all | wc -l 78899 Die Datei erscheint mir aber auch so sehr fehlerhaft: $ grep '"[^aeious]' all | head -3 abfa"llt abgea"ndert abgea"nderte Hier ist das '"' offenbar an der falschen Position. Man muesste also diese Dreher korrigieren und dann evtl. die TeX-Syntax umkodieren: $ sed 's/\([aeiouAEIOUs]\)"/"\1/g' < all | grep '"[^aeiouAEIOUs]' $ ### [keine Ausgabe, d.h. es kommt auch dann keine Kombination von " ### mit " plus [aeiouAEIOUs] vor Mit sowas wie sed 's/\([aeiouAEIOUs]\)"/"\1/g;s/\("[aeiouAEIOUs]\)/\\\1/g' < all koennte man also diese Stellen in die korrekte TeX-Kodierung konvertieren mit der dann auch recode klarkommt. Ich wuerde aber nur die Dreher '[aeiouAEIOUs]"' statt '"[aeiouAEIOUs]' beseitigen (siehe den ersten sed Befehl oben).
Ähnlich ist es mit ftp://ftp.se.openwall.com/pub/wordlists/languages/Spanish/lower.gz, zB maleco`n, das malecón sein sollte. IMHO haben die den Akzent verwechselt.
ACK. Und die Reihenfolge Vokal / Akzent. s.o.
Die 2. Version sieht hier aber wieder korrekt aus. ftp://ftp.se.openwall.com/pub/wordlists/languages/French/lower.gz abaisse'e abaissée
Aber auch hier ist wieder der Dreher Vokal / Akzent drin... Vielleicht soll das ja aber auch ne eigene Kodierung sein, keine Ahnung ;)
Wie kommst du auf die Idee, dass Teile cp1252 kodiert sind?
#!comment: languages/Russian/windows-1251/1-small/acronym.lst #!comment: languages/Russian/windows-1251/1-small/cap.lst #!comment: languages/Russian/windows-1251/1-small/lower.lst #!comment: languages/Russian/windows-1251/1-small/mixed.lst #!comment: languages/Russian/windows-1251/2-extra/cslang.l Ok, ist nicht cp1252, sondern cp1251... ;) Andere Teile sind aber offenbar in KOI8-r kodiert, kurzum: man muss die Datei als binaer auffassen. -dnh -- Well I wish you'd just tell me rather than try to engage my enthusiasm, because I haven't got one. -- Marvin
Am Montag, 26. Juli 2004 00:05 schrieb David Haller:
Aber was spricht denn dagegen, ein xterm gross genug zu machen und dort vim aufzurufen? Oder gvim zu verwenden? BTW: ich hab gvim mit allen 3 GUI-TKs (athena, motif und gtk) installiert...
Gar nichts. Ich fragte nur aus Interesse. Jedit hat sich über Heap Memory beschwert. das muss ich mir mal näher ansehen. Aber eigentlich ist es wieder Mal Zeit die vi-Syntax mit ihren Details nicht zu vergessen :-) Al
Hallo, Am Mon, 26 Jul 2004, Al Bogner schrieb:
Am Montag, 26. Juli 2004 00:05 schrieb David Haller:
Aber was spricht denn dagegen, ein xterm gross genug zu machen und dort vim aufzurufen? Oder gvim zu verwenden? BTW: ich hab gvim mit allen 3 GUI-TKs (athena, motif und gtk) installiert...
Gar nichts. Ich fragte nur aus Interesse. Jedit hat sich über Heap Memory beschwert. das muss ich mir mal näher ansehen.
Wieso ueberrascht mich das in keinster Weise? *harharhar*
Aber eigentlich ist es wieder Mal Zeit die vi-Syntax mit ihren Details nicht zu vergessen :-)
'man sed' und 'man ed' helfen erstaunlich oft dabei ;) Und deren manpages sind dann doch etwas uebersichtlicher als die (zum Glueck sehr ausfuehrliche) Hilfe von vim ;) Und die Emacs-Kuerzel helfen allgemein in der alltaeglichen Tipparbeit auf der Konsole / im xterm, siehe man -P'less +/^READLINE' bash und 'info readline' bzw. gleich 'info (x)emacs'. Achso: und 'man 7 regex' sollte man auch lesen ;) *bg* Kurzum: man (und frau!) sollte die grundsaetzlichen Befehle / Tastaturkuerzel von in vi(m)/ed/sed *UND* die von (X)Emacs kennen! Siehe o.g. man- und info-pages. -dnh -- 131: MSCE Führerschein für die Maus. (Thore Tams)
Am So, den 25.07.2004 um 13:52 Uhr +0200 schrieb Al Bogner:
Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
Dann sollten sowieso keine Umlaute drin sein, dafür würde ich die Codierung so lassen und stattdessen die Worte mit den französischen Zeichen rausschmeissen - die sind ja nicht passworttauglich. Gruß, Ratti -- -o) fontlinge | Fontmanagement for Linux | Schriftenverwaltung in Linux /\\ http://freshmeat.net/projects/fontlinge/ _\_V http://www.gesindel.de https://sourceforge.net/projects/fontlinge/
Am Sonntag, 25. Juli 2004 21:42 schrieb Joerg Rossdeutscher:
Am So, den 25.07.2004 um 13:52 Uhr +0200 schrieb Al Bogner:
Ich vermute eher nicht. Aber bei 4 Mio. Zeilen ist das eher eine Vermutung. Es handelt sich um Wortlisten aus verschiedenen Sprachen, die man zB zum Testen von PW verwenden kann.
Dann sollten sowieso keine Umlaute drin sein, dafür würde ich die Codierung so lassen und stattdessen die Worte mit den französischen Zeichen rausschmeissen - die sind ja nicht passworttauglich.
Warum? Es gibt ja neben DES auch noch andere Verschlüsselungsverfahren. Al
Hallo liebe Suse Gemeinde :o) ich poste hier das erste mal, und hoffe ich mache alles richtig! Ich hätte folgendes Problem: Immer wenn ich Kontact starte, kommt die Meldung: Die IP-Adresse des Rechners pop.gmx.de stimmt nicht mit derjenigen überein, für die das Zertifikat erstellt wurde. sowie eine die besagt: Möchten Sie dieses Zertifikat dauerhaft, ohne künftige Nachfragen akzeptieren? Auch wenn ich dauerhaft anwähle, kommt die Meldung trotzdem weiterhin. Hat jemand ne Ahnung wie ich das umgehen kann? Danke schonmal Thomas
Am Sonntag, 25. Juli 2004 22:05 schrieb chillroom@gmx.de:
Hallo liebe Suse Gemeinde :o)
ich poste hier das erste mal, und hoffe ich mache alles richtig! Ich hätte folgendes Problem:
Hallo, ich beschwere mich nicht über fehlenden Realname, aber mich stört es, dass du "meinen" Thread als Basis für deinen Thread nimmst. Bitte erstelle ein _neues_ Mail, wenn du einen neuen Thread beginnst. Oder ist da etwas durcheinander gekommen? References: <200407250003.54114.suse-linux@ml04c.pinguin.uni.cc> <200407251352.23834.suse-linux@ml04c.pinguin.uni.cc> <1090784563.4056.78.camel@ratti> In-Reply-To: <1090784563.4056.78.camel@ratti> Al
Am Sonntag, 25. Juli 2004 23:07 schrieb Al Bogner:
Hallo,
ich beschwere mich nicht über fehlenden Realname, aber mich stört es, dass du "meinen" Thread als Basis für deinen Thread nimmst. Bitte erstelle ein _neues_ Mail, wenn du einen neuen Thread beginnst. Oder ist da etwas durcheinander gekommen?
References: <200407250003.54114.suse-linux@ml04c.pinguin.uni.cc> <200407251352.23834.suse-linux@ml04c.pinguin.uni.cc> <1090784563.4056.78.camel@ratti> In-Reply-To: <1090784563.4056.78.camel@ratti>
Al
Hallo, wie in der Mail geschrieben, bin ich neu und schreibe das erste mal in eine mailing list. Leider habe ich keine Ahnung davon... und wusste nicht, das ich deinen "Threat als Basis" nehme.. wollte ich auch gar nicht.... ich denke es ist am besten, wenn ich mir erst mal nen HOWTO suche zu der Suse mailinglist, bevor ich mir noch mehr Feinde hier mache... Vielleicht hat hier jemand einen guten Link für mich parat, in der ich mich ein bissl schlau machen kann? Also es tut mir leid, und kommt nicht mehr vor.. Gruss Thomas
Am Sonntag, 25. Juli 2004 23:16 schrieb Thomas Meyer:
Vielleicht hat hier jemand einen guten Link für mich parat, in der ich mich ein bissl schlau machen kann? Also es tut mir leid, und kommt nicht mehr vor..
Kein Problem, in der ML wird vor allem erwartet, dass man lernfähig ist. Ich habe http://www.suse-etikette.de.vu/ nie gelesen (duck), aber nachdem sich niemand beschwert, dürfte ich das gewünschte Verhalten im Gefühl haben :-) Al
"chillroom@gmx.de" <chillroom@gmx.de> writes:
ich poste hier das erste mal, und hoffe ich mache alles richtig! Ich hätte folgendes Problem:
Immer wenn ich Kontact starte, kommt die Meldung:
Die IP-Adresse des Rechners pop.gmx.de stimmt nicht mit derjenigen überein, für die das Zertifikat erstellt wurde.
Das ist ein prinzipieller Fehler bei GMX. Die verwenden nur ein Zertifikat und dies ist ausgestellt auf 'pop.gmx.net'. Bei der Prüfung des Zertifikates wir dann festgestellt, daß Adresse und Name nicht übereinstimmen.
sowie eine die besagt:
Möchten Sie dieses Zertifikat dauerhaft, ohne künftige Nachfragen akzeptieren?
Auch wenn ich dauerhaft anwähle, kommt die Meldung trotzdem weiterhin. Hat jemand ne Ahnung wie ich das umgehen kann?
Keine Ahnung, dazu kann ich nichts sagen, ich kenne und nutze Kontact nicht. -Dieter -- Dieter Klünter | Systemberatung Tel.: +49.40.64861967 Fax : +49.40.64891521 http://www.avci.de
Am Montag, 26. Juli 2004 10:28 schrieb Dieter Kluenter:
"chillroom@gmx.de" <chillroom@gmx.de> writes:
ich poste hier das erste mal, und hoffe ich mache alles richtig! Ich hätte folgendes Problem:
Immer wenn ich Kontact starte, kommt die Meldung:
Die IP-Adresse des Rechners pop.gmx.de stimmt nicht mit derjenigen überein, für die das Zertifikat erstellt wurde.
Das ist ein prinzipieller Fehler bei GMX. Die verwenden nur ein Zertifikat und dies ist ausgestellt auf 'pop.gmx.net'. Bei der Prüfung des Zertifikates wir dann festgestellt, daß Adresse und Name nicht übereinstimmen.
Soweit ich weiss, und ich habe selber einen Mail-Account bei gmx, sind die Einstellungen: pop.gmx.net und mail.gmx.net Also .net und nicht .de, auch wenn Du Dich bisher immer über die GMX.DE-Website eingeloggt hast. Gruss Uli
Hallo, On 26-Jul-2004 Ulrich Gerner wrote:
Soweit ich weiss, und ich habe selber einen Mail-Account bei gmx, sind die Einstellungen: pop.gmx.net und mail.gmx.net
Also .net und nicht .de, auch wenn Du Dich bisher immer über die GMX.DE-Website eingeloggt hast.
Es geht trotzdem beides. Ich benutze mit xfmail immer pop.gmx.de, ohne dass es jemals Probleme gab, unsere Kinder pop.gmx.net und auch sie haben keine Probleme mit gmx. Beste Gruesse, Heinz. -- http://www.pahlke-online.de/reisenews/ http://www.Pahlke-KunstWebDesign.de/
Am Montag, 26. Juli 2004 11:29 schrieb Heinz W. Pahlke:
Hallo,
On 26-Jul-2004 Ulrich Gerner wrote:
Soweit ich weiss, und ich habe selber einen Mail-Account bei gmx, sind die Einstellungen: pop.gmx.net und mail.gmx.net
Also .net und nicht .de, auch wenn Du Dich bisher immer über die GMX.DE-Website eingeloggt hast.
Es geht trotzdem beides. Ich benutze mit xfmail immer pop.gmx.de, ohne dass es jemals Probleme gab, unsere Kinder pop.gmx.net und auch sie haben keine Probleme mit gmx.
Hängt ab von dem Alter des Accounts. Meine zwei Alteren Adressen (ca. 4 Jahre) gebe ich in den Empfang und Versand in KMail mit mit .de an, die Neueren (2 Wochen alt) mit .net. Funktioniert ohne Probleme. -- cu Jonny SuSE 9.1PE
participants (9)
-
Al Bogner
-
chillroom@gmx.de
-
David Haller
-
Dieter Kluenter
-
Heinz W. Pahlke
-
Joerg Rossdeutscher
-
Jonny
-
Thomas Meyer
-
Ulrich Gerner