Re: Problem mit Umlauten

11 Jul 2011


      On Tue, June 28, 2011 7:37 am, David Haller wrote:
...
Hallo,
Am Tue, 28 Jun 2011, hamann.w@t-online.de schrieb:
...
Andre Tann schrieb:
...
...
Hier wäre noch ein hexdump (welchen ich leider nicht selbst
interpretieren kann...)
ls Anlage_4_3_SanitaÌrluÌfter.pdf | hexdump
0000000 6e41 616c 6567 345f 335f 535f 6e61 7469
 0000010 c361 c28c 7288 756c 8cc3 88c2 7466 7265
 0000020 702e 6664 000a
 0000025
wenn man das per iconv von utf9 nach iso-8859-1 wandelt, ergibt sich
(der Übersicht halber mit gexdump -bc angezeigt)
0000000 101 156 154 141 147 145 137 064 137 063 137 123 141 156 151 164
0000000   A   n   l   a   g   e   _   4   _   3   _   S   a   n   i   t
0000010 141 314 210 162 154 165 314 210 146 164 145 162 056 160 144 146
0000010   a   Ì 210   r   l   u   Ì 210   f   t   e   r   .   p   d   f
0000020 012 000
0000020  \n  \0
0000022
d.h. da gibt es für das ä und ü jeweils ein a oder u, gefolgt von der
magischen Zeichenkombination 314 210 Diese scheint also Dieresis
(Umlautpunkte) darzustellen .... aber in welchem Zeichensatz?
Sicherlich nicht unicode, sicherlich keine utf 8 Sequenz
Doch, das ist korrektes UTF-8.
echo -e '\0314\0210' | recode utf8..UTF-16BE | od -tx1
000000 03 08 00 0a
Und dann gucken wir mal in http://www.unicode.org/charts/PDF/U0300.pdf
nach was \u0308 ist. Tada: "Combining diaeresis". Und das darf auch
nach dem jew. Buchstaben stehen. Was aber offenbar iconv z.B. nicht
kennt.
Laß mich raten, die Datei wurde unter Apple erstellt? Die kodieren,
soweit ich weiß, utf8 als utf8 decomposed, während unter Linux/Unix wohl
composed utf8 verwendet wird. Gibt halt beide Möglichkeiten laut Standard,
aber ich bin mir sicher, dass es in Zukunft noch mehr Probleme damit
geben wird.

Grüße,
Christian

-- 
Um die Liste abzubestellen, schicken Sie eine Mail an:
    opensuse-de+unsubscribe@opensuse.org
Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken
Sie eine Mail an: opensuse-de+help@opensuse.org

Re: Problem mit Umlauten

Christian Brabandt