On Tue, June 28, 2011 7:37 am, David Haller wrote:
Hallo,
Am Tue, 28 Jun 2011, hamann.w@t-online.de schrieb:
Andre Tann schrieb:
Hier wäre noch ein hexdump (welchen ich leider nicht selbst interpretieren kann...)
ls Anlage_4_3_SanitaÌrluÌfter.pdf | hexdump
0000000 6e41 616c 6567 345f 335f 535f 6e61 7469 0000010 c361 c28c 7288 756c 8cc3 88c2 7466 7265 0000020 702e 6664 000a 0000025
wenn man das per iconv von utf9 nach iso-8859-1 wandelt, ergibt sich (der Übersicht halber mit gexdump -bc angezeigt)
0000000 101 156 154 141 147 145 137 064 137 063 137 123 141 156 151 164 0000000 A n l a g e _ 4 _ 3 _ S a n i t 0000010 141 314 210 162 154 165 314 210 146 164 145 162 056 160 144 146 0000010 a Ì 210 r l u Ì 210 f t e r . p d f 0000020 012 000 0000020 \n \0 0000022
d.h. da gibt es für das ä und ü jeweils ein a oder u, gefolgt von der magischen Zeichenkombination 314 210 Diese scheint also Dieresis (Umlautpunkte) darzustellen .... aber in welchem Zeichensatz? Sicherlich nicht unicode, sicherlich keine utf 8 Sequenz
Doch, das ist korrektes UTF-8.
echo -e '\0314\0210' | recode utf8..UTF-16BE | od -tx1 000000 03 08 00 0a
Und dann gucken wir mal in http://www.unicode.org/charts/PDF/U0300.pdf nach was \u0308 ist. Tada: "Combining diaeresis". Und das darf auch nach dem jew. Buchstaben stehen. Was aber offenbar iconv z.B. nicht kennt.
Laß mich raten, die Datei wurde unter Apple erstellt? Die kodieren, soweit ich weiß, utf8 als utf8 decomposed, während unter Linux/Unix wohl composed utf8 verwendet wird. Gibt halt beide Möglichkeiten laut Standard, aber ich bin mir sicher, dass es in Zukunft noch mehr Probleme damit geben wird. Grüße, Christian -- Um die Liste abzubestellen, schicken Sie eine Mail an: opensuse-de+unsubscribe@opensuse.org Um eine Liste aller verfuegbaren Kommandos zu bekommen, schicken Sie eine Mail an: opensuse-de+help@opensuse.org