OT: wer kann mir mit recode / Zeichensätzen helfen

Liebe Liste, gibt es hier einen Experten für Zeichensätze? (sicher). Vielleicht kann die/der mir helfen. Ich habe eine Datei, die in einem kyrillischen Zeichensatz gesetzt ist, dessen kyrillische Zeichen auf Latin 1 stehen. (kyrillisches A z.B. auf 0x00C0 (192) - das spuckt OpenOffice aus..., kyrillisches f (klein) auf 244). (Der Zeichensatz ist eine 2rebells-optima, die nur ISO-8859-1 kennt. Zumindest sagt mir das xfontsel.) Der Text ist irgendwann mal mit MS-Word gesetzt worden. Da mein Layoutprogramm leider mit keinem anderen kyrillischen Zeichensatz umgehen wollte, blieb nur diese Lösung. Word hat damals das Dokument entsprechend umcodiert, als ich die Schrift veränderte (glaube ich... was da genau los war, weiß ich nicht...). Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere Nutzer nicht so einen seltsamen Zeichensatz hat.) Vermutlich ist recode das Programm der Wahl. Nur leider bin ich nicht firm genug, was Zeichensätze und kodierungen anbelangt, um das Problem zu lösen (und habe auch grade keine Zeit mich durch das komplette Manual durchzuwühlen, um zu sehen, ob das was ich will überhaupt geht.) recode 8859-5 DATEI funktioniert leider nicht... (das wäre auch zu einfach gewesen ;-). Hat jemand eine einfache Lösung für mich?? Dem wäre ich zu größtem Dank verpflichtet. grüße carsten --

On 29-May-2002 Carsten Ungewitter wrote:
Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere
Bei deinem eigentlichen Problem kann ich dir leider nicht helfen. Statt ISO-8859-5 solltest du allerdings besser KOI8-R benutzen. Das ist deutlich weiter verbreitet als 8859-5. Oder auch die Win-Codierung. In Russland scheint man aber trotz aller Bemuehungen seitens MS doch noch eher auf KOI8-R zu stehen. Beste Gruesse, Heinz. -- E-Mail: Heinz W. Pahlke <h.pahlke@nexgo.de> This message was sent by means of XFMail via SuSE Linux

Am Mittwoch, 29. Mai 2002 12:09 schrieb Heinz W. Pahlke:
On 29-May-2002 Carsten Ungewitter wrote:
Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere
Bei deinem eigentlichen Problem kann ich dir leider nicht helfen. Statt ISO-8859-5 solltest du allerdings besser KOI8-R benutzen. Das ist deutlich weiter verbreitet als 8859-5. Oder auch die Win-Codierung. In Russland scheint man aber trotz aller Bemuehungen seitens MS doch noch eher auf KOI8-R zu stehen.
Danke nochmal - Problem selbst ist jetzt gelöst. Jetzt stehe ich wieder vor der Frage, in welchem Encoding ich das Ding abspeichern soll. DAs Problem ist, daß das kyrillisch/lateinisch gemischt sein soll. Das würde mit utf-8 funktionieren oder aber indem ich eine normale 8859-1 Kodierung verwende und dann mittels der ISO 10646 - Angabe (Unicode) die kyrillischen Zeichen extra angebe. (z.B."Перспе ктивы") Weiß jemand, ob dies von den meisten Browsern interpretiert wird, oder ob das Probleme macht?? Mit Mozilla und Opera 6.0 funktioniert es bei mir prima. Konqueror macht Probleme, die sich aber lösen lassen, indem ich unter Ansicht die Kodierung manuell auf iso-8859-5 einstelle. Wer hat einen Tipp? grüße carsten --

On Sat, 01 Jun 2002 at 15:46 (+0200), Carsten Ungewitter wrote:
Am Mittwoch, 29. Mai 2002 12:09 schrieb Heinz W. Pahlke:
On 29-May-2002 Carsten Ungewitter wrote:
Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere
Bei deinem eigentlichen Problem kann ich dir leider nicht helfen. Statt ISO-8859-5 solltest du allerdings besser KOI8-R benutzen. Das ist deutlich weiter verbreitet als 8859-5. Oder auch die Win-Codierung. In Russland scheint man aber trotz aller Bemuehungen seitens MS doch noch eher auf KOI8-R zu stehen.
Danke nochmal - Problem selbst ist jetzt gelöst. Jetzt stehe ich wieder vor der Frage, in welchem Encoding ich das Ding abspeichern soll. DAs Problem ist, daß das kyrillisch/lateinisch gemischt sein soll. Das würde mit utf-8 funktionieren oder aber indem ich eine normale 8859-1 Kodierung verwende und dann mittels der ISO 10646 - Angabe (Unicode) die kyrillischen Zeichen extra angebe.
(z.B."Перспе ктивы")
Solange es nur *lateinisch* ist, kannst Du ohne Probleme ISO-8859-5 verwenden. Alle ASCII-Zeichen sind darin enthalten. Nur die Umlaute fehlen, das müsste sich aber verschmerzen lassen. Wenn man die Umlaute als benannte HTML-Zeichen angibt (ö ...) könnte es sogar gehen.
Weiß jemand, ob dies von den meisten Browsern interpretiert wird, oder ob das Probleme macht??
Keine Ahnung, da hilft nur ausprobieren. Die sauberste Lösung ist sicherlich Unicode (utf-8), in dem Fall würde ich aber die "kompatibelste" wählen. Gruß, Bernhard -- Man kann keine Fehler beim Abtrennen einer Sig machen, da eine falsch abgetrennte Sig keine Sig mehr ist und folglich auch nicht korrekt abgetrennt werden muss. -- Jan Weseler in dagh-l

Hi Carsten, Am Mittwoch, 29. Mai 2002 10:53 schrieb Carsten Ungewitter:
Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere Nutzer nicht so einen seltsamen Zeichensatz hat.)
Bin leider auch keine recode-Expertin, aber vielleicht hilft's.
Vermutlich ist recode das Programm der Wahl. Nur leider bin ich nicht firm genug, was Zeichensätze und kodierungen anbelangt, um das Problem zu lösen (und habe auch grade keine Zeit mich durch das komplette Manual durchzuwühlen, um zu sehen, ob das was ich will überhaupt geht.)
recode 8859-5 DATEI funktioniert leider nicht... (das wäre auch zu einfach gewesen ;-).
recode will immer eine Angabe 'aktueller Zeichensatz'..'neuer Zeichensatz' DATEI. Du mußt also wissen, in welchem Zeichensatz liegt die Datei vor und in welchen soll es konvertiert werden. Die beiden Pünktchen sagen recode, daß es konvertieren soll. recode -l (wie Ludwig) spuckt eine Liste der Zeichensätze, die es kennt einschließlich derer aliase aus. Das hilft Dir vielleicht eher weiter als die komplette Manualpage. Helga -- ~~~~~~~~~~~~~~~~~~~~~~Wer macht mit?~~~~~~~~~~~~~~~~~~~~~ Das dt. Dokumentationsprojekt von OpenOffice.org sucht Mitstreiter # Projekt-Einstieg: http://lang.openoffice.org/de # Mailingliste: http://lang.openoffice.org/de/about-mailinglist.html

Hallo, Helga Fischer:
recode will immer eine Angabe 'aktueller Zeichensatz'..'neuer Zeichensatz' DATEI.
...da muß ich doch mal kurz zur Warnhupe greifen. Trööt. ;-) Mit dieser Syntax überschreibt recode die Quelldatei mit der Zieldatei. Wenn ich mich link entsinne, kann man recode auch pipen. Zumindest sollte man die Datei, die man bearbeitet, backuppen. Leidvolle Erfahrung. Wenn man noch auf der Suche nach der richtigen Konversion ist, und einen "X"-codierten Text mit dem "Y nach Z"-Verfahren konvertiert, sind die Daten nur noch von stochastischem Interesse. ;-) Gruß, Ratti -- http://www.gesindel.de | Fontlinge | Die Schriftenverwaltung für Windows

Hi ratti, Am Mittwoch, 29. Mai 2002 21:41 schrieb ratti:
Helga Fischer:
recode will immer eine Angabe 'aktueller Zeichensatz'..'neuer Zeichensatz' DATEI.
...da muß ich doch mal kurz zur Warnhupe greifen. Trööt. ;-)
Mit dieser Syntax überschreibt recode die Quelldatei mit der Zieldatei.
Stimmt, das habe ich hier nicht bedacht (ich benutze recode immer mit diesem Feature).
Wenn ich mich link entsinne, kann man recode auch pipen. Zumindest sollte man die Datei, die man bearbeitet, backuppen.
Yup.
Leidvolle Erfahrung.
Ich werde bei den nächsten Experimenten an ein Backup denken. Helga -- ~~~~~~~~~~~~~~~~~~~~~~Wer macht mit?~~~~~~~~~~~~~~~~~~~~~ Das dt. Dokumentationsprojekt von OpenOffice.org sucht Mitstreiter # Projekt-Einstieg: http://lang.openoffice.org/de # Mailingliste: http://lang.openoffice.org/de/about-mailinglist.html

Am Mittwoch, 29. Mai 2002 13:51 schrieb Helga Fischer:
Hi Carsten,
Am Mittwoch, 29. Mai 2002 10:53 schrieb Carsten Ungewitter:
Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere Nutzer nicht so einen seltsamen Zeichensatz hat.)
Bin leider auch keine recode-Expertin, aber vielleicht hilft's.
Vermutlich ist recode das Programm der Wahl. Nur leider bin ich nicht firm genug, was Zeichensätze und kodierungen anbelangt, um das Problem zu lösen (und habe auch grade keine Zeit mich durch das komplette Manual durchzuwühlen, um zu sehen, ob das was ich will überhaupt geht.)
recode 8859-5 DATEI funktioniert leider nicht... (das wäre auch zu einfach gewesen ;-).
recode will immer eine Angabe 'aktueller Zeichensatz'..'neuer Zeichensatz' DATEI.
Du mußt also wissen, in welchem Zeichensatz liegt die Datei vor und in welchen soll es konvertiert werden. Die beiden Pünktchen sagen recode, daß es konvertieren soll.
recode -l (wie Ludwig) spuckt eine Liste der Zeichensätze, die es kennt einschließlich derer aliase aus. Das hilft Dir vielleicht eher weiter als die komplette Manualpage.
Hallo, Danke für Eure Tipps. Erfolg hatte ich schließlich mit Hilfe von myudit (Unicode-Editor). Vorgehen folgendermaßen: Textdatei in yudit (oder myudit o.ä.) laden. Dann ausprobieren, mit welchem "Encoding" etwas vernünftiges angezeigt wird. In meinem Fall war es CP1251, also (soviel ich weiß ...) der Windows-Standard (der alte... mittlerweile verwendet auch Word AFAIK Unicode...). Wichtig: man muß jedesmal ->File ->reload machen, damit er die Datei neu lädt. Wenn Sie einmal im Editor angezeigt wird, kann man sie dann nach Herzenslust in verschiedenen Codierungen speichern. Das ganze funktioniert sicher auch mit recode. Aber da dauert das rumprobieren, wenn man nicht genau weiß, mit welchem Encoding die Datei geschrieben ist, einfach länger... ich probier es spaßeshalber mal aus ... ja, der Befehl wäre entsprechend: "recode windows-1251..ISO-8859-5 russisch.txt". Das Problem war, daß ich nicht wußte, in welchem Encoding die Datei stand, und nicht wußte, wie man das herausbekommt. Vielleicht hilft es ja noch jemandem ;-) grüße carsten --

On Sat, 01 Jun 2002 at 15:38 (+0200), Carsten Ungewitter wrote:
Am Mittwoch, 29. Mai 2002 13:51 schrieb Helga Fischer:
Am Mittwoch, 29. Mai 2002 10:53 schrieb Carsten Ungewitter:
Ich hätte gerne den Text mit 8859-5 (kyrillisch) oder Unicode kodiert, so daß ich ihn auch für's Web verwenden kann (auch dann, wenn der andere Nutzer nicht so einen seltsamen Zeichensatz hat.)
Bin leider auch keine recode-Expertin, aber vielleicht hilft's.
Vermutlich ist recode das Programm der Wahl. Nur leider bin ich nicht firm genug, was Zeichensätze und kodierungen anbelangt, um das Problem zu lösen (und habe auch grade keine Zeit mich durch das komplette Manual durchzuwühlen, um zu sehen, ob das was ich will überhaupt geht.)
recode 8859-5 DATEI funktioniert leider nicht... (das wäre auch zu einfach gewesen ;-).
recode will immer eine Angabe 'aktueller Zeichensatz'..'neuer Zeichensatz' DATEI.
Du mußt also wissen, in welchem Zeichensatz liegt die Datei vor und in welchen soll es konvertiert werden. Die beiden Pünktchen sagen recode, daß es konvertieren soll.
recode -l (wie Ludwig) spuckt eine Liste der Zeichensätze, die es kennt einschließlich derer aliase aus. Das hilft Dir vielleicht eher weiter als die komplette Manualpage.
Erfolg hatte ich schließlich mit Hilfe von myudit (Unicode-Editor).
Vorgehen folgendermaßen: Textdatei in yudit (oder myudit o.ä.) laden. Dann ausprobieren, mit welchem "Encoding" etwas vernünftiges angezeigt wird. In meinem Fall war es CP1251, also (soviel ich weiß ...) der Windows-Standard (der alte... mittlerweile verwendet auch Word AFAIK Unicode...).
Der Windows-Standard ist cp-1252, es handelt sich dabei um eine Latin-1-Erweiterung. cp-1251 ist der Windows-Standard für Kyrillisch. Eigentlich nicht schwierig zu erraten, wenn man bedenkt, dass es sich um kyrillischen Text handelte. ;-) Gruß, Bernhard -- * Linux Viruscan..... Windows 95 found. Remove it? (y/n)
participants (5)
-
Bernhard Walle
-
Carsten Ungewitter
-
Heinz W. Pahlke
-
Helga Fischer
-
ratti