Zeichensatzcodierung herausfinden?
Hallo Leute, gibt es eine Möglichkeit mit irgendeinem Tool/Programm herauszufinden welche Zeichensatzcodierungen die einzelnen Dateien in einem Verzeichnis jeweils haben und diese als übersichtliche Liste auszugeben? Also Datei a1.txt hat z.B. ISO8859-1, a2.txt hat UTF-8 usw.? Über eine Antwort würde ich mich sehr freuen. Besten Dank vorab. Viele Grüße Sascha
gibt es eine Möglichkeit mit irgendeinem Tool/Programm herauszufinden welche Zeichensatzcodierungen die einzelnen Dateien in einem Verzeichnis jeweils haben und diese als übersichtliche Liste auszugeben? Also Datei a1.txt hat z.B. ISO8859-1, a2.txt hat UTF-8 usw.?
"file -i dateiname" sollte das machen
Dominik Klein schrieb:
"file -i dateiname" sollte das machen
Ist sehr unzuverlässig insbesondere bei .txt und ähnlichem. Ich habe hier Dateien bei denen us-ascii angegeben ist. Tatsächlich ist da aber was Deutsches drin, was ich an den falsch dargestellten Sonderzeichen sehen kann. Da hat dann jemand die Dateien beispielsweise beim umkopieren, per Copy&Paste oder beim beantworten einer Mail mit einer anderen Kodierung versehen, und schon haste den Salat. Letztendlich bekommst Du mit file -i nicht die eigentliche Kodierung raus, sondern nur die letzte Kodierung beim speichern, denn nur die wird in die Datei geschrieben. Grüße René
Sascha Blum schrieb:
gibt es eine Möglichkeit mit irgendeinem Tool/Programm herauszufinden welche Zeichensatzcodierungen die einzelnen Dateien in einem Verzeichnis jeweils haben und diese als übersichtliche Liste auszugeben? Also Datei a1.txt hat z.B. ISO8859-1, a2.txt hat UTF-8 usw.?
Das geht leider nicht. Viele Formate, wie z.B. .txt, enthalten keine Angaben über die benutzte Kodierung. Ohne eine solche Angabe im Dateiformat geht das nicht. Man kann eine Kodierung nicht am "aussehen" erkennen. Grüße René
Am Dienstag, 14. Februar 2006 11:34 schrieb Sascha Blum:
gibt es eine Möglichkeit mit irgendeinem Tool/Programm herauszufinden welche Zeichensatzcodierungen die einzelnen Dateien in einem Verzeichnis jeweils haben und diese als übersichtliche Liste auszugeben?
Wenn man einfach so automatisch den Zeichensatz herausfinden könnte, bräuchte man ihn nie anzugeben. X-)
Also Datei a1.txt hat z.B. ISO8859-1, a2.txt hat UTF-8 usw.?
Man kann /oft/ feststellen, ob eine Datei /kein/ UTF-8 ist http://www.cl.cam.ac.uk/~mgk25/unicode.html#perl Der Einzeiler unter "Locate malformed UTF-8 sequences:" erkennt, ob in den ihm übergebenen Daten im UTF8-Sinne ungültige Zeichen sind. Die Daten können Dateien sein (dann gibt der Einzeler auch die Dateinamen aus, welche Fehler enhalten). Mit find lassen sich dann bestimmt auch ganze Verzeichnisse überprüfen. HTH Jan -- Two farmers, each claimed to own a certain cow. While one pulled on it's head and the other on the tail, the cow was milked by a lawyer.
participants (4)
-
Dominik Klein
-
Jan Ritzerfeld
-
René Falk
-
Sascha Blum