Moin moin Hartmut On Sunday 01 August 2004 09:06, Hartmut Meyer wrote: [...]
gibt es ein Unix bzw. Linux-Tool welches mir die Buchstabenverteilung einer Textdatei ausgibt?
Ich muss wissen mit welcher Häufigkeit einzelne Zeichen in einem Text auftreten. E N I R S T D A U H L War der Merkspruch zur Zipf'schen Häufigkeits-Verteilung der Buchstaben in deutschen Texten unseres damaligen Messtechnik und Statistik Inquisitors. So'n Schwachfug merkt man sich... (c:
Die Häufigkeits-Verteilung der einzelnen Buchstaben in einem deutschen Text konvergiert gegen eine endliche Größe. Falls man so was selber programmieren muss, und ich denke es wird wohl kaum anders gehen, dann würd' ich den Buchstaben-Salat mit 'nem Shell Sort Algorithmus sortieren und dann die Buchstaben zählen. Das dürfte am schnellsten gehen. http://de.wikipedia.org/wiki/Deutsches_Alphabet#Buchstabenverteilung_im_deut... http://de.wikipedia.org/wiki/Zipfsches_Gesetz Rang Wort relative Häufigkeit zipfsche Häufigkeit 1 E 0.13678 0.23955 2 Leerz. 0.13048 0.11977 3 N 0.09034 0.07985 4 I 0.06908 0.05989 5 R 0.06501 0.04791 6 S 0.05426 0.03992 7 T 0.05386 0.03422 8 D 0.04119 0.02994 9 A 0.04011 0.02662 10 U 0.03947 0.02395 11 H 0.03565 0.02178 12 L 0.03449 0.01996 13 G 0.02820 0.01843 14 C 0.02565 0.01711 15 O 0.02016 0.01597 16 M 0.01938 0.01497 17 B 0.01743 0.01409 18 F 0.01663 0.01331 19 W 0.01409 0.01261 20 K 0.01230 0.01198 21 Z 0.01032 0.01141 22 . 0.00818 0.01089 23 , 0.00790 0.01042 24 V 0.00755 0.00998 25 Ü 0.00613 0.00958 26 P 0.00560 0.00921 27 Ä 0.00537 0.00887 28 Ö 0.00289 0.00856 29 J 0.00064 0.00826 30 Q 0.00033 0.00798 31 Y 0.00027 0.00773 32 X 0.00014 0.00749 Oder wenns gebunden sein soll: Informationstheorie, Rolf Johanneson, ISBN 3-8931-9465-7, Addison-Wesley Verlag Tschüss, Thomas