Re: Textstatistiken, z.B. Buchstabenverteilung

1 Aug 2004

      Moin moin Hartmut
On Sunday 01 August 2004 09:06, Hartmut Meyer wrote:
[...]
...
gibt es ein Unix bzw. Linux-Tool welches mir die Buchstabenverteilung einer
Textdatei ausgibt?
Ich muss wissen mit welcher Häufigkeit einzelne Zeichen in einem Text
auftreten.
E N I R S T D A U H L
War der Merkspruch zur Zipf'schen Häufigkeits-Verteilung der Buchstaben in 
deutschen Texten unseres damaligen Messtechnik und Statistik Inquisitors. 
So'n Schwachfug merkt man sich... (c:
Die Häufigkeits-Verteilung der einzelnen Buchstaben in einem deutschen Text 
konvergiert gegen eine endliche Größe.

Falls man so was selber programmieren muss, und ich denke es wird wohl kaum 
anders gehen, dann würd' ich den Buchstaben-Salat mit 'nem Shell Sort 
Algorithmus sortieren und dann die Buchstaben zählen. Das dürfte am 
schnellsten gehen.

http://de.wikipedia.org/wiki/Deutsches_Alphabet#Buchstabenverteilung_im_deut...

http://de.wikipedia.org/wiki/Zipfsches_Gesetz
Rang	Wort	relative Häufigkeit	zipfsche Häufigkeit
1	E	0.13678	0.23955
2	Leerz.	0.13048	0.11977
3	N	0.09034	0.07985
4	I	0.06908	0.05989
5	R	0.06501	0.04791
6	S	0.05426	0.03992
7	T	0.05386	0.03422
8	D	0.04119	0.02994
9	A	0.04011	0.02662
10	U	0.03947	0.02395
11	H	0.03565	0.02178
12	L	0.03449	0.01996
13	G	0.02820	0.01843
14	C	0.02565	0.01711
15	O	0.02016	0.01597
16	M	0.01938	0.01497
17	B	0.01743	0.01409
18	F	0.01663	0.01331
19	W	0.01409	0.01261
20	K	0.01230	0.01198
21	Z	0.01032	0.01141
22	.	0.00818	0.01089
23	,	0.00790	0.01042
24	V	0.00755	0.00998
25	Ü	0.00613	0.00958
26	P	0.00560	0.00921
27	Ä	0.00537	0.00887
28	Ö	0.00289	0.00856
29	J	0.00064	0.00826
30	Q	0.00033	0.00798
31	Y	0.00027	0.00773
32	X	0.00014	0.00749

Oder wenns gebunden sein soll:
Informationstheorie, Rolf Johanneson, ISBN 3-8931-9465-7, Addison-Wesley 
Verlag

Tschüss,
Thomas

Re: Textstatistiken, z.B. Buchstabenverteilung

Thomas Templin