Statistické údaje o češtině

Téměr polovinu slovní zásoby tvoří podstatná jména. Následují jména přídavná, slovesa a příslovce. Zbylé slovní druhy jsou zastoupeny okrajově.

Vzhledem k tomu, že část naší databáze pochází z dnes již zastaralých slovníků, nepodařilo se u cca 0,5% výrazů zjistit slovní druh.

Slovní druh Výskyt (%) Výskyt (abs.)
podstatné jméno 44,46 124 867
přídavné jméno 24,44 68 633
zájmeno 0,09 253
číslovka 0,12 332
sloveso 24,12 67 752
příslovce 6,11 17 156
předložka 0,04 105
spojka 0,05 133
částice 0,04 104
citoslovce 0,03 94
neznámé 0,51 1 444

Polovina slov v češtině je tvořena 9-12 znaky, jak je patrné z prstencového grafu. Rozložení délky slov má tvar gaussovy křivky a je vyobrazeno na čárovém grafu.


Délka slova Výskyt (%) Výskyt (abs.)
1 0,00 5
2 0,04 111
3 0,30 849
4 1,03 2 895
5 2,43 6 831
6 4,59 12 885
7 7,28 20 460
8 10,64 29 886
9 13,56 38 092
10 14,67 41 203
11 13,95 39 169
12 11,25 31 590
13 8,12 22 818
14 5,27 14 807
15 3,13 8 787
16 1,74 4 896
17 0,95 2 662
18 0,50 1 410
19 0,26 725
20 0,14 381
21 0,07 202
22 0,04 109
23 0,02 47
24 0,01 24
25 0,00 9
26 0,00 6
27 0,00 4
28 0,00 2
32 0,00 1
33 0,00 2
34 0,00 1
35 0,00 1
Počáteční písmeno Výskyt (%) Výskyt (abs.)
a 1,86 5 213
b 3,12 8 750
č 2,77 7 782
ď 4,17 11 703
e 1,26 3 528
f 1,49 4 174
G 0,80 2 244
h 2,71 7 618
i 1,00 2 801
j 1,11 3 125
k 5,65 15 860
l 2,12 5 961
m 4,12 11 561
n 5,86 16 463
o 5,50 15 458
p 16,33 45 856
q 0,02 62
r 5,04 14 170
s 10,65 29 904
t 3,83 10 750
u 2,91 8 165
v 7,79 21 879
w 0,12 335
x 0,07 193
y 0,03 74
z 9,70 27 241