Skip to main content

Advertisement

Table 11 Frequency of the three-word sequence occurrence in the orthographic corpus file

From: Statistical analysis of orthographic and phonemic language corpus for word-based and phoneme-based Polish language modelling

No. Frequency of occurrence 3-word sequence
  f(w i−2,w i−1,w i )·100 [%] w i−2 w i−1 w i
1 0.01890
2 0.01325 w tym roku
3 0.01238
4 0.01195 w ten sposób
5 0.00921 na to, Że
6 0.00920
7 0.00915 w tej chwili
8 0.00902 o tym, Że
9 0.00892 po raz pierwszy
10 0.00891 w stosunku do
11 0.00871 do tej pory
12 0.00791 w tej sprawie
13 0.00786 jeśli chodzi o
14 0.00728
15 0.00665 to nie jest
16 0.00615 nie jest to
17 0.00588 o których mowa
18 0.00582 których mowa w
19 0.00566 Że jest to
20 0.00529 w tym czasie
21 0.00522 w tym samym
22 0.00505 nie moze być
23 0.00498 w ogóle nie
24 0.00498
25 0.00473 Że nie ma
26 0.00472
27 0.00442 w ubiegłym roku
28 0.00440
29 0.00421 w zalezności od
30 0.00410 na tym, Że