Skip to main content

Advertisement

Table 10 Frequency of the two-word sequence occurrence in the orthographic corpus file

From: Statistical analysis of orthographic and phonemic language corpus for word-based and phoneme-based Polish language modelling

No. Frequency of occurrence 2-word sequence
  f(w i−1,w i )·100 [%] w i−1 w i
1 0.12643
2 0.10243 w tym
3 0.08805
4 0.08287
5 0.07604
6 0.06529 nie ma
7 0.05799 nie jest
8 0.05597
9 0.04932 w tej
10 0.04741 jest to
11 0.04602 Że w
12 0.04595 Że nie
13 0.04209 i w
14 0.04209 nie tylko
15 0.04118 to nie
16 0.04083 i nie
17 0.03882 to jest
18 0.03698
19 0.03145 to, Że
20 0.02843 Że to
21 0.02751 ale nie
22 0.02725 przede wszystkim
23 0.02718 w Polsce
24 0.02675 a w
25 0.02671 a nie
26 0.02668 jest w
27 0.02640 po prostu
28 0.02629 w którym
29 0.02599 jak i
30 0.02543 nie było