Skip to main content

Table 10 Frequency of the two-word sequence occurrence in the orthographic corpus file

From: Statistical analysis of orthographic and phonemic language corpus for word-based and phoneme-based Polish language modelling

No.

Frequency of occurrence

2-word sequence

 

f(w i−1,w i )·100 [%]

w i−1 w i

1

0.12643

2

0.10243

w tym

3

0.08805

4

0.08287

5

0.07604

6

0.06529

nie ma

7

0.05799

nie jest

8

0.05597

9

0.04932

w tej

10

0.04741

jest to

11

0.04602

Że w

12

0.04595

Że nie

13

0.04209

i w

14

0.04209

nie tylko

15

0.04118

to nie

16

0.04083

i nie

17

0.03882

to jest

18

0.03698

19

0.03145

to, Że

20

0.02843

Że to

21

0.02751

ale nie

22

0.02725

przede wszystkim

23

0.02718

w Polsce

24

0.02675

a w

25

0.02671

a nie

26

0.02668

jest w

27

0.02640

po prostu

28

0.02629

w którym

29

0.02599

jak i

30

0.02543

nie było

⋯

⋯

⋯