EURASIP Journal on Audio, Speech, and Music Processing

Table 10 Frequency of the two-word sequence occurrence in the orthographic corpus file

From: Statistical analysis of orthographic and phonemic language corpus for word-based and phoneme-based Polish language modelling

No.	Frequency of occurrence	2-word sequence
	f(w _i−1,w _i)·100 [%]	w _i−1 w _i
1	0.12643
2	0.10243	w tym
3	0.08805
4	0.08287
5	0.07604
6	0.06529	nie ma
7	0.05799	nie jest
8	0.05597
9	0.04932	w tej
10	0.04741	jest to
11	0.04602	Że w
12	0.04595	Że nie
13	0.04209	i w
14	0.04209	nie tylko
15	0.04118	to nie
16	0.04083	i nie
17	0.03882	to jest
18	0.03698
19	0.03145	to, Że
20	0.02843	Że to
21	0.02751	ale nie
22	0.02725	przede wszystkim
23	0.02718	w Polsce
24	0.02675	a w
25	0.02671	a nie
26	0.02668	jest w
27	0.02640	po prostu
28	0.02629	w którym
29	0.02599	jak i
30	0.02543	nie było
⋯	⋯	⋯

Back to article page