Efficiency of chosen speech descriptors in relation to emotion recognition

EURASIP Journal on Audio, Speech, and Music Processing

Table 3 Classification efficiency using k-NN and SVM [%] with various combinations of dynamic parameters for acted speech (AS) and natural speech (NS)

Coefficients	AS k-NN	AS SVM	NS k-NN	NS SVM
MFCC	56.5	40.5	71.7	58.31
MFCC + ΔMFCC	52.7	40.5	68.7	42.91
MFCC + Δ ΔMFCC	51.1	37.13	66.9	42.91
MFCC + ΔMFCC + Δ ΔMFCC	36.7	33.75	66.9	37.5
HFCC	52.7	39.66	70.6	55.17
HFCC + ΔHFCC	47.7	37.13	67.8	40.32
HFCC + Δ ΔHFCC	46	36.7	66.9	36.23
HFCC + ΔHFCC + Δ ΔHFCC	43.9	36.7	64.6	34.59
BFCC	56.5	40.92	74.5	59.4
BFCC + ΔBFCC	56.5	36.28	70.25	44
BFCC + Δ ΔBFCC	53.6	35.86	73.4	38.41
BFCC + ΔBFCC + Δ ΔBFCC	53.6	35.86	69.9	36.28
PLP	54	21.51	71.4	36.83
PLP+ ΔPLP	52.7	16.87	66.9	22.47
PLP + Δ ΔPLP	53.6	16.87	66.9	22.47
PLP + ΔPLP + Δ ΔPLP	50.2	16.87	64.7	22.47
RPLP	55.7	43.88	70	54.76
RPLP + ΔRPLP	54.4	40.08	69.3	51.9
RPLP + Δ ΔRPLP	52.3	40.92	68.4	51.9
RPLP + ΔRPLP + Δ ΔRPLP	52.3	40.5	68	51.9
RASTA PLP	43	36.28	52.2	50
RASTA PLP + ΔRASTA PLP	40.1	35.02	51.8	36.83
RASTA PLP + Δ ΔRASTA PLP	40.9	32.48	48.5	36.83
RASTA PLP + ΔRASTA PLP + Δ ΔRASTA PLP	40.1	32.48	48.1	36.83