Single-channel dereverberation by feature mapping using cascade neural networks for robust distant speaker identification and speech recognition

EURASIP Journal on Audio, Speech, and Music Processing

Table 18 Experimental results on the real reverberant data by using NN training data ‘5s.20u’ (combined)

Method	Frame selection	Acoustic model	Digit accuracy (%)
Method	Frame selection	Acoustic model	InCar	Lounge	MeetR	Office	Average
LMCN + Proposed (24 NNs)	Linear 8-1-0	Clean	69.4	38.5	78.9	75.3	65.6
		Clean-rt	85.9	60.9	90.3	93.7	82.7
		Multi-rt	82.4	85.1	90.9	86.0	86.1
		Clean+multi-rt	89.6	91.0	94.4	93.5	92.1
	Linear 16-1-0	Clean	67.8	35.1	79.4	78.0	65.1
		Clean-rt	85.7	58.8	90.7	94.7	82.5
		Multi-rt	82.6	84.2	90.2	89.3	86.6
		Clean+multi-rt	89.2	90.9	94.4	93.5	92.0
	Linear 32-1-0	Clean	67.0	30.0	74.6	77.6	62.3
		Clean-rt	84.7	53.0	89.2	94.1	80.3
		Multi-rt	78.4	82.0	88.4	87.9	84.2
		Clean+multi-rt	86.5	89.2	93.1	92.0	90.2
	Skip1 8-1-0	Clean	69.1	38.0	78.4	75.6	65.3
		Clean-rt	85.3	61.3	90.9	93.5	82.8
		Multi-rt	81.0	82.5	91.2	84.2	84.7
		Clean+multi-rt	89.2	90.7	95.1	93.4	92.1
	Skip1 16-1-0	Clean	67.2	34.7	75.8	77.6	63.8
		Clean-rt	85.2	58.5	89.6	93.6	81.7
		Multi-rt	83.2	84.8	91.5	87.1	86.6
		Clean+multi-rt	90.0	92.9	95.5	94.3	93.2