Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation

Byambadorj, Zolzaya; Nishimura, Ryota; Ayush, Altangerel; Ohta, Kengo; Kitaoka, Norihide

doi:10.1186/s13636-021-00225-4

EURASIP Journal on Audio, Speech, and Music Processing

Table 7 Summarization of all systems tested

From: Text-to-speech system for low-resource language using cross-lingual transfer learning and data augmentation

#	System	Training stage 1	Training stage 2	Training stage 3	Training stage 4	Training stage 5	Training stage 6
Spectrogram prediction models
1.	M-MN (baseline)	MN12h	-	-	-	-	-
2.	M _SJ-TL	JP	MN30	-	-	-	-
3.	M _SE10-TL	EN10	MN30	-	-	-	-
4.	M _SE24-TL	EN24	MN30	-	-	-	-
5.	M _SEJ-TL	EN24	JP	MN30	-	-	-
6.	M _S-DA	AD ₃₀ + MN30	-	-	-	-	-
7.	M _SEJ-TL-DA	EN24	JP	AD ₃₀	MN30	-	-
8.	M _SEJ-TL-DA _D	EN24	JP	AD ₃₀-set1	AD ₃₀-set2	AD ₃₀-set3	MN30
9.	M _MJ-TL	JP + MN30	MN30	-	-	-	-
10.	M _ME10-TL	EN10 + MN30	MN30	-	-	-	-
11.	M _ME24-TL	EN24 + MN30	MN30	-	-	-	-
12.	M _MEJ-TL	EN24 + JP + MN30	MN30	-	-	-	-
13.	M _M-DA	AD ₃₀ + MN30	-	-	-	-	-
14.	M _MEJ-TL-DA	EN24 + JP + AD ₃₀ + MN30	MN30	-	-	-	-
15.	M _MEJ-TL-DA _D	EN24 + JP + AD ₃₀ + MN30	AD ₃₀-set1	AD ₃₀-set2	AD ₃₀-set3	MN30	-
16.	M _MEJ-TL-DA _1hour	EN24 + JP + AD _1h + MN1h	MN1h	-	-	-	-
17.	M _MEJ-TL-DA _2hours	EN24 + JP + AD _2h + MN2h	MN2h	-	-	-	-
18.	M _MEJ-TL-DA _3hours	EN24 + JP + AD _3h + MN3h	MN3h	-	-	-	-
Neural vocoders
19.	NV-MN (baseline)	MN12h	-	-	-	-	-
20.	NV-DA	AD ₃₀ + MN30	-	-	-	-	-
Model type
M _SXXX = Single-speaker TTS model
M _MXXX = Multi-speaker TTS model
NV = neural vocoder
Method used for model training
TL = Cross-lingual transfer learning
DA = Data augmentation
TL-DA = Cross-lingual transfer learning and data augmentation
TL-DA _D = Cross-lingual transfer learning and data augmentation with additional fine-tuning
Databases used for training stages
EN10 = 10 hours of the English dataset
EN24 = 24 hours of the English dataset
JP = 10 hours of the Japanese dataset
MN12h = 12 hours of the target language dataset
MN30 = 30 minutes of the target language data
MN1h = 1 hour of the target language data
MN2h = 2 hours of the target language data
MN3h = 3 hours of the target language data
AD ₃₀ = augmented data generated from 30 minutes of the target language data
AD ₃₀-set1 = the first set of the augmented data generated from 30 minutes of the target language data
AD ₃₀-set2 = the second set of the augmented data generated from 30 minutes of the target language data
AD ₃₀-set3 = the third set of the augmented data generated from 30 minutes of the target language data
AD _1h = augmented data generated from 1 hour of the target language data
AD _2h = augmented data generated from 2 hours of the target language data
AD _3h = augmented data generated from 3 hours of the target language data

Back to article page