Improving low-resource Tibetan end-to-end ASR by multilingual and multilevel unit modeling

EURASIP Journal on Audio, Speech, and Music Processing

Table 5 Performance of different Lhasa dialect modeling units, self-fusion systems (pretrained by Aishell-1 train_sp) and multilingual speech recognition systems with multi-level modeling units (pretrained by different languages)

[JWFFXGRAPHICS]s13636-021-00233-4tmc5.eps[JWFFXGRAPHICS]

The multilingual-ASR model initialized with Aishell-1 train_sp significantly (i.e., the two-tailed t test at p value < 0.05) outperforms other models