Non-parallel dictionary learning for voice conversion using non-negative Tucker decomposition

EURASIP Journal on Audio, Speech, and Music Processing

Table 1 Algorithm for initializing parameters

Initializing in the parallel setting
∙ Set source and target parallel data X_s and X_t
∙ Optimize W_s, W_t, and H minimizing d_KL(X_s,W_sH)+d_KL(X_t,W_tH)
∙ Optimize U_s, U_t, and G minimizing d_KL(W_s,U_sG)+d_KL(W_t,U_tG)
Initializing in the non-parallel setting
∙ Set source training data X_s
∙ Optimize W_s and H_s while minimizing d_KL(X_s,W_sH_s)
∙ Set target training data X_t
∙ Optimize A and H_t while minimizing d_KL(X_t,AW_sH_t) while fixing W_s
∙ Optimize U_s, U_t, and G while minimizing d_KL(W_s,U_sG)+d_KL(AW_s,U_tG)