Skip to main content

Table 1 Bold words represent the three parts of our U2-VC as noted in section 3. “I” denotes the input size. “O” denotes the output size. “K” denotes the kernel size. “S” denotes the stride. “D” denotes the dilation. “H” denotes the hidden size. “L” denotes the layer. As stated before, residual U-block has the same structure as original residual U-block except the input layer and the reshaping operation

From: U2-VC: one-shot voice conversion using two-level nested U-structure

 

Encoder

Decoder

 

Conv1D IN I:80 O:256 K:1 ×1

Conv1D IN I:4 O:256 K:3 ×3

 

Conv1D OUT I:256 O:4 K:1 ×1

 

1-2-1RSU7

Conv1D IN I:256 O:256 K:3 ×3

Conv1D IN I:256 O:256 K:3 ×3

 

Conv2D EN1 I:1 O:16 K:3 ×3

Conv2D EN1 I:1 O:16 K:3 ×3

 

Conv2D EN26 I:16 O:16 K:3 ×3

Conv2DEN EN26 I:16 O:16 K:3 ×3

 

MaxPool2D K:3 ×3 S:2

MaxPool2D K:3 ×3 S:2

 

Conv2D EN7 I:16 O:16 K:3 ×3 D:2

Conv2D EN7 I:16 O:16 K:3 ×3 D:2

 

Conv2D DE62 I:32 O:32 K:3 ×3

Conv2D DE62 I:32 O:32 K:3 ×3

 

Conv2D DE1 I:32 O:1 K:3 ×3

Conv2D DE1 I:32 O:1 K:3 ×3

1-2-1RSU6

Conv1D IN I:256 O:256 K:3 ×3

Conv1D IN I:256 O:256 K:3 ×3

 

Conv2D EN1 I:1 O:16 K:3 ×3

Conv2D EN1 I:1 O:16 K:3 ×3

 

MaxPool2D K:3 ×3 S:2

MaxPool2D K:3 ×3 S:2

 

Conv2DEN EN25 I:16 O:16 K:3 ×3

Conv2DEN EN25 I:16 O:16 K:3 ×3

 

Conv2D EN6 I:16 O:16 K:3 ×3 D:2

Conv2D EN6 I:16 O:16 K:3 ×3 D:2

 

Conv2D DE52 I:32 O:32 K:3 ×3

Conv2D DE52 I:32 O:32 K:3 ×3

 

Conv2D DE1 I:32 O:1 K:3 ×3

Conv2D DE1 I:32 O:1 K:3 ×3

1-2-1RSU5

Conv1D IN I:256 O:256 K:3 ×3

Conv1D IN I:256 O:256 K:3 ×3

 

Conv2D EN1 I:1 O:16 K:3 ×3

Conv2D EN1 I:1 O:16 K:3 ×3

 

MaxPool2D K:3 ×3 S:2

MaxPool2D K:3 ×3 S:2

 

Conv2D EN24 I:16 O:16 K:3 ×3

Conv2D EN24 I:16 O:16 K:3 ×3

 

Conv2D EN5 I:16 O:16 K:3 ×3 D:2

Conv2D EN5 I:16 O:16 K:3 ×3 D:2

 

Conv2D DE42 I:32 O:32 K:3 ×3

Conv2D DE42 I:32 O:32 K:3 ×3

 

Conv2D DE1 I:32 O:1 K:3 ×3

Conv2D DE1 I:32 O:1 K:3 ×3

1-2-1RSU4

Conv1D IN I:256 O:256 K:3 ×3

Conv1D IN I:256 O:256 K:3 ×3

 

Conv2D EN1 I:1 O:16 K:3 ×3

Conv2D EN1 I:1 O:16 K:3 ×3

 

MaxPool2D K:3 ×3 S:2

MaxPool2D K:3 ×3 S:2

 

Conv2D EN23 I:16 O:16 K:3 ×3

Conv2D EN23 I:16 O:16 K:3 ×3

 

Conv2D EN4 I:16 O:16 K:3 ×3 D:2

Conv2D EN4 I:16 O:16 K:3 ×3 D:2

 

Conv2D DE32 I:32 O:32 K:3 ×3

Conv2D DE32 I:32 O:32 K:3 ×3

 

Conv2D DE1 I:32 O:1 K:3 ×3

Conv2D DE1 I:32 O:1 K:3 ×3

1-2-1RSU4F

Conv1D IN I:256 O:256 K:3 ×3

Conv1D IN I:256 O:256 K:3 ×3

 

Conv2D EN1 I:1 O:16 K:3 ×3

Conv2D EN1 I:1 O:16 K:3 ×3

 

Conv2D EN2 I:16 O:16 K:3 ×3 D:2

Conv2D EN2 I:16 O:16 K:3 ×3 D:2

 

Conv2D EN3 I:16 O:16 K:3 ×3 D:4

Conv2D EN3 I:16 O:16 K:3 ×3 D:4

 

Conv2D EN4 I:16 O:16 K:3 ×3 D:8

Conv2D EN4 I:16 O:16 K:3 ×3 D:8

 

Conv2D DE3 I:32 O:32 K:3 ×3 D:4

Conv2D DE3 I:32 O:32 K:3 ×3 D:4

 

Conv2D DE2 I:32 O:32 K:3 ×3 D:2

Conv2D DE2 I:32 O:32 K:3 ×3 D:2

 

Conv2D DE1 I:32 O:1 K:3 ×3

Conv2D DE1 I:32 O:1 K:3 ×3

  1. Output Module: GRU I:256 H:256 L:2; linear I:256 O:80; Conv2DFuse I:6 O:1 K:1 ×1