Towards cross-modal pre-training and learning tempo-spatial characteristics for audio recognition with convolutional and recurrent neural networks

EURASIP Journal on Audio, Speech, and Music Processing

Table 1 Performance of CRNNs. All results are given in macro average F1. T_amp amplitude threshold, lr learning rate. All results are measured in macro average F1