Audio Classification

In this project, several approaches for training/finetuning an audio gender recognition is provided. The code can simply be used for any other classification by changing the number of classes and the input dataset.

Dataset format

Dataset should be a csv file that has two columns: audio_path and lable.

                                          audio_path   label
0  /home/ai/projects/speech/dataset/asr/new-raw-0.wav  female
1  /home/ai/projects/speech/dataset/asr/samples_1.wav  male
2  /home/ai/projects/speech/dataset/asr/new-raw-2.wav  female
3  /home/ai/projects/speech/dataset/asr/new-raw-3.wav  male
4  /home/ai/projects/speech/dataset/asr/new-raw-4.wav  female

Models

LSTM_Model: uses mfccs to train a lstm model for audio classification. Trained using pytorchlightning.
1. the idea of this structure is taken from LearnedVector repository which contains a wakeup model.
transformer_scratch: Uses a transformer block for training an audio classification model with mfccs taken as inputs. Trained using pytorchlightning.
1. main implementation is taken from AnubhavGupta3377's repo called Text-Classification-Models-Pytorch
2. It's modified to train audio samples.
wav2vec2: Fine-tuning wav2vec2-base as an audio classification model using huggingface trainer.

Result on Gender Recognition

Trained and evaluated on a custom dataset. You can simply download common-voice dataset and use the samples.

Model	Train ACC	Val Acc	Train F1-score	Val-F1-score
LSTM	89	90	90.83	91
Wav2vec2	-	96.4	-	96.4
transfomer	85.1	81.7	87.1	84.6

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
audio_samples		audio_samples
data		data
lstm_model		lstm_model
transformer_model		transformer_model
wav2vec2		wav2vec2
.gitignore		.gitignore
Readme.md		Readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Audio Classification

Dataset format

Models

Result on Gender Recognition

references:

About

Uh oh!

Releases

Packages

Uh oh!

Languages

pooya-mohammadi/audio-classification-pytorch

Folders and files

Latest commit

History

Repository files navigation

Audio Classification

Dataset format

Models

Result on Gender Recognition

references:

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages