Wave Features Extraction

Questo repo contiene il codice relativo al talk "The Sound Of Malware".

E' diviso in 2 branch.

Il main è di sperimentazione e permette di addestrare ed esportare modelli.
Il pipeline è ingegnerizzato e consente di utilizzare i modelli esportati per fare delle predizioni.

Utilizzo

Per utilizzare il codice è necessario installare i requirements tramite comando:

pip install -r requirements.txt

Ed installare ffmpeg tramite comando:

sudo apt-get install ffmpeg

NB Se sei su sistema windows ffmpeg va insallato in modi alternativi.

Funzionamento

Per prima cosa è necessario scaricare i binari. Per questo puoi seguire due strade:

Scarichi i binari malevoli dal link Malware Source 1, e li inserisci nel path binaries/1/, e i binari legittimi in binaries/0/ (per questi puoi prendere spunto dal file copy_source.py che copia la cartella /bin di ubuntu),
Scarichi i binari forniti dal link Whole Dataset. Sono già divisi nelle folder richieste quindi ti basterà decomprimere il file nella root del progetto.

Una volta scaricati i files gli script necessari al funzionamento sono 3:

converter.py: Converte il contenuto di /binaries/{0|1} in file .wav, dove il contenuto di /binaries/0/ è legittimo ed è popolato dallo step precedente, mentre la cartella /binaries/1 deve essere creata prima del lancio di questo script, e deve contenere i binari malevoli scaricabili da qui.
features_extraction.py: Questo file fa features extraction dai .wav creati nello step precedente e genera in output un .csv . NB Per eseguire le operazioni per la features extracion è necessario porre i parametri:
1. split_audio = True --> Fa chunking e overlap dei singoli waves
2. process_segments = True --> Calcola MFCC, GFCC, BFCC e salva in csv
models.py: Inizia il train dei modelli. In questo file hai diverse variabili:
1. load = True|False Se True ti carica i file di train, test e validation che già esistono. Se non ci sono ed è la prima volta che lanci il programma deve essere False
2. <Nomi_Modelli> = True|False se True esegue il train per quel modello. Ad ora l'unico addestrato il ensemble.

Nota: I dati forniti non corrispondono a quelli utilizzati in fase di studio e test, i risultati sono quindi svincolati rispetto quelli presentati nel talk.

Altro

Il file support.py è stato scritto per eseguire test veloci e per fare considerazioni. Non è collegato al funzionamento del resto.
Il file constants.py contiene le variabili costanti utilizzati nei diversi files. Questo file è tra i più importanti in quanto i valori al suo interno sono usati in maniera invasiva. Se si vuol cambiare nomi dei file in output o altre costanti, bisogna intervenire qui.
Il file analysis.py contiene codice per esaminare il dataset e fare delle considerazioni su di esso.

Note

Il repo è scritto in python3.12 su sistema Ubuntu 24.04. Si consiglia di eseguire questo codice in ambienti controllati come VM o Container in quanto vengono gestiti binari affetti da Malware. Link Utili:

Name		Name	Last commit message	Last commit date
Latest commit History 57 Commits
binaries		binaries
extra		extra
imgs		imgs
README.MD		README.MD
analysis.py		analysis.py
constants.py		constants.py
converter.py		converter.py
copy_source.py		copy_source.py
dataset_5.csv		dataset_5.csv
features_extraction.py		features_extraction.py
models.py		models.py
requirements.txt		requirements.txt
summary.csv		summary.csv
summary_metrics.csv		summary_metrics.csv
support.py		support.py
test_result.csv		test_result.csv
test_set.csv		test_set.csv
thresholds.json		thresholds.json
train_result.csv		train_result.csv
train_set.csv		train_set.csv
validation_result.csv		validation_result.csv
validation_set.csv		validation_set.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Wave Features Extraction

Utilizzo

Funzionamento

Altro

Note

About

Uh oh!

Releases

Packages

Languages

lucadivit/wave_features_ext

Folders and files

Latest commit

History

Repository files navigation

Wave Features Extraction

Utilizzo

Funzionamento

Altro

Note

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages