Skip to content

🐦 Deep Learning based Bird Sound Classification covering 50 species. Powered by PyTorch, Librosa, ResNet-18 Transfer Learning and Smart Audio Slicing. Trained with Xero-Canto datasets. Achieved ~96% accuracy.

Notifications You must be signed in to change notification settings

tottismo/KusNet

Repository files navigation

🐦 KuşNet: Derin Öğrenme ile Kuş Sesi Sınıflandırma

Python PyTorch License Gradio Model Accuracy

KuşNet, 50 farklı kuş türünü seslerinden yüksek doğrulukla (%95+) tanıyan, ResNet-18 mimarisi üzerine kurulu bir Derin Öğrenme projesidir. Proje, veri işleme aşamasından canlı web arayüzüne kadar uçtan uca (end-to-end) bir çözüm sunar.

Projenin asıl detaylı raporu repoda "DL Rapor.docx" olarak mevcuttur!


🚀 Proje Özellikleri

  • Model Mimarisi: ImageNet üzerinde ön eğitilmiş ResNet-18 (Transfer Learning).
  • Veri İşleme (Smart Slicing): Uzun ses kayıtları 4 saniyelik parçalara bölünmüş ve sessiz/boş kısımlar elenerek veri seti optimize edilmiştir.
  • Ses Dönüşümü: Ses dalgaları (Waveform), Mel Spektrogramlara dönüştürülerek görüntü işleme teknikleriyle analiz edilmiştir.
  • İnference: Uzun ses dosyaları için "Sliding Window" yöntemi ile tüm ses taranır ve ortalama olasılık hesaplanır.
  • Arayüz: Hugging Face Spaces üzerinde çalışan Gradio tabanlı interaktif web arayüzü.

📊 Performans ve Sonuçlar

Modelimiz 50 farklı sınıf üzerinde eğitilmiş ve %95.86 Test Başarısı elde etmiştir.

1. Eğitim Grafiği (Accuracy & Loss)

Eğitim Grafiği

2. Karmaşıklık Matrisi (Confusion Matrix)

Confusion Matrix


📂 Proje Yapısı


│── kusresnet.py          # Model eğitimi ve validasyon
│── kusinference.py       # Tahminleme motoru
├── ornek_sesler/          # Demo için test sesleri
├── requirements.txt       # Gerekli kütüphaneler
├── resnet_kus_5li.pth     # Eğitilmiş model parametreleri
├── renet_sonucu.png       # Model skorlarına ilişkin grafik
├── DL rapor.docx          # Projeye ilişkin  detaylı bilginin bulunduğu rapor
├── Confusion_Matrix       # Karmaşıklık matrisi grafiği
└── README.md              # Proje dokümantasyonu

🧠 Nasıl Çalışır?
Spektrogram Dönüşümü: .mp3 veya .wav formatındaki ses, Mel Skalasında spektrogram görüntüsüne çevrilir.

ResNet-18: Görüntü, CNN katmanlarından geçer. Modelin ilk katmanı spektrogramları kabul edecek şekilde modifiye edilmiştir.

Sınıflandırma: Son katman, 50 farklı kuş türüne ait olasılık değerlerini üretir.

🌍 Canlı Demo
Projeyi tarayıcı üzerinden test etmek için Hugging Face Space adresini ziyaret edebilirsiniz:

👉 https://huggingface.co/spaces/tottisporlu/kus-sesi-tanima-resnet18

About

🐦 Deep Learning based Bird Sound Classification covering 50 species. Powered by PyTorch, Librosa, ResNet-18 Transfer Learning and Smart Audio Slicing. Trained with Xero-Canto datasets. Achieved ~96% accuracy.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages