Bu araç, verilen sitemap veya site URL'inden başlayarak tüm sayfaları tarar ve HTTP durum kodlarını, sayfa başlıklarını ve başlık etiketlerini toplar.
- Sitemap XML desteği
- Site crawling desteği
- Çoklu işlem desteği
- Özelleştirilebilir eşzamanlı işlem sayısı
- CSV çıktı formatı
- Title, H1 ve H2 etiketlerini toplama
- Hata yönetimi ve raporlama
- Gerekli paketleri yükleyin:
pip install -r requirements.txt
- Sadece Sitemap ile kullanım:
python http_status_checker.py --sitemap https://example.com/sitemap.xml --workers 5 --output sonuclar.csv
- Sadece URL ile kullanım:
python http_status_checker.py --url https://example.com --workers 5 --output sonuclar.csv
- Hem Sitemap hem URL ile kullanım:
python http_status_checker.py --sitemap https://example.com/sitemap.xml --url https://example.com --workers 5 --output sonuclar.csv
--sitemap
: Sitemap XML URL'i--url
: Başlangıç URL'i--workers
: Eşzamanlı işlem sayısı (varsayılan: 5)--output
: Çıktı CSV dosyası (varsayılan: results.csv)--timeout
: Sayfa zaman aşımı süresi saniye cinsinden (varsayılan: 30)
CSV dosyası aşağıdaki sütunları içerir:
- url: Taranan sayfa URL'i
- status_code: HTTP durum kodu
- title: Sayfa başlığı (meta title)
- h1: İlk H1 etiketi içeriği
- h2: İlk H2 etiketi içeriği
- check_date: Kontrol tarihi ve saati
- error: Hata mesajı (eğer varsa)
- 10 eşzamanlı işlem ile sitemap tarama:
python http_status_checker.py --sitemap https://example.com/sitemap.xml --workers 10
- 60 saniye zaman aşımı ile URL tarama:
python http_status_checker.py --url https://example.com --timeout 60
- Hem sitemap hem URL tarama ve özel çıktı dosyası:
python http_status_checker.py --sitemap https://example.com/sitemap.xml --url https://example.com --output site_durum.csv
- Program, sitemap'teki tüm URL'leri ve/veya başlangıç URL'inden crawl edilen tüm sayfaları tarar
- Her sayfa için HTTP durum kodu, başlık ve başlık etiketleri kontrol edilir
- Sonuçlar CSV formatında kaydedilir
- Hata durumunda ilgili URL'in status_code'u 0 olarak işaretlenir ve hata mesajı kaydedilir