Scrapc

Introduction

Scrapc est une application Windows Forms en C# permettant de crawler des sites web et d'en extraire les différents contenus pour les sauvegarder localement.
Elle dispose d'une interface utilisateur pour gérer et visualiser les URLs à scraper.

Fonctionnalités

Crawling de site web : Collecte les URLs récursivement à partir d'une page donnée.
Limitation des URL : Choissez le nombre maximal d'url à collecter pour le scraping
Scraping de contenu : Extrait et sauvegarde le contenu des pages trouvées.
Scraping HTML : Extrait et sauvegarde le code HTML des pages trouvées.
Scraping Image : Extrait et sauvegarde les images trouvées dans les pages.
Scraping d'URLs : Affiche et sauvegarde les URLs collectées.

Prérequis

.NET Framework
HtmlAgilityPack

Installation

Clonez le dépôt :

sh

git clone https://github.com/Miiraak/Scrapc.git

Visual Studio

Ouvrez le projet avec Visual Studio.
Ajoutez les dépendances nécessaires (HtmlAgilityPack) via NuGet.

Utilisation

Lancez l'application.
Selectionnez la fonction approprié.

Entrez une URL valide dans le champ texte.
Vous pouvez utiliser ce site : Book to Scrape (Merci à eux 🫀)
Choississez le nombre d'url que vous souhaitez explorer au maximum.
Cliquez sur le bouton Crawl pour commencer le crawling.

Utilisez URLs ? pour afficher les URLs récupérées. (optionnel)

Cliquez sur Scrap pour extraire et sauvegarder le contenu des pages collectées selon la fonction choisie et les URLs utilisés.

Fonctions

Nom	État
Site Crawler	[🟢]
Limiter URL	[🟢]
Text Scraper	[🟢]
HTML Scraper	[🟢]
URL Scraper	[🟢]
Multi-threading task	[🟢]
Images functions	[🟠]
Proxy implementation	[🔴]
...	[⚫]

Contribution

Les contributions sont les bienvenues ! Veuillez ouvrir une issue ou soumettre une pull request pour toute amélioration ou correction de bugs.

Licence

Ce projet est sous licence MIT. Voir le fichier LICENSE pour plus de détails.

Disclaimer

Attention : L'utilisation de cette application doit se faire de manière responsable et légale.

Respect des Conditions d'Utilisation : Assurez-vous de respecter les conditions d'utilisation des sites web que vous crawlez. De nombreux sites web limitent la fréquence des requêtes, interdisent explicitement le scraping ou l'accès à certaines ressources. (Pardon Wikipedia c'était pas voulu 😅🙏)
DDoS (Distributed Denial of Service) : L'utilisation incorrecte de cette application peut entraîner un grand nombre de requêtes simultanées, potentiellement provoquant un DDoS involontaire. Limitez le nombre de requêtes simultanées et la fréquence des requêtes pour éviter cela.
Contenu Interdit : Ne crawlez pas des sites web contenant des contenus illégaux ou des informations sensibles.

L'auteur de ce logiciel n'est pas responsable des dommages ou des conséquences juridiques résultant d'une utilisation inappropriée ou illégale de cette application.

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
.github/ISSUE_TEMPLATE		.github/ISSUE_TEMPLATE
Images		Images
Scrapc		Scrapc
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE.txt		LICENSE.txt
README.md		README.md
Scrapc.sln		Scrapc.sln

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Scrapc

Introduction

Fonctionnalités

Prérequis

Installation

Clonez le dépôt :

sh

Visual Studio

Utilisation

Fonctions

Contribution

Licence

Disclaimer

Sinon merci d'utiliser Scrapc ! N'hésitez pas à faire des suggestions ou à signaler des bugs.

About

Releases

Languages

License

Miiraak/Scrapc

Folders and files

Latest commit

History

Repository files navigation

Scrapc

Introduction

Fonctionnalités

Prérequis

Installation

Clonez le dépôt :

sh

Visual Studio

Utilisation

Fonctions

Contribution

Licence

Disclaimer

Sinon merci d'utiliser Scrapc ! N'hésitez pas à faire des suggestions ou à signaler des bugs.

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Languages