WebCrawler

Codacy (Code Quality / Coverage)

Travis CI (Continuous Integration)

Coveralls (Coverage)

Scrutinizer (Code Quality / Continuous Integration / Coverage)

Landscape (Code Quality)

Ce fichier décrit les différentes étapes nécessaires pour faire marcher le Crawler et le fonctionnement de ce dernier, veuillez le lire avec précaution.

Le programme est un 'Crawler' destiné à récupérer le titre, la description, les mots-clés et les liens contenus dans une page Web à partir de son URL puis à parcourir ces derniers suivant un nombre de fois spécifié (ou par défaut égal à 2) par l'utilisateur. Les données récupérées seront stockées dans un fichier au format JSON (un fichier par lien).

I) PRÉ-REQUIS

Ce programme est compatible avec Windows et la distribution de Linux Debian 7.

Il faut donc avoir installé :

Python 3
Le gestionnaire de paquet PIP (avec la commande apt-get install python-pip sous Debian)
Les bibliothèques BeautifulSoup4 et Requests avec la commande pip install beautifulsoup4 requests depuis un terminal

Vous pourrez ensuite lancer le programme en tapant la commande crawler.py (précédé de "./" sous Debian) [--option1 --option2 ...etc] [ADRESSE_DU_SITE_WEB]. L'adresse du site web est obligatoire pour permettre au script de s'exécuter.

II) OPTIONS DU PROGRAMME

Le script peut prendre jusqu'à trois options donc les détails sont décrits ci-dessous.

L'option --depth

Cette option définie le nombre de fois où le programme doit parcourir les pages Web. Si la valeur de 'depth' vaut 0, seule l'URL de départ sera parcourue. Si la valeur de 'depth' vaut 1, l'URL de départ et les liens qu'elle contient seront parcourus. Si la valeur de 'depth' vaut 2, l'URL de départ, ses liens et les liens contenus dans ses liens seront parcourus,etc.

Par défaut cette option est égale à 2.

L'option --output

'Output' désigne le dossier dans lequel seront stockés les fichiers JSON contenant les informations récupérées à partir des pages Web. Si le dossier spécifié n'existe pas, il sera créé. Par défaut cette option stocke les fichiers dans un dossier 'results'.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.coveragerc		.coveragerc
.gitignore		.gitignore
.landscape.yml		.landscape.yml
.scrutinizer.yml		.scrutinizer.yml
.travis.yml		.travis.yml
README.md		README.md
Sujet détaillé.pdf		Sujet détaillé.pdf
crawler.py		crawler.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WebCrawler

About

Releases

Packages

Languages

ArnaudFlaesch/WebCrawler

Folders and files

Latest commit

History

Repository files navigation

WebCrawler

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages