OCR_P2 - Projet P2 - Scraping du site http://books.toscrape.com
Le script a été conçu pour détecter l'ensemble des catégories de livres présentes sur le site http://books.toscrape.com.
Une extraction de l'ensemble des livres présents dans une même catégorie sera réalisée puis une compilation en fichier CSV pour la catégorie sera possible. Une sauvegarde de toutes les couvertures de livres au format .JPG est également possible.
Le programme laisse le choix à l'utilisateur, d'extraire les livres présents dans une catégorie précises ou de toutes les catégories présentes sur le site.
Lors de l'extraction, le programme affiche quel livre est extrait ainsi que son adresse URL pour un accès rapide pour l'utilisateur.
Voici les données extraites pour chaque livre :
product_page_url (adresse http du livre)
universal_ product_code (upc)
title
price_including_tax
price_excluding_tax
number_available
product_description
category
review_rating
image_url
Le programme peut enregistrer les couvertures de chaque livre, enregistrant ainsi les images .JPG sous la référence code UPC du livre (exemple : "universal_ product_code".jpg) dans un dossier au nom de la catégorie auquel appartient le livre.
git clone https://github.com/Litibe/OCR_P2.git
création de l'environnement virtuel
python3 -m venv [nom_de_votre_environnement_virtuel]
activation de l'environnement virtuel
source [nom_de_votre_environnement_virtuel]/bin/activate
source .\[nom_de_votre_environnement_virtuel]\Scripts\activate
Aller dans le dossier OCR_P2 contenant les fichiers
cd OCR_P2
pip install -r requirements.txt
Exécution du Programme via le fichier principal : main.py présent dans le dossier OCR_P2
python3 main.py
Cette commande produit le resultat suivant car le programme dispose d'une interface dans le terminal pour laisser à l'utilisateur le choix dans son extraction :
Lancement du script scraping pour http://books.toscrape.com/
Sommaire :
11 => Extraction de tous les livres de toutes les catégories + Tableaux CSV + Dossier JPG
12 => Extraction de tous les livres de toutes les catégories + Tableaux CSV
13 => Extraction de tous les livres de toutes les catégories + Dossier JPG
21 => Extraction Livres d'une catégories + Tableau CSV + Dossier JPG
22 => Extraction Livres d'une catégories + Tableau CSV
23 => Extraction Livres d'une catégories + Dossier JPG
0 => Sortie du programme
Que souhaitez vous faire :
Le choix N°11 dure environ une quinzaine de minutes d'exécution.
Le programme va créer dans le dossier "OCR_P2", un dossier "Resultat_extraction" contenant les données extraites du site. Le dossier comprenant un dossier regroupant les export CSV ("Fichiers CSV") et un autre dossier contenant les export Image au format JPG ("Fichiers IMG par catégorie").
!! ATTENTION !! A chaque lancement du programme, ce dernier efface les résultats d'extractions obtenus précédement (= reset). Par contre, tant que le script est ouvert, on peut additionner le résultat de ses extractions (exemple : on peut extraire plusieurs catégories de livres, qui seront regroupés dans le même dossier "résultat_extraction")