Ce projet permet de récupérer des articles scientifiques en PDF à partir d'un prompt saisi en langage naturel. Le projet suit les étapes suivantes :
- Extraction des mots-clés à partir du prompt.
- Scraping de PubMed pour récupérer les métadonnées des articles en format CSV.
- Extraction des DOI à partir du fichier CSV.
- Téléchargement des articles en PDF à partir de Sci-Hub en utilisant les DOI.
Le projet est organisé en plusieurs fichiers Python :
__init__.py
: Fichier d'initialisation qui importe toutes les bibliothèques nécessaires.Scraper_pdf.py
: Contient les fonctions pour télécharger les fichiers PDF à partir de Sci-Hub.Scraper_PubMed.py
: Contient les fonctions pour scraper PubMed et récupérer les métadonnées des articles.utils.py
: Contient les fonctions utilitaires pour traiter les prompts et extraire les mots-clés.main.py
: Script principal qui orchestre l'ensemble des étapes du projet.
-
Assurez-vous d'avoir Python installé sur votre système. Si ce n'est pas le cas, vous pouvez le télécharger à partir du site officiel : python.org.
-
Clônez ce référentiel GitHub sur votre machine locale en utilisant la commande suivante :
git clone https://github.com/votre_utilisateur/Scraper_Project.git
-
Accédez au répertoire du projet :
cd Scraper_Project
-
Installez les dépendances requises en exécutant la commande suivante :
pip install -r requirements.txt
Étape 1: Extraction des mots-clés
Le fichier utils.py
contient les fonctions nécessaires pour traiter le prompt saisi en langage naturel et extraire les mots-clés.
Étape 2: Scraping de PubMed
Le fichier Scraper_PubMed.py
contient les fonctions pour scraper PubMed en utilisant les mots-clés extraits et pour sauvegarder les métadonnées des articles en format CSV.
Étape 3: Extraction des DOI Extrait les DOI des articles à partir du fichier CSV généré.
Étape 4: Téléchargement des PDF
Le fichier Scraper_pdf.py
contient les fonctions pour télécharger les articles en PDF à partir de Sci-Hub en utilisant les DOI extraits.
Exécution du script principal Le fichier main.py orchestre l'ensemble des étapes du projet. Vous pouvez exécuter le script principal pour lancer le processus complet :
Exécutez le script main.py
en utilisant la commande suivante :
python main.py
- Suivez les instructions à l'écran pour saisir votre requête de recherche, spécifier le nombre d'articles à récupérer, et télécharger son PDF.
- Le script extrait les mots-clés du prompt.
- Le script scrape PubMed pour récupérer les métadonnées des articles et les sauvegarde en format CSV.
- Le script extrait les DOI à partir du fichier CSV.
- Le script télécharge les articles en PDF à partir de Sci-Hub en utilisant les DOI extraits.
BERKANI Yacine