PDF Scraper Project

Description

Ce projet permet de récupérer des articles scientifiques en PDF à partir d'un prompt saisi en langage naturel. Le projet suit les étapes suivantes :

Extraction des mots-clés à partir du prompt.
Scraping de PubMed pour récupérer les métadonnées des articles en format CSV.
Extraction des DOI à partir du fichier CSV.
Téléchargement des articles en PDF à partir de Sci-Hub en utilisant les DOI.

Structure du projet

Le projet est organisé en plusieurs fichiers Python :

__init__.py : Fichier d'initialisation qui importe toutes les bibliothèques nécessaires.
Scraper_pdf.py: Contient les fonctions pour télécharger les fichiers PDF à partir de Sci-Hub.
Scraper_PubMed.py: Contient les fonctions pour scraper PubMed et récupérer les métadonnées des articles.
utils.py: Contient les fonctions utilitaires pour traiter les prompts et extraire les mots-clés.
main.py: Script principal qui orchestre l'ensemble des étapes du projet.

Installation

Assurez-vous d'avoir Python installé sur votre système. Si ce n'est pas le cas, vous pouvez le télécharger à partir du site officiel : python.org.
Clônez ce référentiel GitHub sur votre machine locale en utilisant la commande suivante :
```
git clone https://github.com/votre_utilisateur/Scraper_Project.git
```
Accédez au répertoire du projet :
```
cd Scraper_Project
```
Installez les dépendances requises en exécutant la commande suivante :
```
pip install -r requirements.txt
```

Utilisation

Étape 1: Extraction des mots-clés Le fichier utils.pycontient les fonctions nécessaires pour traiter le prompt saisi en langage naturel et extraire les mots-clés.

Étape 2: Scraping de PubMed Le fichier Scraper_PubMed.py contient les fonctions pour scraper PubMed en utilisant les mots-clés extraits et pour sauvegarder les métadonnées des articles en format CSV.

Étape 3: Extraction des DOI Extrait les DOI des articles à partir du fichier CSV généré.

Étape 4: Téléchargement des PDF Le fichier Scraper_pdf.py contient les fonctions pour télécharger les articles en PDF à partir de Sci-Hub en utilisant les DOI extraits.

Exécution du script principal Le fichier main.py orchestre l'ensemble des étapes du projet. Vous pouvez exécuter le script principal pour lancer le processus complet :

Exécutez le script main.py en utilisant la commande suivante :

python main.py

Exemple d'utilisation

Suivez les instructions à l'écran pour saisir votre requête de recherche, spécifier le nombre d'articles à récupérer, et télécharger son PDF.
Le script extrait les mots-clés du prompt.
Le script scrape PubMed pour récupérer les métadonnées des articles et les sauvegarde en format CSV.
Le script extrait les DOI à partir du fichier CSV.
Le script télécharge les articles en PDF à partir de Sci-Hub en utilisant les DOI extraits.

Auteur

BERKANI Yacine

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PDF Scraper Project

Description

Structure du projet

Installation

Utilisation

Exemple d'utilisation

Auteur

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
Ajouter un titre (1).png		Ajouter un titre (1).png
README.md		README.md
Scraper_PubMed.py		Scraper_PubMed.py
Scraper_pdf.py		Scraper_pdf.py
__init__.py		__init__.py
main.py		main.py
requirements.txt		requirements.txt
utils.py		utils.py

yacineberkani/Scraper_Project

Folders and files

Latest commit

History

Repository files navigation

PDF Scraper Project

Description

Structure du projet

Installation

Utilisation

Exemple d'utilisation

Auteur

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages