Theses.fr dumper permet de récupérer les données de theses.fr par lots.
en utilisant un fichier de sortie
theses-fr-dumper -s 0 15 30 -f jsonl -o dump.jsonl
en utilisant un pipe
theses-fr-dumper -s 0 15 30 -f jsonl | grep -i "lorem ipsum"
La séquence de téléchargement s'exprime de la façon suivante : -s début incrément fin
.
Si aucune séquence de téléchargement n'est spécifiée theses.fr dumper téléchargera l'ensemble des notices par lot de 10 000.
- CSV
- Json
- Jsonl
- XML (à venir)
Cet argument permet de préciser le fichier de sortie. Si un fichier existe déjà son contenu sera effacé.
Sans l'argument -o
les informations récupérées du serveur sont affichées dans directement dans console.
Theses.fr dumper permet de grader la connexion ouverte avec le serveur grâce à l'option -m keep-alive
. Tous les lots seront téléchargé par la même connexion.
⚠️ L'option keep-alive peut entraîner un time out côté serveur. Par défaut chaque téléchargement de lots entraîne la création d'une nouvelle connexion avec le serveur.
cargo build --release
cargo test