Quelques scripts utilisés pour le projet sur le Huffington Post.
-
1a-archive.py : exemple de script qui a servi dans le cas où une version du HuffPost disposait d'une section d'archives, ce dont de moins en moins d'éditions disposent (voici celles du HuffPost France, archivées sur la Wayback Machine).
-
1b-archive.py : exemple de script qui a servi dans le cas où une version du HuffPost ne disposait pas d'une section d'archives, ce qui me forçait à avoir recours à l'API Custom Search de Google.
- 2-scrape.py : une fois la première étape réalisée, on repasse à travers tous les URLs moissonnés pour, tout d'abord, vérifier s'il y a bel et bien un article au bout, puis pour recueillir le nom du ou des auteur(s) de cet article.