Skip to content

Commit

Permalink
Merge pull request #25 from Legilibre/html
Browse files Browse the repository at this point in the history
Nettoyage HTML
  • Loading branch information
Changaco authored Feb 17, 2018
2 parents 13df894 + 0f7ef2c commit 7e2834c
Show file tree
Hide file tree
Showing 9 changed files with 700 additions and 14 deletions.
5 changes: 5 additions & 0 deletions .travis.yml
Original file line number Diff line number Diff line change
Expand Up @@ -5,6 +5,11 @@ branches:
only:
- master

addons:
apt:
packages:
- libarchive13

install:
- sqlite3 --version
- pip install tox
Expand Down
16 changes: 16 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -73,6 +73,22 @@ Le module `normalize` corrige les titres de textes qui ne sont pas parfaitement
La "factorisation" connecte entre elles les différentes version d'un même texte.
La base LEGI n'a pas d'identifiant qui remplisse réellement ce rôle.

### Nettoyage des contenus

Le module `html` permet de nettoyer les contenus des textes. Il supprime :

- les espaces redondantes (*whitespace collapse*), sauf à l'intérieur des `<pre>`
- les attributs inutiles, par exemple `id` et `dir="ltr"`
- les éléments inutiles, par exemple un `<span>` sans attributs
- les éléments vides, sauf `<td>` et `<th>`

En février 2018 il détecte 78 millions de caractères inutiles dans LEGI.

Cette fonctionnalité n'est pas activée par défaut car elle est « destructrice »
et récente. Vous pouvez nettoyer tout l'HTML d'une base en exécutant la commande
`python -m legi.html clean legi.sqlite` (les modifications ne sont enregistrées
que si vous entrez `y` à la fin).

### Détection d'anomalies

Le module `anomalies` est conçu pour détecter les incohérences dans les données afin de les signaler à la DILA. Le résultat est visible sur [anomalies.legilibre.fr][anomalies]. (`cron/anomalies-cron.sh` est le script qui génère ce mini-site.)
Expand Down
Loading

0 comments on commit 7e2834c

Please sign in to comment.