#+TITLE : Prise de notes CM 4I500 ALGAV

Antoine Genitrini (antoine.genitrini@sorbonne-universite.fr) 4I500

UE d’ouverture : fascicule de prérequis

Informations pratiques

www.lip6.fr/Antoine.Genitrini

Amphi 45B

Evaluation : 0.2 Examen Réparti 1 + 0.2 Rendu Devoir de programmation + 0.6 Examen réparti 2

Devoir de programmation : Suite du cours avec Binh Minh Bui Xuan

Cours d’ouverture inclus ici

Cours d’algorithmique simple : 3I003 Fanny Pascual

On aura le droit aux slides, plus aux notes sur les slides, plus une copie-double manuscrite.

Prérequis

Il faut connaître :

Notions de complexité, tri de liste (tri rapide, tri fusion)
Complexité au pire cas
Complexité en moyenne

On va surtout voir :

Complexité en coût amorti

Plan du cours

Structures arborescentes : files de priorité

Coût au pire cas n’est plus la mesure à suivre (ça l’était en licence) Coût amorti != coût moyen

Coût de complexité en moyenne

Structures arborescentes pour la recherche

Recherche externe Tries, arbres digitaux (texte)

Géométrie Algorithmique

Problème de collision d’objet.

Méthodes de Hachage

Fonction de hachage. Permet de récupérer une valeur en temps constant.

Références

Froidevaux, Gaudel, Soria, Types de données et algorithmique (Soria ancienne prof ici)

(Disponicle en ligne) Beauquier, Berstel, Chrétienne, Élements d’algorithmique Crochemore, Hancart, Lecroq, Algorithmique du texte

Cours 0 : Cours d’ouverture, rappels

Ce cours présente un certain nombre d’algorithmes et de concepts d’analyse.

Les algorithmes seront écrits en C plutôt qu’en pseudo-langage.

Le tri-insertion

Cet algorithme n’est pas du type “diviser pour régner”, on parle donc d’algorithme naïf.

#include <stdio.h>
#include <stdlib.h>

void inserer(int T[], int x, int e);
void TriInserRec(int T[], int d, int f);
void TriInserIter(int T[], int d, int f);
void printTableau(int T[], int size);

int main()
{
	  int T[10] = {0};

	  // On définit la sentinelle : à défaut de l'infini, on met le plus petit nombre écrivable sur 4 octets
	  T[0] = -2147483648;

	  // On peuple le tableau
	  T[1] = 20;
	  T[2] = 19;
	  T[3] = 18;
	  T[4] = 17;
	  T[5] = 2;
	  T[6] = 14;
	  T[7] = 9;
	  T[8] = 3;
	  T[9] = 1;

	  printTableau(T, 10);

	  /* TriInserRec(T, 1, 10); */
	  TriInserIter(T, 1, 10);

	  printTableau(T, 10);

	  return 0;
}

void inserer(int T[], int x, int e)
{
	  int k = e;

	  while (T[k] > x) {
		  T[k+1] = T[k];
		  k--;
	  }

	  T[k+1] = x;
}

// On a le choix entre la version récursive et itérative. On se permet d'implémenter les deux
// Même si on ne se permettra pas d'utiliser la récursive

void TriInserRec(int T[], int d, int f)
{
	  if (d < f) {
		  TriInserRec(T, d, f - 1);
		  inserer(T, T[f], f - 1);
	  }
}

void TriInserIter(int T[], int d, int f)
{
	  for (int i = d + 1; i < f; ++i) {
		  inserer(T, T[i], i - 1);
	  }
}

void printTableau(int T[], int size)
{
	  for (int i = 0; i < size; ++i) {
		  printf("%d ", T[i]);
	  }

	  printf("\n");
}

On part du principe qu’une partie de la liste est déjà triée de 0 à e, sans perte de généralité.

On prend l’élément d’indice e+1, et on le met en place en comparant de manière successive à tous les éléments à sa gauche.

Et on recommence jusqu’à arriver à la fin : e = size - 1.

Analyse de l’algorithme

Analyse en terminaison

On a bien un algorithme qui se termine : La boucle while de la fonction inserer a un nombre fini d’itérations (l’incrémentation est vers le bas, la barrière est “en bas”).

La condition d’arrêt de la fonction TriInserRec finit toujours par être remplie : la variable f est décrémentée, la condition d’arrêt est de la forme f > qqch.

La boucle for de la fonction TriInserIter s’arrête forcément : la condition d’arrêt est de la forme i < qqch, et i est incrémentée.

Analyse en validité

A la fin d’une invocation de la fonction inserer, on a e + 1 éléments triés (si on partait du principe qu’on en avait e avant). A la fin de l’algorithme, e + 1 égale la taille du tableau, ce qui une autre manière de dire que le tableau est totalement trié.

Analyse en complexité

La fonction inserer fait au pire e + 1 comparaisons. e étant itéré de 0 à n-1 (n la taille du tableau), on a le nombre total de comparaisons donné par :

$∑_i=2ⁿi$

Ce qui donne : $\frac{n(n+1)}{2} - 1$

L’algorithme du tri-insertion est donc au pire quadratique.

Tri rapide

Cet algorithme est du type “diviser pour régner” : on se propose de découper un problème en problèmes plus petits, de les résoudre puis de les combiner.

Comportement asymptotique

On doit donner un certain nombres de concepts pour pouvoir correctement caractériser le comportement asymptotique d’un algorithme.

Le but de ces concepts est de pouvoir ramener la fonction de complexité asymptotique vers une fonction connue et écrivable, genre n, log(n), n^2, etc…

Retour au tri rapide

#include <stdio.h>
#include <stdlib.h>


void swap(int *op1, int *op2);
int rearrangement(int T[], int p, int r);
void quicksort(int T[], int p, int r);
void printTableau(int T[], int size);

int main()
{
	  int T[10] = {0};

	  // On définit la sentinelle : à défaut de l'infini, on met le plus petit nombre écrivable sur 4 octets
	  T[0] = -2147483648;

	  // On peuple le tableau
	  T[1] = 20;
	  T[2] = 19;
	  T[3] = 18;
	  T[4] = 17;
	  T[5] = 2;
	  T[6] = 14;
	  T[7] = 9;
	  T[8] = 3;
	  T[9] = 1;

	  printTableau(T, 10);

	  quicksort(T, 0, 9);

	  printTableau(T, 10);

	  return 0;
}

void swap(int *op1, int *op2)
{
	  int temp = *op1;
	  *op1 = *op2;
	  *op2 = temp;
}

int rearrangement(int T[], int p, int r)
{
	  int v = T[r];
	  int i = p;

	  for (int j = p; j < r; ++j) {
		  if (T[j] <= v) {
			  swap(T + i, T + j);
			  ++i;
		  }
	  }

	  swap(T + i, T + r);

	  return i;
}

void quicksort(int T[], int p, int r)
{
	  if (p < r) {
		  int q = rearrangement(T, p, r);
		  quicksort(T, p, q - 1);
		  quicksort(T, q + 1, r);
	  }
}

void printTableau(int T[], int size)
{
	  for (int i = 0; i < size; ++i) {
		  printf("%d ", T[i]);
	  }

	  printf("\n");
}

Preuve de terminaison

Cours 1 : 17/09/2019 et 24/09/2019

Chapitre 0

Notion de complexité

On ne parlera pas des problèmes exponentiels.

Exemples de problèmes polynômiaux : tri, recherche, géométrie, texte, arithmétique.

Analyse d’algorithmes

Il faut définir une notion de taille (pas univoque, on peut en définir plusieurs).

Pour donner une complexité (nlog(n)), il faut donner aussi l’opération effectuée (permutation, etc…)

L’opération fondamentale doit être explicitée pour pouvoir permettre les comparaisons.

Plusieurs choses peuvent être comparées :

Dans le meilleur des cas : min{ T_A(e) ; e ∈ E_n}
Dans le pire des cas : max{ T_A(e) ; e ∈ E_n}
En moyenne : 1 / (|E_n|) * ∑_{e ∈ E_n} T_A(e)

On pourrait à la limite donner une distribution de probabilité (et pas seulement un moment) d’un algorithme.

On introduit une nouvelle notion : complexité amortie, définie comme le coût d’une suite d’opération (donc moyenne des coûts).

Notions de mathématiques

On définit les trois notions principales :

Comparaison d’ordres de grandeur asymptotique

Chapitre 1 : Files de priorité

Complexité amortie : On est au plus proche de ce qui se passe en pratique.

Interclassement de liste : linéaire en la somme des tailles des deux listes.

Opérations de files de priorité

Ensemble d’éléments, chaque d’élément identifié par une clé, on veut trouver le minimum des clés. (typiquement une valeur de priorité pour un ordonnanceur)

Il faut un ordre total : on doit pouvoir comparer toujours deux éléments : on doit pouvoir dire cet élément-ci est plus petit/égal/plus grand que celui-là.

Opérations :

On veut pouvoir ajouter un élément
Supprimer l’élément de plus petite clé
Construire une file avec n éléments reçus à la volée
Union de plusieurs files de priorités
Modification d’une clé

Tas

Un tas minimum : [insérer image]

Tas minimum

Ensemble de valeurs distinctes deux à deux sous la forme d’un arbre. Contrainte : si on part de la racine vers les feuilles, tous les chemins possibles sont des suites strictement croissantes.

Trier un tas minimum est non-trivial (pas en temps linéaire).

On peut le construire en temps n, donc on le trie au moins en temps nlog(n)

Représentations des données et efficacité

Représentation et efficacité

[expliquer algorithme du tas, insertion]

Exemples

Tri par tas (au lieu d’une liste) (heapsort)
Sur les graphes (plus court chemin : Dijkstra ou A*), (plus court chemin entre tous les couples de sommets : Johnson), (arbre couvrant minimal : Prim)
Interclassement de listes triées
Compression de Huffmann

Arbre binomial

Un arbre binomial est un graphe avec une racine et des sous-branches qui sont aussi des arbres binomiaux.

N’existent que si la taille est une puissance de 2.

Structure dite plane : les fils sont ordonnés de gauche à droite.

Aparté

File binomiale

Union de files binomiales

On suppose que toutes les clés sont distinctes dans les N files à unir.

Cas 1, union de 2 tournois (TB_l, TB_k) de tailles différentes :

D’après notre supposition, le cardinal de l’ensemble des clés des 2 tournois est de 2^l + 2^k.

On peut simplement donner F = < TB_l, TB_k >, qui est une file binomiale valable.

Cas 2, union de 2 tournois de même taille.

On peut faire une file binomiale : F = TB_k+1 qui pourra contenir toutes les étiquettes des deux tournois en entrée. Cette file binomiale doit respecter la propriété selon laquelle la racine est le plus petit élément du tournoi : on prend en fils de l’autre celui qui a la plus grande racine.

Union de 2 files binomiales correspond à une addition binaire.

<TB_2, TB_0> U <TB’_2, TB’_1, TB’_0> = <TB”_3, TB”_2>

Aparté : l’addition binaire

En fait, c’est super facile de faire une addition en binaire : on peut se contenter de faire du bit par bit.

1 + 0 = 0 + 1 = 1 0 + 0 = 0 1 + 1 = +1 au bit de gauche (au bit de poids plus fort) (et 0 au bit courant)

Primitives

Ces primitives des pages 22 et 23 sont utilisables en examen : si on les appelle dans du pseudo-code, le correcteur (notre compilateur humain) saura ce que ça signifie.

On a droit à :

EstVide(T) : Renvoie vrai si le tournoi T est vide
Degre(T) : Renvoie le degré (un entier) de la racine du tournoi
Union2Tid(T) : Renvoie l’union de deux tournois (un tournoi) de même taille
Decapite(T) : Renvoie la file binomiale (suite de tournois) obtenue en supprimant la racine du tournoi T_k
File(T) : Renvoie la file binomiale réduite au tournoi
EstVide(F) : Renvoie vrai si la file F est vide
MinDeb(F) : Renvoie le tournoi de degré minimal de la file F
Reste(F) : Renvoie la file privee de son tournoi de degre minimal
AjoutMin(T, F) : Renvoie la file obtenue en ajoutant le tournoi T comme tournoi de degré inférieur de la file F (ne fonctionne que si T est effectivement de degré plus petit que le degré minimal de la file passée en entrée)

Ces primitives peuvent aussi servir à définir des algorithmes de plus haut niveau. Si on a le temps, on pourrait implémenter ces primitives en C.

Analyse de complexité

On ne prouve pas la correction de l’algorithme (aussi vrai, ni plus ni moins, que la somme binaire).

La complexité de l’union de FB_n et FB_m est en O(log_2(n+m))

Critère de complexité : nombre de comparaisons entre clés (la création de pointeurs, copies de données ne comptent pas).

Idée principale : L’union de deux tournois de même taille nécessite 1 comparaison entre clés et ajoute une arête dans le file résultat. (l’union de deux tournois de taille différente est triviale : tournoi+grand, tournoi-grand, et ne nécessite pas de création d’arête ni de comparaion)

Conséquence : Le nombre de comparaisons égale le nombre d’arêtes de la file union moins le nombre d’arêtes des files de départ (en gros, les arêtes créées).

Ajout d’un élément à une file

La meilleure manière, c’est de créer une file binomiale contenant seulement l’élément à ajouter, puis je fais l’union.

La complexité est donc donnée par ν(n) + 1 - ν(n + 1).

La complexité est entre 0 et ν(n) : on a au max ν(n) comparaisons.

Construction

La meilleure manière, c’est l’ajout de chacun des éléments un à un.

La complexité de la construction d’une file binomiale est donc donnée par la complexité de l’adjonction successive de ses n éléments.

Soit ici :

$∑_i=1^n-1 [ν(i) + i - ν(1+i)]$

C’est une somme téléscopique. Après simplification, la quantité totale de comparaisons est donnée par n - ν(n)

Coût de la construction est le coût de la commutation de bits. [à clarifier avec Genetrini : Qu’est-ce que la commutation de bits ?]

Aparté : le coût amorti

Suppression du minimum

On sait par construction que le minimum de la file est à la racine d’un des tournois qui la composent.

La recherche prend donc ν(n) - 1 comparaisons (le nombre de tournois - 1). Ce qui est un grand O de log_2(n).

La suppression consiste en supprimer la racine du tournoi qui porte la racine minimale : ça créé une deuxième file binomiale constituée des fils orphelins de la racine. On fait ensuite l’union de cette nouvelle file avec la file de départ privée du tournoi décapité.

Il reste, entre ces deux files, n - 1 éléments.

La recherche est toujours de complexité log_2(n). L’union des deux files sera aussi de complexité log_2(n) dans le pire des cas (cas particulier de la complexité général des unions de files binomiales).

Diminution d’une clé (ou étiquette)

On suppose un accès direct au noeud dont il faut diminuer la clé.

La meilleure manière, c’est de modifier la clé, puis échanger le noeud avec son père de manière successive jusqu’à ce que l’hypothèse de stricte croissance soit à nouveau respectée. Par construction, il y a forcément un moment où ça arrive. Par construction, on suppose aussi que la nouvelle valeur de la clé est distincte de toutes les autres (hypothèse de stricte distinction).

La complexité au pire cas, donné par le nombre maximum de comparaisons, est donc la hauteur de l’arbre, soit log_2(n) (ou log(n), à vérifier avec Genitrini)

Cours 2 : 01/10/2019

On s’intéresse aux structures qui vont permettre de faire de la recherche, ici des structures arborescentes.

Problème de recherche

Efficacités par structure

On a l’efficacité en temps (nombre d’opérations) (plus important), et l’efficacité en mémoire (moins important).

Efficacité comparée

Arbres binaires de recherche (ABR)

Arbres binaires

On a plusieurs parcours fréquemment utilisés.

Le parcours préfixe :

PREF(B) = [visit(•), PREF(G), PREF(D)]

Le parcours préfixe d’un ABR ne donne aucune information sur l’ordre des clés. Chaque noeud n’est visité qu’une seule fois : coût O(n)

Le parcours infixe :

INF(B) = [INF(G), visit(•), INF(D)]

Le parcours infixe donne a priori renvoie une liste triée des clés. Coût aussi O(n).

Le parcours suffixe :

SUF(B) = [SUF(G), SUF(D), visit(•)]

Chaque parcours envoie en ordre différent la liste.

ABR

Algorithmes de recherche, ajout et suppression

Peuvent se faire en parcourant seulement une seule branche (c’est pour ça qu’on s’en sert). L’insertion se fait à un unique endroit, facile à déterminer. La suppression d’un noeud interne (pas tout en bas) requiert un peu de travail parmi les sous-arbres.

Primitives

On a un certain nombre de primitives dont on aura le droit de se servir en examen, pour définir des algorithmes en pseudo-langages de plus haut niveau :

ArbreVide : renvoie l’arbre vide
ArbreBinaire(e,G,D) : renvoie l’arbre binaire formé de l’élément e et des sous-arbres G à gauche et D à droite
EstArbreVide(A) : renvoie vrai sssi l’arbre est vide
Racine(A) : Renvoie le contenu de la racine de A.
SousArbreGauche(A) : Renvoie une copie du sous-arbre gauche
SousArbreDroit(A) : Renvoie une copie du sous-arbre droit
Pere(A) : Renvoie l’arbre dont A est un des sous-arbre immédiat (un des fils de la racine), ou l’arbre vide, si A n’est pas un sous-arbre.

ABR équilibrés

On peut avoir un ABR très déséquilibré (ici celui de droite, appelé peigne) :

ABR

Dans le pire des cas, on a besoin de n comparaisons pour trouver l’entier n.

On a des manières de forcer le rééquilibrage par rotation si l’amplitude (On ne gagne pas en moyenne, mais on diminue la probabilité du pire cas)

Arbres équilibrés

On va avoir besoin d’algorithmes sophistiqués pour préserver l’équilibre.

Processus de rotation

On fait l’insertion, on a dépassé le seuil (par exemple, j’avais des noeuds vides à un étage qui n’est pas le dernier) On remonte au père du noeud vide à remplir en partant de l’étiquette qu’on vient de rajouter. On fait une rotation vers le noeud vide (donc vers la gauche ou la droite) en partant de son père.

En général, il est trop coûteux d’obtenir un ABR parfait.

On se permet alors de relâcher les contraintes : Sur la hauteur, donne la famille des arbres AVL. Sur le remplissage des noeuds d’un étage (la largeur), donne la famille des arbres B.

Exemples de structures

Structures typiques pour la RAM :

AVL
Arbre 2-3-4 (Red-black)

Structures typiques pour le disque (plus de données, base de données) :

Arbre B
Arbre auto-adaptatif

AVL (Adelson-Velsky, Landis)

Rotations

Rotation droite :

A = < q, < p, U, V >, W > → RD(A) = < p, U, < q, V, W > >

Avec U le sous-arbre de hauteur +1.

Rotation droite

Rotation gauche :

A = < p, U, < q, V, W >, W > → RG(A) = < q, < p, U, V >, W >

Rotation gauche-droite :

A = < q, < p, U, < r, V₁, V₂ >, >, W > → RGD(A) = < r, < p, U, V₁ >, < q, V₂, W > >

Rotation gauche-droite

Toutes ces rotations sont très peu coûteuses.

Rotation droite-gauche :

A = < q, W, < p, < r, V₁, V₂ >, U > > → RDG(A) = < r, < q, W, V₁ >, < p, V₂, U > >

Primitives

On dispose d’un certain ensemble de primitives sur les AVL :

Hauteur(A) : Renvoie la hauteur de l’arbre passé en argument.
Les quatre fonctions de rotation mentionnées plus haut.
Equilibrage(A) : Suppose que A est un arbre de recherche, que ses sous-arbres sont des AVL, dont les hauteurs diffèrent de 2 au plus. Renvoie l’arbre obtenu en rééquilibrant l’arbre initiale (Détermine laquelle des rotations à appliquer, et l’applique)
AVL_Ajout(x, A) : Renvoie l’AVL résultant de l’ajout de x à A.

Cours 3 : 08/10/2019

Arbres équilibrés, suite

Arbre de recherche général

Un cas particulier intéressant, particulièrement souvent utilisé :

Primitives

On dispose d’un ensemble de primitives utiles, plus pratiques pour les algorithmes plus complexes :

EstVide(A)
Degre(A) : l’arité à la racine de A (ou l’arité de A si on considère A le noeud racine de l’arbre plutôt que l’arbre lui-même)
Contenu(A) : la liste (ordonnée croissante) des éléments de la racine de A (ou la liste de A si on considère A le noeud racine de l’arbre plutôt que l’arbre lui-même)
EstDans(x, L) : Est-ce que x est dans la liste L
Elem_i(A) : Renvoie le ième élément de la racine de A (+∞ si i est trop grand : genre on a demandé Elem_3 d’un 2-noeud qui ne contient qu’un élément)
SsA_i(A) : Renvoie le ième sous-arbre de la racine de A (l’arbre vide si i est trop grand : genre on a demandé SsA_3 d’un 2-noeud qui n’a que 2 sous-arbres)

A partir de ces primitives, on peut donner un algorithme de recherche en pseudo-langage.

Recherche d’un élément

On compare l’élément recherché aux éléments du noeud racine. Soit on le trouve, soit on sait au bout de 1-3 comparaisons dans quel sous-noeud on le doit rechercher. Et ainsi de suite.

On comprend aisément que la recherche est meilleure si on a des 4 noeuds (encore qu’on est quand même en O(log(n)) dans tous les cas) :

Ajout d’un élément

L’ajout est guidé par la recherche : on met l’élément où on l’aurait trouvé par la recherche. On s’arrête quand ?

Déjà, on ne s’arrête que si le noeud est plein ou si on est arrivé en bas.

Si celui-ci est plein, alors on doit éclater le noeud (version éclatement systématique en descente) :

On garde un pointeur où on aurait dû mettre l’élément
L’élément du mileu devient la racine, le plus petit devient le fils gauche, le plus grand devient le fils droit (même niveau donc).
On met l’élément à sa place en recommençant à chercher au pointeur (qu’on a pris la peine de garder avant), dans l’endroit de plus bas niveau.

Si on a un éclatement sur une feuille du bas, on doit faire remonter la valeur centrale de l’élément à éclater dans un noeud plus haut (dont on sait qu’il n’est pas plein, puisqu’on vient de le traverser).

Aparté, exemple

On se propose de construire par ajout successif un arbre 2-3-4 avec les éléments, en utilisant l’algorithme d’éclatement systématique en descente :

(4, 35, 10, 13, 3, 30, 15, 12, 7, 40, 20, 11, 6)

4

4, 35

4, 10, 35

Eclatement ! On garde le pointeur avant 35

	10
4		35