-
Notifications
You must be signed in to change notification settings - Fork 0
/
descriptif.tex
133 lines (119 loc) · 11.5 KB
/
descriptif.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
\chapter{Introduction}
\section{Contexte}
La perception de l'environnement par des machines est indispensable pour leur intégration à la vie quotidienne. Des compétences telle que se localiser, la prise de décisions et une capacité d'apprentissage sont nécessaires, même pour la réalisation des tâches les plus simples. Dans cet étude, on s'intéresse à la compréhension d'éléments constituant une scène, sujet récurrent dans le domaine de la vision par ordinateur, et à l'apport de l'utilisation d'un robot mobile dans cette tâche. Plusieurs approches proposés dans la littérature explorent une sous-partie du \textit{pipeline} de la reconnaissance pour faire face aux difficile défi de représenter les caractéristiques visuelle des objets, pendant que d'autres s'intéressent à l'utilisation du système de reconnaissance pour des tâches de recherche dans l'environnement \cite{kragic2009object,shubina2010visual} et la manipulation d'objets \cite{browatzki2012active,collet2010efficient}.
%\celine{Ici, tu peux peut être parler de la représentation des objets dans le cerveau avec des vues et des transitions entre vues et dire qu'il peut être intéressant d'explorer cette approche plutôt que de faire de la reconnaissance statique, image par image}
\section{Objectifs}
Notre démarche correspond, initialement, à l'intégration de techniques de l'état de l'art pour arriver à un système fonctionnel de reconnaissance intégré sur une plateforme mobile équipée d'un capteur RGB-D. Dans un premier temps, la plateforme doit être capable d'acquérir une base de données d'images d'objets de manière automatisée. Ensuite, le but est d'utiliser ces informations apprises pour vérifier si un objet candidat est ou non celui présenté auparavant. Finalement, nous souhaitons utiliser les information de son déplacement pour renforcer sa perception, lever les possibles ambiguités et rendre le système moins sensible à différents types de bruits. De plus, tous ces algorithmes doivent fonctionner en temps réel et être implémentés pour fonctionner sur le robot présent au sein du laboratoire.
% Vision par ordinateur - Reconnaissance d'objets multi-vue - Robotique
\section{État de l'art}
La majorité de la littérature traite le problème de la reconnaissance d'objets basés sur une seule image. Typiquement, un ensemble de \textit{features} \cite{aldoma2012our, aldoma2011cad, frome2004recognizing,tombari2010unique} est extrait et ensuite comparé aux modèles d'objets présents dans une base de données initiale. Il existe également des méthodes directes, comme deep learning \cite{krizhevsky2012imagenet}, où l'image d'entré est associée directement avec des classes des objets correspondants, au prix d'une étape d'entrainement importante d'apprentissage. De très nombreux exemples d'applications de la reconnaissance mono-vue existent dans le domaine de la robotique, pour la navigation sémantique \cite{caron2014neural}, couplé avec l'estimation de pose pour la saisie de l'objet \cite{burel1995three} ou encore pour la recherche d'objets dans l'environnement \cite{kragic2009object,ali2014contextual}.
Des effort conséquent ont été mis en oeuvre fait pour améliorer l'extraction, le \textit {matching}, ainsi que les \textit{features} elles-mêmes pour qu'elles soient invariantes à transformations affines de l'image et plus représentatives de l'objet \cite{abdel2006csift}. Ce traitement classique a l’avantage d'être à la fois modulaire, avec des étapes bien définies de segmentation, d'extraction de features, de classification et de post-traitement, et en même temps, d'avoir des résultats satisfaisants sur des cas simples.
Malgré l'intérêt des features invariantes, on s'aperçoit rapidement de leurs limitations lorsque des vues ambiguës apparaissent. Un premier travail s'inspire de la continuité, temporalité et séquen- tialité des observations dans la reconnaissance chez les humains pour augmenter la représentativité des modèles d'objet, et ainsi surmonter las limitation de la reconnaissance mono-vue \cite{bulthoff2002view}. Certaines approches se basent sur des modèles CAD à trois dimension, la description de contours et les graphes pour augmenter leur représentativité, une revue littéraire des approches est fait en \cite{roy2004active}. En particulier, les graphes d'aspect \cite{roy2000isolated} permettent une représentation basée sur une composition d'images de points de vue différents et les liens entre elles. Les vues représentatives, nommés \textit{key-Frames}, peuvent être choisie avec des politiques aléatoire, constant ou à la recherche d'événements visuels.
L'utilisation d'un algorithme de reconnaissance basé sur une seule image possède l'inconvénient de ne pas prendre en compte les notions de vue et de transition entre elles. Pourtant, la majorité de ces systèmes souhaitent être invariants aux différents points de vue des objets, en d'autres termes, avoir la capacité de l'identifier de n'importe quel point de vue. Un système mono-vue pourrait traiter le concept de vues les plus représentatives et des transitions, mais cela de façon moins intuitive. Ainsi études comme \cite{le2014global}, où un traitement markovien fusionne les informations de déplacement avec la reconnaissance d'images géographiquement labellisées pour la navigation d'un robot en environnement urbaine, travaillent sur le domaine multi-vues en y intégrant des aspects odométiques pour augmenter la qualité de son estimation.
Enfin, certaines approches vont encore plus loin en suggérant une reconnaissance active. Ici, une estimation de quel serait le meilleur déplacement pour lever des ambiguïtés permet de repositionner le capteur. Cela peut se faire par des critères de réduction de l'entropie en utilisant des probabilités de reconnaissance antérieures \cite{borotschnig1998active}, en utilisant l'apprentissage par renforcement \cite{borji2009learning} où encore par estimation des faces cachées de l'objet \cite{banta2000next}. Finalement, \cite{browatzki2012active} traite ce même problème comme un problème de localisation et suivi par un filtre de particules.
%
%Dans, une autre perpective, la reconnaissance d'objet est une tâche évident pour des humans et partir dessous sers comme font d'inspiration. Selon les études réalisés en \textit{ View-based dynamic object recognition based on human perception }, les humans sembles construir un modèle géometrique rotationnel continu, en autre mots, une composition de vues sequentielles qui font le lien entre differentes faces du objet. a La méthode utilisé consisté à partir de l'image initial prise comme key-frame où ses features sont calculées. Ensuite, ses features sont trackées jusqu'à diminuition de features détectées tombe à un nombre inferieur à un seuil définis à priori. La reconnaissance est faite par le comparaison de
%
%\subsection {Principes de la Reconnaissance Humaine}
%
%Commençant par le modèle de l'objet, le but c'est de intégrer et
%respecter certains principes appris après observation dans la
%reconnaissance chez les humains :
%
%\begin{enumerate}
%\item Gazltat : Tendance à retrouver des formes et contours simples et
%naturels par regroupement de caractéristiques et/ou comportements.
%
%\item Continuité : l'apprentissage d'un nouvel objet se fait de forme
%continue. Dans le cas discret, cela revient à un modèle qui simule les
%transitions entre superficies.
%
%\item Temporalité et séquentialité : Des études {\color{blue} ref} suggèrent que l'ordre
%de visualisation de surfaces des objets influence sa reconnaissance à
%posteriori. Par conséquent, la séquence spatiale entre vues joue un rôle sur le concept d'objet, où parcourir
%séquence dans la même ordre que celle appris apporterais plus d'information.
%
%\end{enumerate}
%
%Malheureusement, avoir tous ces principes est une tâche assez complexe
%pour l’état courant de la technologie, pourtant, en même temps, ils inspirent
%possibles solutions et représentations. L'apport de cet étude se place dans les
%domaines de la temporalité et séquentialité.
%
%\subsection{Caractéristique des objets}
%
%En regardant dans la perspective des objets, certaines de ses caractéristiques sont utiles pour le différencier un des autres:
%
%\begin {enumerate}
%\item Taille
%\item Position global
%\item couleur et texture
%\item Contraintes d’espace
%\item Contexte dans l'environnement
%\item Forme géométrique :
%\subitem Sous formes primaire
%\subitem Position et orientation relatif entre formes primaires
%\item Affordance : se réfère au concept d’interactions possibles
%avec un objet. De manière illustratif, dans le cadre du robot utilisé,
%cela reviendrait à capacité de pousser un certain objet, d’où
%l’intérêt de l’identification de l’orientation de l’objet.
%\end{enumerate}
%}
%
%Le modèle proposé doit être capable d'exprimer au
%mieux ses caractéristiques en restant, encore, simple. En reprenant la
%discussion de l'état de l'art basé sur le sondage :
%\textit{Active recognition through next view planning: a survey}
%, on présent quelques modèles usuellement
%utilisés pour représenter les objets en trois dimensions.
%
%\subsubsection{Modèle CAD}
%
%Consiste à représenter l'objet par son modèle 3D fait à l'aide d
%outils de design numériques. L'avantage vient du fait d'une fois le
%modèle construit, la visualisation de l'objet de n'importe quel vue
%devient évident. De l'autre côté, la fiabilité du modèle est
%intérieurement lié à la précision de la reconstruction 3D de l'objet,
%où un soin avec l'échelle et dimensions, ainsi que avec la
%reproduction de la couleur et texture, est important pour la bonne
%représentativité.
%
%\subsubsection{Évolution de contours}
%
%Une autre approche est basé sur les silluettes des objets et leur
%évolution d'après transformation affines. Cette problématique c'est
%démontre mathématiquement compliqué au niveau de la modélisation de
%fonctions de contour et de leur transformation. Cependant, une fois
%modélise, une prévision
%
%% \subsubsection{Squelettes}
%% ...
%
%\subsubsection{Aspect-Graphs}
%
%Cette forme de représenter les objets consiste à avoir un graphe où
%chaque nœud correspond à une image d'un point de vue et les liens
%entre nœuds les réelles transitions visuelles. Comme avoir un graphe
%complet, qui s'approche du continue, apporte une besoin mémoire
%important et une certaine redondance d'information, la préoccupation
%principale est de trouver des point de vues représentatives, nommés
%\textit{key-Frames}, qui peuvent être choisi avec politiques suivants:
%\begin{enumerate}
%\item Aléatoire : Ces key-frames peuvent être choisies de forme
%complètement aléatoire. Absence de calcul intermédiaire ou
%prétraitement.
%
%\item Intervalle constant : Une façon simple c'est de conditionner les
%\textit{key-frames} à un écart angulaire fixe. Cela permet d'unifier
%le nombre de frames pour chaque objet, ce qui peut être intéressant
%pour certaines applications
%
%\item Événement visuels : Cela correspond à déterminer des grands
%variations d'intensité des features pour estimer les key-frames plus
%représentatifs de l'objet. L'inconvénient vient du besoin d'un
%prétraitement, en plus, orienté différemment pour chaque feature,
%lors de la création de la base de données.
%
%\end{enumerate}
%
%