La vision par ordinateur ou vision artificielle :  Qu’est-ce que c’est ?

La vision par ordinateur ou vision artificielle : Qu’est-ce que c’est ?

La vision par ordinateur dans le monde courant : La vision artificielle, aussi connue sous le nom de vision par ordinateur, est un terme qui ne parle pas à grand-monde de prime abord. Il s’agit d’une branche de l’intelligence artificielle qui vise à copier ou s’inspirer du fonctionnement des systèmes de vision humains et à les adapter à des machines. Vous en avez vu des exemples dans des œuvres de science-fiction telles que les robots Terminator ou encore des robots NS-5 Sony du film I, Robot. Ils l’utilisent pour évoluer dans leurs environnements respectifs. Mais sachez que la vision par ordinateur n’est pas de la science-fiction et qu’elle existe aussi dans le monde réel dans une moindre mesure. Vous êtes souvent amenés à en croiser dans votre vie de tous les jours et cela sans vous en rendre compte. A votre avis comment votre Smartphone se débloque-t-il en reconnaissant votre visage ? Comment votre caméra sait-elle où appliquer le filtre Snap ?

Figure 1 : Robot NS-5 du film I robot Capture

Quand la lumière est créée par une source lumineuse primaire elle atteint un objet, celui-ci absorbe une partie de cette lumière et en réfléchit une autre partie. Ces rayons lumineux réfléchis atteignent l’œil de l’observateur. Dans cet œil, la cornée fait converger la lumière dans l’humeur aqueuse vers le cristallin, qui lui-même fait converger la lumière dans l’humeur vitrée sur la rétine. L’œil est l’ensemble dioptrique qui permet d’acheminer la lumière jusqu’au capteur.

Le capteur du système visuel humain est la rétine. Elle se compose de plusieurs couches de cellules, les cônes (qui servent à la vision diurne en couleurs) et les bâtonnets (qui servent à la vision nocturne et niveau de gris). Les cellules de ce capteur captent un maximum d’informations, elles sont acheminées via le nerf optique vers les différentes aires du cortex cérébral qui vont utiliser ces signaux reçus pour en extraire l’information utile et analyser les scènes. 

Mais avant de vous expliquer ce qu’est la vision artificielle, rappelons comment fonctionne la vision humaine.

Figure 2 : Dessin d’un œil vu de profil avec le chemin rayons lumineux


Pour voir, il faut un organe qui :

-        Focalise/guide la lumière sur un capteur : Cornée et Cristallin

-        Sert de capteur sur lequel se forme l’image de la scène observée : Rétine

-        Sert de câbles par lesquels transite l’information qui arrive du capteur : Nerf optique.

-        Qui est capable d’analyser l’image pour en tirer de l’information et décider de la suite des événements : le cortex visuel et l’encéphale.


Figure 3 : Dessin d’un œil vu de profil composition de l’œil

L’œil remplit plusieurs des fonctions énumérées plus haut. Le nerf optique transmet les signaux captés par l’œil au cerveau. Le cortex visuel traite les signaux reçus, les analyse pour en extraire des informations essentielles puis classifie ces éléments pour permettre l’appréciation de notre environnement (reconnaissance des objets, des formes, des visages et des couleurs, etc.). Toute l’analyse se fait de manière inconsciente par notre cerveau. Cette analyse est aussi le fruit d’un apprentissage tout au long de notre enfance. Maintenant passons à la vision par ordinateur :


La vision par ordinateur associe plusieurs éléments pour capter, transmettre, traiter et analyser les informations en copiant le fonctionnement du système visuel humain.

Dans le cadre de la vision artificielle, on essaie de maîtriser plusieurs critères car les systèmes existants ne sont pas aussi adaptables que l’œil et le cerveau humain.

On commence par choisir un capteur/ une caméra selon plusieurs critères :

-        Type d’applications : capteur linéaire ou capteur matriciel

-        Plus petit élément qu’on veut détecter

-        Vitesse d’acquisition souhaitée

-        Type d’alimentation souhaité

-        Etc.




Figure 4 : Photo d’illustration de caméra de vision

Après le capteur c’est au tour de la source de lumière. Elle permet de mettre en évidence les éléments que l’on veut détecter. En plus du type de source, la géométrie de la source a son importance. Elle permet de maximiser le contraste entre le fond (les éléments de l’arrière-plan) et le sujet (objet que l’on veut détecter ou voir).  Les principales géométries connues sont :


Eclairage rasant : met en évidence les défauts de surfaces


Figure 5 : schéma d’illustration d’une configuration à éclairage rasant


 

Eclairage coaxial : met en évidence les défauts de planéité[1]



[1] La Planéité est le fait qu’une surface soit plane : si une surface a une planéité parfaite, vous pourrez poser une bille dessus sans que celle-ci ne roule dans une direction ou une autre.

 


Figure 6 : schéma d’illustration d’une configuration à éclairage coaxial


-       

Rétro-éclairage : met en évidence les contours des objets (mesure de longueur).


Figure 7 : schéma d’illustration d’une configuration à rétro-



Figure 8 : Photo d’illustration d’une source de lumière Efflux

On choisit ensuite l’objectif (3) dont le choix est également soumis à plusieurs critères :

-        Taille du capteur de la caméra

-        Cercle de pleine lumière de l’objectif

-        Distance entre le capteur et l’élément observé

-        Type de traitement des verres

-        Longueur d’onde de la source

-        Etc.


Figure 9 : Photo d’illustration d’un téléobjectif


L’objectif permet de focaliser la lumière. Celle-ci est alors dirigée vers le capteur.


Figure 10 : Photo d’illustration d’une vue transparence d’un appareil photo numérique


Les images sont transférées du capteur (la caméra) via des câbles électriques ou en fibre optique ou sans fil (transfert en wifi) vers une unité de traitement. Cette unité de traitement peut être un ordinateur, une carte électronique de type FPGA, un serveur ou une carte de traitement d’image autre.

Cette unité de traitement joue le même rôle que celui du cortex visuel. On parle alors de traitement d’image (image processing). L’unité fait un pré-traitement d’image et permet d’améliorer la visibilité des informations d’intérêts. Puis vient une phase de détection et un traitement pour extraire les caractéristiques des éléments à l’image. Enfin vient la phase d’analyse des données extraites pour en tirer un verdict.



Figure 11 : Capture d’écran de la vision d’un Terminator, avec identification extrait de la vidéo « the real augmented reality Terminator vision »

Sur l’image ci-dessus (extraite du film Terminator), on voit que les contours des formes du visage sont plus apparents et plus géométriques, ce qui pourrait être le résultat du pré-traitement d’image. Celui-ci va chercher à mettre en évidence les contours des objets à observer.


Figure 12 : Visage extrait de la figure précédente


La phase d’analyse et extraction des attributs pourrait donner un résultat de type :

-        Distance entre les yeux= 5 cm

-        Surface de la bouche= 3 cm²

-        Longueur du nez = 4 cm

-        Position du nez = 15 cm

Après la récupération de ces données (extraction d’attributs) et leur traitement, le verdict est donné (la classification). Dans cette image le verdict est représenté comme :

-        La reconnaissance de l’individu : homme / femme, etc.

-        La reconnaissance de l’expression faciale : agressif/ heureux/ triste / énervé / apeuré, etc.

figure 13: Extrait de la figure 11

Figure 13: Schéma récapitulatif de la chaîne d’acquisition et traitement en vision artificielle



Quand on fait de la vision par ordinateur, il faut savoir précisément ce qu’on veut voir ou détecter. Puis on choisit les éléments de la chaîne d’acquisition, leurs positionnements et tout ce qui nous permet de mettre en évidence ce que l’on cherche. Après quoi, on peut acquérir l’image. Cette image est ensuite prétraitée, puis analysée (segmentation, extraction des attributs). Les éléments de l’image sont alors classifiés, ce qui permet ainsi la prise de décision.

Chez l’Homme cela peut se traduire par :

 « Je vois un élément, j’acquiers des informations : deux yeux, quatre pattes, une taille au garrot entre 70 et 80 cm, la bouche qui s’ouvre et se ferme rapidement, des poils, etc. Cette phase est l’extraction d’attributs. Mon cerveau classifie les éléments et reconnaît un chien. Je fuis, ou je m’approche » : il s’agit de la prise de décision.

Dorénavant, vous avez un premier aperçu de ce qu’est la vision par ordinateur. Au-delà des applications ludiques (filtres snap, reconnaissance faciale…), beaucoup d’industries y ont recours pour du contrôle qualité, dans les voitures autonomes, pour de la surveillance dans les transports en commun ou les zones sensibles, comme les sentinelles Samsung SGR-A1). Mais ce domaine encore méconnu recèle bien des secrets. Nous nous attèlerons à les découvrir en temps prochainement.




Sources :

1.     http://intelligence-artificielle-tpe.e-monsite.com/album-photos/robots-de-fiction/ns-5sonny.html

2.      https://www.youtube.com/watch?v=6uPUhqR6zCo

3.     https://fr.wikipedia.org/wiki/%C5%92il_humain

4.     http://www.mesures.com/pdf/old/828-dossier-Keyence-critere-choix.pdf



Commentaire ( 0 ) :

S'inscrire à notre newsletter

Nous publions du contenu régulièrement, restez à jour en vous abonnant à notre newsletter.