La visión por ordenador en el mundo ordinario: ¿qué es ?

La visión artificial, también conocida bajo el nombre de visión por ordenador es un término que no evoca gran cosa para mucha gente a primera vista. Se trata de una rama de la inteligencia artificial que aspira a copiar o inspirarse del funcionamiento de los sistemas de visión humanos y adaptarlos a unas maquinas. Han visto ejemplo de aquello en obras de ciencia-ficción tales como los robots Terminator o también los robots NS-5 Sony de la película “I, Robot”. La utilizan para evolucionar en sus medio-ambientes respectivos. Pero sepan ustedes que la visión por ordenador no es ciencia-ficción y existe también en el mundo real en menor medida. Han tenido que cruzarse a menudo con ella en sus vidas diarias y eso sin darse cuenta siquiera. Según su opinión, ¿cómo su Smartphone se desbloquea al reconocer su cara?, ¿Cómo su cámara sabe donde aplicar el filtro Snap?

Figura 1: Robot NS-5 de la pelicula I robot Captura

Pero antes de explicarles lo que es la visión artificial, recordemos cómo funciona la visión humana.

Cuando la luz creada por una fuente luminosa alcanza un objeto, este absorba una parte de esta luz y refleja otra parte de ella. Esos rayos luminosos reflejados alcanzan el ojo del observador. En este ojo la córnea hace convergir la luz en el humor acuoso hacia el cristalino, que el mismo hace convergir la luz en el humor vítreo sobre la retina. El ojo es el conjunto dióptrico que permite enviar la luz hacia el sensor.

El sensor del sistema visual humano es la retina. Se compone de varias capas de células, los conos (que sirven a la visión diurna en color) y los bastones (que sirven a la visión nocturna y nivel de gris). Las células de este sensor captan un máximo de informaciones, estas son enviadas vía el nervio óptico hacia las diferentes áreas de la corteza cerebral que van a utilizar esas señales recibidas para extraer la información útil y analizar las escenas.

figura 2: Dibujo del ojo visto de perfil con el camino rayos luminosos

Para ver, hace falta un órgano que:

– Enfoca/guiá la luz sobre un sensor: Córnea y Cristalino.

– Sirve de sensor sobre el cual se forma la imagen de la escena observada: Retina.

– Sirve de cable por el cual transita la información que llega del sensor: Nervio óptico.

– Que es capaz de analizar la imagen para extraer de ella informaciones y decidir de lo que pasa a continuación: la corteza visual y el encéfalo.

Figura 3: Dibujo de un ojo visto de perfil composición del ojo

El ojo tiene varias funciones enumeradas anteriormente. El nervio óptico transmite las señales captadas por el ojo al cerebro. La corteza visual trata las señales recibidas, las analiza para extraer informaciones esenciales luego clasifica esos elementos para permitir la apreciación de nuestro medio-ambiente (reconocimiento de los objetos, de las formas, de las caras y de los colores etc...). Todo el análisis se hace de manera inconsciente por nuestro cerebro. Este análisis es también el fruto de un aprendizaje a lo largo de nuestra infancia.

Ahora pasemos a la visión por ordenador:

La visión por ordenador asocia varios elementos para captar, transmitir, tratar y analizar las informaciones al copiar el funcionamiento del sistema visual humano.

En el marco de la visión artificial, intentamos dominar varios criterios porque los sistemas existentes no son tan adaptables como el ojo y el cerebro humano.

Empezamos por elegir un sensor/una cámara (1)[1] según varios criterios:

– Tipo de aplicaciones: sensor lineal, o sensor matricial,

– Elemento el mas pequeño que queremos detectar

– Velocidad de adquisición querida

– Tipo de alimentación querido

– Etc...

Figura 4: Foto de ilustración de cámara de visión

Elegimos después la fuente de la luz (2) que permite poner de relieve el máximo de elementos que queremos detectar.

Además del tipo de fuente, también cuenta la geometría de la fuente. Permite maximizar el contraste entre el fondo (los elementos de segundo plano) y el sujeto (objeto que queremos detectar o ver). Las principales geometrías conocidas son :

– iluminación rasante: pone de relieve los defectos de las superficies

igura 5: Esquema de ilustración de una configuración con iluminación rasante

Iluminación coaxial: pone de relieve los defectos de planitude

Figura 6: Esquema de ilustración de una configuración con iluminación coaxial

Retroiluminación: pone de relieve los contornos de los objetos (medida de longitud).

Figura 7: Esquema de ilustración de una configuración con retroiluminación

Figura 8: Foto de ilustración de una fuente de luz Effilux

Elegimos luego el objetivo, (3) cuya elección está igualmente sometida a varios criterios:

– Tamaño del sensor de la cámara

– Circulo de plena luz del objetivo

– Distancia entre el sensor y el elemento observado

– Tipo de tratamiento de vidrios

– Longitud de las ondas de la fuente

– Etc.

Figura 9: Foto de ilustración de un teleobjetivo

El objetivo permite enfocar la luz. Esa está entonces dirigida hacia el sensor.

Figura 10: Foto de ilustración de una vista transparente de una cámara de foto numérica

Las imágenes están transmitidas del sensor (la cámara) vía unos cables eléctricos o por fibra óptica o sin hilo (vía wi-fi) hacia una unidad de tratamiento. Esta unidad de tratamiento puede ser un ordenador, una tarjeta electrónica de tipo FPGA, un servidor o una tarjeta de tratamiento de otra imagen.

Esta unidad de tratamiento tiene el mismo papel que aquel de la corteza visual. Se habla entonces de tratamiento de imagen (image processing). La unidad hace entonces un pretratamiento de imagen, permite mejorar la visibilidad de las informaciones de interés. Luego viene una fase de detección y de tratamiento para extraer las características de los elementos a la imagen. Para terminar, viene la fase de análisis de los datos extractos para extraer un veredicto.

Figura 11: Captura de pantalla de la visión de un Terminator, con identificación extracto del vídeo « the real augmented reality terminator vision »

En la imagen mas arriba (extracta de la pelicula Terminator) vemos que los contornos de las formas de la cara son mas visibles y mas geométricas, lo que podría ser el resultado de un pre-tratamiento de imagen. Este va a buscar poner de relieve los contornos de objetos por observar.

Figura 12: Cara extracta de la figura precendente

La fase de analisis y de extraccion de atributos, podria dar un resultado de tipo :

– Distancia entre los ojos= 5cm

– Superficie de la boca= 3cm²

– Longitud de la nariz= 4cm

– Posicion de la nariz= 15 cm

Despuès de la recuperacion de estos datos (extraccion de atributos) y de su tratamiento, el veredicto esta dado (la clasificacion). En esta imagen el veredicto esta representado como :

– El reconomiento del individuo : hombre/mujer etc.

– El reconocimiento de la expression facial : agresivo/feliz/triste/cabreado/miedoso etc...

Figura 13: Extracción de la figura 11

Figura 14: Esquema recapitulativo de la cadena de adquisición y tratamiento en visión artificial

Cuando hacemos la visión por ordenador, hay que saber precisamente lo que queremos ver o detectar. Luego elegimos los elementos de la cadena de adquisición, sus posicionamientos y todo lo que nos permite poner de relieve lo que buscamos. Después, podemos adquirir la imagen. Esta imagen este luego pretratada, después analizada (segmentación, extracción de los atributos). Los elementos de la imagen están entonces clasificados, permitiendo así la toma de decisión.

En el Ser Humano, esto puede ser traducido por:

Veo un elemento, adquiero informaciones: dos ojos, cuatro patas, un tamaño en la cruz entre 70 y 80 cm, la boca que se abre y se cierra rápido, pelos, etc. Esta fase es la extracción de atributos. Mi cerebro clasifica los elementos y reconoce un perro. Huyo, o me acerco: se trata de la toma de decisión.

De ahora en adelante, han tenido una vista previa de lo que es la visión por ordenador. Más allá de las aplicaciones lúdicas (filtros Snap, reconocimiento facial etc.), muchas industrias recurren a ella para el control de calidad, en los coches autónomos, para la vigilancia en los transportes públicos o en las zonas sensibles, como las centinelas Samsung SGR-A1, etc. Pero este ámbito todavía desconocido les reserva muchos secretos mas. Nos dedicaremos a descubrirlos en su momento.

Fuentes :

1. Extraction des images sur les sites suivants (dans l’ordre d’apparition des images)

2. http://intelligence-artificielle-tpe.e-monsite.com/album-photos/robots-de-fiction/ns-5sonny.html

3. Vision du Terminator : https://www.youtube.com/watch?v=6uPUhqR6zCo

4. https://fr.wikipedia.org/wiki/%C5%92il_humain

5. http://www.mesures.com/pdf/old/828-dossier-Keyence-critere-choix.pdf

[1](1) orden con el cual elegimos los diferentes elementos de la cadena de adquisición en visión automática.