La visión artificial, también conocida bajo el nombre de
visión por ordenador es un término que no evoca gran cosa para mucha gente a
primera vista. Se trata de una rama de la inteligencia artificial que aspira a
copiar o inspirarse del funcionamiento de los sistemas de visión humanos y
adaptarlos a unas maquinas. Han visto ejemplo de aquello en obras de
ciencia-ficción tales como los robots Terminator o también los robots NS-5 Sony
de la película “I, Robot”. La utilizan
para evolucionar en sus medio-ambientes respectivos. Pero sepan ustedes que la
visión por ordenador no es ciencia-ficción y existe también en el mundo real en
menor medida. Han tenido que cruzarse a
menudo con ella en sus vidas diarias y eso sin darse cuenta siquiera. Según su
opinión, ¿cómo su Smartphone se desbloquea al reconocer su cara?, ¿Cómo su
cámara sabe donde aplicar el filtro Snap?

Figura 1: Robot NS-5 de la pelicula I robot Captura
Pero antes de explicarles lo que
es la visión artificial, recordemos cómo funciona la visión humana.
Cuando la luz creada por una
fuente luminosa alcanza un objeto, este absorba una parte de esta luz y refleja
otra parte de ella. Esos rayos luminosos reflejados alcanzan el ojo del
observador. En este ojo la córnea hace convergir la luz en el humor acuoso
hacia el cristalino, que el mismo hace convergir la luz en el humor vítreo
sobre la retina. El ojo es el
conjunto dióptrico que permite
enviar la luz hacia el sensor.
El sensor del sistema visual humano es la retina. Se
compone de varias capas de células, los conos (que sirven a la visión
diurna en color) y los bastones (que sirven a la visión nocturna y nivel
de gris). Las células de este sensor captan un máximo de informaciones, estas
son enviadas vía el nervio óptico hacia las diferentes áreas de la corteza cerebral que van a utilizar esas señales recibidas para extraer
la información útil y analizar las
escenas.

figura 2: Dibujo del ojo visto de perfil con el
camino rayos luminosos
Para ver, hace falta un órgano
que:
– Enfoca/guiá la luz sobre un sensor: Córnea y Cristalino.
– Sirve de sensor sobre
el cual se forma la imagen de la escena observada: Retina.
– Sirve de cable por el cual transita la información que llega del sensor: Nervio óptico.
– Que es capaz de analizar
la imagen para extraer de
ella informaciones y decidir de lo que pasa a continuación: la corteza visual y el
encéfalo.

Figura 3: Dibujo de un ojo visto de perfil
composición del ojo
El ojo tiene varias funciones
enumeradas anteriormente. El nervio óptico transmite las señales captadas por
el ojo al cerebro. La corteza visual trata las señales recibidas, las analiza
para extraer informaciones esenciales luego clasifica esos elementos para
permitir la apreciación de nuestro medio-ambiente (reconocimiento de los
objetos, de las formas, de las caras y de los colores etc...). Todo el análisis
se hace de manera inconsciente por nuestro cerebro. Este análisis es también el
fruto de un aprendizaje a lo largo de nuestra infancia.
Ahora pasemos a la visión por
ordenador:
La visión por ordenador asocia
varios elementos para captar, transmitir, tratar y analizar las informaciones
al copiar el funcionamiento del sistema visual humano.
En el marco de la visión
artificial, intentamos dominar varios criterios porque los sistemas existentes
no son tan adaptables como el ojo y el cerebro humano.
Empezamos por elegir un sensor/una cámara (1)[1] según varios criterios:
– Tipo de aplicaciones: sensor lineal, o sensor matricial,
– Elemento el mas pequeño que queremos detectar
– Velocidad de adquisición querida
– Tipo de alimentación querido
– Etc...

Figura 4: Foto de ilustración de cámara de visión
Elegimos después la fuente de la luz (2) que permite poner de relieve el máximo de elementos
que queremos detectar.
Además del tipo de fuente,
también cuenta la geometría de la fuente. Permite maximizar el contraste entre
el fondo (los elementos de segundo plano) y el sujeto (objeto que queremos
detectar o ver). Las principales geometrías conocidas son :
– iluminación rasante: pone de relieve los defectos de las
superficies

igura 5: Esquema de ilustración de una configuración
con iluminación rasante
Iluminación coaxial: pone de
relieve los defectos de planitude

Figura 6: Esquema de ilustración de una
configuración con iluminación coaxial
Retroiluminación:
pone de relieve los contornos de los objetos (medida de longitud).

Figura 7: Esquema de ilustración de una
configuración con retroiluminación

Figura 8: Foto de ilustración de una fuente de luz
Effilux
Elegimos luego el objetivo, (3) cuya elección está
igualmente sometida a varios criterios:
– Tamaño del sensor de la cámara
– Circulo de plena luz del objetivo
– Distancia entre el sensor y el elemento observado
– Tipo de tratamiento de vidrios
– Longitud de las ondas de la fuente
– Etc.

Figura 9: Foto de ilustración de un teleobjetivo
El objetivo permite enfocar la luz. Esa está entonces
dirigida hacia el sensor.

Figura 10: Foto de ilustración de una vista
transparente de una cámara de foto numérica
Las imágenes están transmitidas
del sensor (la cámara) vía unos cables eléctricos o por fibra óptica o sin hilo
(vía wi-fi) hacia una unidad de tratamiento. Esta unidad de tratamiento puede
ser un ordenador, una tarjeta electrónica de tipo FPGA, un servidor o una
tarjeta de tratamiento de otra imagen.
Esta unidad de tratamiento tiene
el mismo papel que aquel de la corteza visual. Se habla entonces de tratamiento
de imagen (image processing). La unidad hace entonces un pretratamiento de
imagen, permite mejorar la visibilidad de las informaciones de interés.
Luego viene una fase de detección y de tratamiento para extraer las
características de los elementos a la imagen. Para terminar, viene la fase de análisis
de los datos extractos para extraer un veredicto.

Figura 11: Captura de pantalla de la visión de un
Terminator, con identificación extracto del vídeo «the real augmented
reality terminator vision»
En la imagen mas arriba (extracta
de la pelicula Terminator) vemos que los contornos de las formas de la cara son
mas visibles y mas geométricas, lo que podría ser el resultado de un
pre-tratamiento de imagen. Este va a buscar poner de relieve los contornos de objetos
por observar.

Figura 12: Cara extracta de la figura precendente
La fase de analisis y de
extraccion de atributos, podria dar un resultado de tipo:
– Distancia entre los ojos= 5cm
– Superficie de la boca= 3cm²
– Longitud de la nariz= 4cm
– Posicion de la nariz= 15 cm
Despuès de la recuperacion de
estos datos (extraccion de atributos) y de su tratamiento, el veredicto esta
dado (la clasificacion). En esta imagen el veredicto esta representado
como:
– El reconomiento del individuo: hombre/mujer etc.
– El reconocimiento de la expression facial:
agresivo/feliz/triste/cabreado/miedoso etc...

Figura 13: Extracción de la figura 11

Figura 14: Esquema recapitulativo de la cadena de
adquisición y tratamiento en visión artificial
Cuando
hacemos la visión por ordenador, hay que saber precisamente lo que queremos ver
o detectar. Luego elegimos los elementos de la cadena de adquisición, sus
posicionamientos y todo lo que nos permite poner de relieve lo que buscamos.
Después, podemos adquirir la imagen. Esta imagen este luego pretratada, después
analizada (segmentación, extracción de los atributos). Los elementos de la
imagen están entonces clasificados, permitiendo así la toma de decisión.
En el Ser Humano, esto puede ser traducido por:
Veo un elemento, adquiero informaciones: dos ojos, cuatro
patas, un tamaño en la cruz entre 70 y 80 cm, la boca que se abre y se cierra
rápido, pelos, etc. Esta fase es la extracción de atributos. Mi cerebro
clasifica los elementos y reconoce un perro. Huyo, o me acerco: se trata de la
toma de decisión.
De ahora en adelante, han tenido
una vista previa de lo que es la visión por ordenador. Más allá de las
aplicaciones lúdicas (filtros Snap, reconocimiento facial etc.), muchas
industrias recurren a ella para el control de calidad, en los coches autónomos,
para la vigilancia en los transportes públicos o en las zonas sensibles, como
las centinelas Samsung SGR-A1, etc. Pero este ámbito todavía desconocido les
reserva muchos secretos mas. Nos dedicaremos a descubrirlos en su momento.
Fuentes:
1. Extraction des images sur les
sites suivants (dans l’ordre d’apparition des images)
2. http://intelligence-artificielle-tpe.e-monsite.com/album-photos/robots-de-fiction/ns-5sonny.html
3. Vision du Terminator: https://www.youtube.com/watch?v=6uPUhqR6zCo
4. https://fr.wikipedia.org/wiki/%C5%92il_humain
5. http://www.mesures.com/pdf/old/828-dossier-Keyence-critere-choix.pdf
[1](1) orden con
el cual elegimos los diferentes elementos de la cadena de adquisición en visión
automática.
Comentarios : (0)
Sin comentarios