Funciones de sensibilidad al contraste en codificadores automáticos

20 Jun, 2022 | Ciencias de la imagen

Diferencias y paralelismos entre la visión humana y la visión de las redes neuronales artificiales.

La inteligencia artificial tiene entre otros muchos objetivos el poder modelar matemáticamente los procesos de percepción visual de los seres vivos de la forma más precisa posible para así poder generar modelos que permitan simular estas capacidades visuales en una computadora.

El proceso de visión por computadora puede subdividirse en seis áreas principales:

  • Visión de bajo nivel
    1. Sensado: Es el proceso que nos lleva a la obtención de una imagen visual
    2. Preprocesamiento: Trata de las técnicas de reducción de ruido y enriquecimiento de detalles en la imagen
    3. Segmentación: Es el proceso que particiona una imagen en objetos de interés.
  • Visión de bajo nivel
    1. Descripción: Trata con el cómputo de características útiles para diferenciar un tipo de objeto de otro.
    2. Reconocimiento: Es el proceso que identifica esos objetos.

Dentro de estos modelos matemáticos que pueden actuar y trabajar simulando la visión humana están las llamadas redes neuronales convolucionales donde las neuronas artificiales corresponden a campos receptivos de una manera muy similar a las neuronas en la corteza visual primaria de un cerebro biológico. Estas redes se componen de muchas capas de proceso, muy efectivas para tareas de visión artificial, como en la clasificación y segmentación de imágenes, entre otras aplicaciones.

Hoy en día está muy aceptado crear paralelismos entre las redes neuronales y la visión biológica, estudiando esta última a partir de la forma en que se desarrollan las redes neuronales artificiales.

Sin embargo, una reciente investigación realizada por un equipo internacional formado por investigadores del Laboratorio de Procesado de Imágenes de la Universitat de València, el Centro de Visión por Computador de la Universitat Autónoma de Barcelona y el Instituto de Óptica del CSIC ha hecho un estudio comparativo de diversas redes neuronales llegado a las siguientes conclusiones:

Los investigadores han entrenado un tipo muy popular de redes neuronales convolucionales simples, con pocas capas, para que haga operaciones básicas de restauración de imágenes (como eliminar ruido o realzar el contraste) que se sabe que se hacen en el sistema visual humano: en ese caso la red neuronal desarrolla, además, otras propiedades similares a las de la visión humana, como por ejemplo curvas de sensibilidad al contraste similares.

Repeticiones de lamima imagen con distindas distorsiones

objetivos funcionales. Los posibles objetivos de bajo nivel de los codificadores automáticos son compensar las siguientes distorsiones en la entrada visual.

¿Qué es la función de sensibilidad al contraste?

La Función de Sensibilidad al Contraste (CSF), es un parámetro que nos sirve para evaluar la calidad del sistema visual, ya que nos proporciona una información subjetiva de cómo las personas ven las formas de un objeto, detectando la presencia de diferencias mínimas de luminosidad entre objetos o áreas.

A continuación de este resultado, los investigadores han mostrado que las redes neuronales convolucionales más profundas (que han demostrado su capacidad para resolver problemas de clasificación de imágenes complejas utilizando millones de parámetros,
aprendiendo con grandes bases de datos y capaces por ejemplo de reconocer emociones en imágenes de caras humanas), entrenadas para la misma tarea de restauración de imágenes, la realizan mejor que las redes simples pero emulan peor que ellas otras propiedades de la visión humana (como las funciones de sensibilidad al contraste antes citadas).

Este interesante resultado de bajo nivel (para las redes exploradas) no está necesariamente en contradicción con otros trabajos que muestran avances de las redes más profundas en el modelado de objetivos de visión de nivel superior. Sin embargo, proporcionan una advertencia sobre el cuidado que hay que tener en el uso de las redes neuronales convolucionales en la ciencia de la visión, porque el uso de unidades simplificadas o arquitecturas poco realistas en la optimización de objetivos puede dar lugar a modelos de efectividad limitada o que dificulten la comprensión de la visión humana.

Noticias relacionadas

Suscripción