Un sistema de visión artificial que imita cómo identificamos los objetos

La visión artificial es uno de los mayores retos que se pueden presentar en este campo de investigación. Los sistemas de visión artificial actuales son cada vez más potentes y capaces, pero son específicos para cada tarea. Esto quiere decir que su capacidad para identificar lo que ven está limitada por la cantidad de entrenamiento que reciben, y por la programación que realizan los humanos.

El resultado es que un sistema de visión artificial “normal” basado en machine learning no va a ser capaz de inferir que, tras una silla, hay un perro si solo es capaz de ver la cola o el hocico. Y tampoco va a ser capaz de estimar la posición del resto del cuerpo del animal, como sí podemos hacer los humanos. Falta algo en el sistema de visión artificial para lograr superar esa barrera.

Ese algo es lo que un grupo de investigadores de UCLA y la Universidad de Stanford han logrado conseguir: un sistema de visión computarizado que es capaz de descubrir e identificar los objetos del mundo real que «ve» basándose en el mismo método de aprendizaje visual que utilizan los humanos.

La diferencia fundamental de este sistema con los ya existentes es que está diseñado para aprender por sí mismo. Por el contrario, los sistemas de machine learning actuales aprenden aquello que indican los operadores humanos. El entrenamiento típico de un sistema basado en machine learning consiste en recibir un conjunto relevante de datos de entrada (en este caso, imágenes) que están previamente catalogados y etiquetados. Estos sistemas consiguen una precisión muy alta… pero solo para una tarea específica y siempre y cuando se les presente de la manera que conocen.

El proceso de entrenamiento suele ser complejo, aunque Internet ayuda mucho a la hora de seleccionar imágenes desde diferentes ángulos, con diferente exposición, sombras y demás “ruido”. Con todo esto, los sistemas de aprendizaje automático no son capaces de “hacerse una idea” de qué están observando en cada momento.

Un sistema de #visionartificial capaz de imitar la manera en que los humanos reconocen su entorno ayudará en tareas críticas en materia de seguridad Clic para tuitear

Así es el proceso de esta nueva “visión computarizada” propuesta por los investigadores:

Primero, el sistema divide una imagen en partes pequeñas, que los investigadores llaman «viewlets». En segundo lugar, la computadora aprende cómo esos viewlets se unen para formar el objeto en cuestión. Y, por último, analiza qué otros objetos se encuentran en el área circundante y si la información sobre esos objetos es o no relevante para describir e identificar el objeto primario.

Es un proceso similar al de crear un puzle a partir de una imagen y desordenar las piezas para volver a formar la imagen en cuestión, con el añadido del reconocimiento de los objetos circundantes, que aportaría el contexto al resultado.

Un sistema que es capaz de imitar la manera en que los humanos ven y reconocen su entorno será un sistema más capacitado para realizar tareas críticas en materia de seguridad como, por ejemplo, reconocer una persona determinada, aunque haya cambiado de peinado, lleve gafas, se haya dejado bigote… O mejorar considerablemente las prestaciones en los coches autónomos. Además, abre la puerta a lograr modelos que sean capaces de inferir una propiedad o una característica a partir de información parcial.

Deja tu comentario sobre "Un sistema de visión artificial que imita cómo identificamos los objetos"