La relación entre dos campos relacionados con la inteligencia artificial, el procesamiento natural del lenguaje y el reconocimiento visual, ha llevado a unos investigadores del M.I.T. a descubrir un nuevo tipo de algoritmo capaz de funcionar de forma más eficiente a la hora de que un ordenador «entienda» lo que está sucediendo en un vídeo.
El uso de las comillas no es accidental: los avances tecnológicos son tan impactantes pero invisibles a veces que tendemos a atribuirles cualidades humanas a las máquinas, tales como «pensar», «crear» o «entender». Pero cuando eso se vuelve una actividad cotidiana es normal y casi más práctico hablar de ordenadores que escuchan, ven o incluso piensan lo que están haciendo.
En este caso se trataba de mejorar la forma en que se reconocen acciones en un vídeo lanzando consultas al algoritmo. Las pruebas se realizaban utilizando una versión reducida del mundo en el que hay imágenes y unas pocas posibilidades: que el deporte que se estaba viendo fuera salto de longitud, tenis, bolos, lanzamiento de pértiga… hasta ocho en total.
Normalmente lo que hace el ordenador es examinar un fotograma y tratar de diferenciar los objetos, buscando un patrón que reconozca: una pelota, una jabalina o una persona en posición de levantamiento. Comparándolo con imágenes preprogramadas puede calcular con qué porcentaje de probabilidad lo que muestra la imagen coincide; el resultado es un valor probabilístico del tipo «es probable en un 95% que la persona esté lanzando una jabalina».
Pero el problema es que ha de realizar el mismo proceso completo para cada fotograma que se le muestra, normalmente examinando el vídeo completo. Y por desgracia si el tamaño del vídeo se multiplica por 10 algunos de los algoritmos clásicos requieren cien o mil veces más tiempo a la hora de realizar los cálculos – pues han de relacionar unas partes con otras.
Los tiempos del nuevo algoritmo crecen linealmente con el tamaño de los vídeos (en este caso, diez veces más tiempo para un vídeo diez veces más grande). Lo que hacen es integrar parte de lo que ya se conoce sobre procesamiento natural del lenguaje, intentando buscar cierto «sentido» a las escenas completas y similares. El «lenguaje natural» permite hacer consultas a las bases de datos de formas más humanas: se pueden utilizar sinónimos y una mayor variedad semántica; internamente representa la información como entidades más abstractas y normalmente se basa en una especie de «gramática» preparada de antemano dependiendo del contexto.
Estas técnicas aplicadas a una escena de vídeo producen un resultado curioso. Si por ejemplo un jugador lanza una bola implica reconocer los elementos individuales (persona, bola, pista, bolos…) y asignarles unas relaciones. Esas relaciones resultan tener su lógica del mismo modo que lo tiene el lenguaje (sujeto-verbo-adverbio). Algunas pueden estar predefinidas y otras «aprenderse» a partir de hipótesis, tales como que las jabalinas no lanzan a las personas o que las pelotas de tenis no desaparecen de la pista por arte de magia. También se aprenden factores menos importantes, como que no importa mucho si un balón es de un color u otro o si la velocidad de una carrera es ligeramente distinta.
El resultado es que se pueden ahorrar muchos cálculos que de otra forma habría que realizar porque no encajan con las hipótesis. Y además puede hacerse sobre partes de una escena, de modo que resulta práctico para el vídeo en streaming que es tan popular en Internet, a diferencia de los algoritmos que requieren disponer de todo el vídeo al completo de forma local para examinarlo.
A pesar de las limitaciones de las versiones preliminares y su reducido campo de aplicación, sus creadores creen que las ideas podrían aplicarse a campos como la medicina y otros similares: detección de acciones, cuidado de enfermos y otros, dado que solo sería cuestión de encontrar se encuentre en cada uno de ellos esa «gramática» que define lo que sucede en general en las acciones que se están examinando o bien dejar que los ordenadores la desarrollen a partir de sus hipótesis y experiencias.
Deja tu comentario sobre "Las técnicas del lenguaje natural pueden aplicarse a la visión artificial"