La relación entre dos campos relacionados con la inteligencia artificial, el procesamiento natural del lenguaje y el reconocimiento visual, ha llevado a unos investigadores del M.I.T. a descubrir un nuevo tipo de algoritmo capaz de funcionar de forma más eficiente a la hora de que un ordenador «entienda» lo que está sucediendo en un vídeo.

El uso de las comillas no es accidental: los avances tecnológicos son tan impactantes pero invisibles a veces que tendemos a atribuirles cualidades humanas a las máquinas, tales como «pensar», «crear» o «entender». Pero cuando eso se vuelve una actividad cotidiana es normal y casi más práctico hablar de ordenadores que escuchan, ven o incluso piensan lo que están haciendo.

En este caso se trataba de mejorar la forma en que se reconocen acciones en un vídeo lanzando consultas al algoritmo. Las pruebas se realizaban utilizando una versión reducida del mundo en el que hay imágenes y unas pocas posibilidades: que el deporte que se estaba viendo fuera salto de longitud, tenis, bolos, lanzamiento de pértiga… hasta ocho en total.

Normalmente lo que hace el ordenador es examinar un fotograma y tratar de diferenciar los objetos, buscando un patrón que reconozca: una pelota, una jabalina o una persona en posición de levantamiento. Comparándolo con imágenes preprogramadas puede calcular con qué porcentaje de probabilidad lo que muestra la imagen coincide; el resultado es un valor probabilístico del tipo «es probable en un 95% que la persona esté lanzando una jabalina».

Pero el problema es que ha de realizar el mismo proceso completo para cada fotograma que se le muestra, normalmente examinando el vídeo completo. Y por desgracia si el tamaño del vídeo se multiplica por 10 algunos de los algoritmos clásicos requieren cien o mil veces más tiempo a la hora de realizar los cálculos – pues han de relacionar unas partes con otras.

Los tiempos del nuevo algoritmo crecen linealmente con el tamaño de los vídeos (en este caso, diez veces más tiempo para un vídeo diez veces más grande). Lo que hacen es integrar parte de lo que ya se conoce sobre procesamiento natural del lenguaje, intentando buscar cierto «sentido» a las escenas completas y similares. El «lenguaje natural» permite hacer consultas a las bases de datos de formas más humanas: se pueden utilizar sinónimos y una mayor variedad semántica; internamente representa la información como entidades más abstractas y normalmente se basa en una especie de «gramática» preparada de antemano dependiendo del contexto.

Estas técnicas aplicadas a una escena de vídeo producen un resultado curioso. Si por ejemplo un jugador lanza una bola implica reconocer los elementos individuales (persona, bola, pista, bolos…) y asignarles unas relaciones. Esas relaciones resultan tener su lógica del mismo modo que lo tiene el lenguaje (sujeto-verbo-adverbio). Algunas pueden estar predefinidas y otras «aprenderse» a partir de hipótesis, tales como que las jabalinas no lanzan a las personas o que las pelotas de tenis no desaparecen de la pista por arte de magia. También se aprenden factores menos importantes, como que no importa mucho si un balón es de un color u otro o si la velocidad de una carrera es ligeramente distinta.

El resultado es que se pueden ahorrar muchos cálculos que de otra forma habría que realizar porque no encajan con las hipótesis. Y además puede hacerse sobre partes de una escena, de modo que resulta práctico para el vídeo en streaming que es tan popular en Internet, a diferencia de los algoritmos que requieren disponer de todo el vídeo al completo de forma local para examinarlo.

A pesar de las limitaciones de las versiones preliminares y su reducido campo de aplicación, sus creadores creen que las ideas podrían aplicarse a campos como la medicina y otros similares: detección de acciones, cuidado de enfermos y otros, dado que solo sería cuestión de encontrar se encuentre en cada uno de ellos esa «gramática» que define lo que sucede en general en las acciones que se están examinando o bien dejar que los ordenadores la desarrollen a partir de sus hipótesis y experiencias.

Deja tu comentario sobre "Las técnicas del lenguaje natural pueden aplicarse a la visión artificial"

Nos encantará conocer tu opinión, pero primero tenemos que indicarte que los comentarios están moderados, y no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos a los autores, a cualquier otro comentarista o la empresa propietaria de esta página. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades o suplantando a otros comentaristas. También, procura que tus opiniones estén relacionadas con lo que se comenta en esta entrada. Los comentarios off-topic, promocionales, o que incumplan todas estas normas básicas serán eliminados.


Presto mi consentimiento para que, de acuerdo a la normativa europea de protección de datos, T-Systems ITC Iberia S.A.U trate mis datos personales con la finalidad de identificar al autor del comentario previo. Estos datos se pueden ceder a las empresas del grupo Deutsche Telekom AG. Está prevista la realización de transferencias a Francia. Puede ejercer sus derechos de acceso, rectificación, supresión, limitación, oposición y portabilidad de datos solicitándolo por escrito a: T-Systems ITC Iberia SAU, Calle Sancho de Ávila, 110. 08018 Barcelona, o a través de correo electrónico a FMB.TS-IB-PROTEC-DATOS-PERSONALES@t-systems.com, adjuntando en todo caso un documento acreditativo de su identidad. A su vez, puede dirigir cualquier consulta al Delegado de Protección de Datos a la dirección indicada anteriormente.