¿Para qué puede usarse el gigantesco volumen de datos de millones de internautas que acceden a la Wikipedia? Entre otras cuestiones prácticas para detectar e incluso «predecir» los brotes de enfermedades como la gripe. Esta es la conclusión a la que han llegado los investigadores David J. McIver y John S. Brownstein tal y como publica la revista del área de biología computacional de la Public Library Of Science estadounidense. (Ver: Wikipedia Usage Estimates Prevalence of Influenza-Like Illness in the United States in Near Real-Time.)
Este trabajo se ha llevado a cabo con un volumen ingente de datos recopilado durante seis años (2007 a 2013) procedentes de Wikipedia, la enciclopedia libre de Internet. El trabajo consistió principalmente en comparar las búsquedas realizadas sobre cierto tipo de artículos con las temporadas de gripe y enfermedades similares que surgen periódicamente. El planteamiento era encontrar cierta correlación entre el comportamiento de los internautas que accedían a la Wikipedia para consultar sobre cuestiones y síntomas típicos de esa enfermedad y las zonas y fechas en que el CDC (Centro de Control y Prevención de Enfermedades) catalogó los brotes de dichas enfermedades.
Entre los términos de búsqueda examinados se utilizaron (en inglés) palabras como «gripe aviar», «centro de control de enfermedades», «resfriado común», «epidemia», «fiebre», «gripe humana», «vacuna para la gripe» y otros similares – un conjunto de las que la gente corriente suele buscar cuando tiene una enfermedad de ese tipo, ya sea gripe o un resfriado.
Según han calculado, el modelo matemático de estos investigadores mejoró un 17 por ciento las estimaciones realizadas por Google en su servicio Google Flu Trends, que está basado en una idea similar pero sobre términos utilizados en su buscador y en las noticias. Otras ideas parecidas son las que llevan a cabo investigadores como los de Influenzanet (GripeNet.es en España) realizando encuestas voluntarias a ciudadanos anónimos a través de Internet.
La principal diferencia entre ideas como GripeNet es que el nuevo modelo que utiliza los datos masivos de la Wikipedia puede utilizarse en tiempo real, a pesar de su gran volumen, e incluso es capaz de anticipar en unas dos semanas los datos oficiales que ofrecen los centros de control de enfermedades. Aunque el método no es perfecto pues puede verse afectado –como ya apuntan los autores– por «alarmas sociales» generadas por los medios de comunicación, es desde luego un avance interesante en este tipo de aplicaciones. Modelos similares se aplican también a negocios y otros proyectos para anticipar ventas de productos, necesidades logísticas y similares.
Foto | H1N1 Influenza Virus Particles –coloreado por ordenador– (CC) NIAID @ Flickr
Más información sobre soluciones Biga Data en la Web de T-Systems
Deja tu comentario sobre "Cómo millones de consultas a la Wikipedia pueden predecir los brotes de gripe"