En el blog formativo de GreyCampus hay toda una interesante sección dedicada al Big Data, donde publicaron hace poco acerca de los errores más graves que se pueden cometer al utilizar esta tecnología en un proyecto. Los detalles están en Grave Mistakes that Companies Make in Big Data Projects y se pueden extraer algunas lecciones interesantes:
La razón de ser y los requerimientos: utilizar la tecnología Big Data porque «está de moda» no es siempre es la mejor opción para todas las empresas. Es algo que necesita unas razones de ser convincentes, lo que en inglés suele denominarse «business case» y además unos requerimientos al respecto que encajen con esas razones. Si no hay motivos para crear nuevas herramientas ni se sabe qué se pretende conseguir o qué se va a medir, el fracaso del proyecto está garantizado.
Revelancia y calidad de los datos: Muchos proyectos tienden a subestimar la relevancia de los datos disponibles y sobreestimar su calidad. En general los datos más estructurados son los más relevantes, pues se supone que han pasado por un análisis previo adecuado, lo cual no implica que no se puedan usar otros adicionales para mejorarlos. Y respecto a la calidad, usar datos que no han pasado por filtros previos simplemente porque «son muchos», para mejorar su precisión o garantizar su consistencia (especialmente grandes volúmenes de textos, contenidos procedentes de redes sociales o datos semi-estructurados) puede echar al traste cualquier trabajo posterior.
Fallos de contexto: Los datos por sí mismos pueden inducir a errores en cualquier algoritmo si no se consideran dentro del contexto adecuado. En el caso del trabajo con textos es fácil en grandes trabajos estadísticos ver cómo se ignoran o malinterpretan palabras mal escritas, sinónimos o bien términos polisémicos u homógrafos. Si en los procesos de tratamiento de la información se utilizan categorizaciones, taxonomías u otras técnicas similares es importante comprobar que tratan todos estos casos correctamente; de no ser así a partir de ese punto pueden surgir muchos problemas y obtenerse resultados sin sentido.
Fallos de preparación: vivimos en un mundo de datos complejos cuya preparación para el procesamiento no es para nada trivial. Los proyectos Big Data suelen recoger por definiación datos de fuentes muy diversas y a veces esas fuentes no son para nada consistentes en cuanto a formatos. En la propia operación de captura de datos y metadatos pueden darse errores con fallos en los formatos de fechas y horas, puntos y comas en los números, monedas, unidades, datos ambiguos, caracteres especiales… Son detalles hostiles para quienes procesan los datos pero que por desgracia están ahí y con los que hay que convivir para poder gestionarlos masivamente de manera adecuada.
{Foto: Big Data Higgs (CC) KamiPhuc @ Flickr}
Deja tu comentario sobre "También al trabajar con Big Data se cometen errores"