En el blog formativo de GreyCampus hay toda una interesante sección dedicada al Big Data, donde publicaron hace poco acerca de los errores más graves que se pueden cometer al utilizar esta tecnología en un proyecto. Los detalles están en Grave Mistakes that Companies Make in Big Data Projects y se pueden extraer algunas lecciones interesantes:

La razón de ser y los requerimientos: utilizar la tecnología Big Data porque «está de moda» no es siempre es la mejor opción para todas las empresas. Es algo que necesita unas razones de ser convincentes, lo que en inglés suele denominarse «business case» y además unos requerimientos al respecto que encajen con esas razones. Si no hay motivos para crear nuevas herramientas ni se sabe qué se pretende conseguir o qué se va a medir, el fracaso del proyecto está garantizado.

Revelancia y calidad de los datos: Muchos proyectos tienden a subestimar la relevancia de los datos disponibles y sobreestimar su calidad. En general los datos más estructurados son los más relevantes, pues se supone que han pasado por un análisis previo adecuado, lo cual no implica que no se puedan usar otros adicionales para mejorarlos. Y respecto a la calidad, usar datos que no han pasado por filtros previos simplemente porque «son muchos», para mejorar su precisión o garantizar su consistencia (especialmente grandes volúmenes de textos, contenidos procedentes de redes sociales o datos semi-estructurados) puede echar al traste cualquier trabajo posterior.

Fallos de contexto: Los datos por sí mismos pueden inducir a errores en cualquier algoritmo si no se consideran dentro del contexto adecuado. En el caso del trabajo con textos es fácil en grandes trabajos estadísticos ver cómo se ignoran o malinterpretan palabras mal escritas, sinónimos o bien términos polisémicos u homógrafos. Si en los procesos de tratamiento de la información se utilizan categorizaciones, taxonomías u otras técnicas similares es importante comprobar que tratan todos estos casos correctamente; de no ser así a partir de ese punto pueden surgir muchos problemas y obtenerse resultados sin sentido.

Fallos de preparación: vivimos en un mundo de datos complejos cuya preparación para el procesamiento no es para nada trivial. Los proyectos Big Data suelen recoger por definiación datos de fuentes muy diversas y a veces esas fuentes no son para nada consistentes en cuanto a formatos. En la propia operación de captura de datos y metadatos pueden darse errores con fallos en los formatos de fechas y horas, puntos y comas en los números, monedas, unidades, datos ambiguos, caracteres especiales… Son detalles hostiles para quienes procesan los datos pero que por desgracia están ahí y con los que hay que convivir para poder gestionarlos masivamente de manera adecuada.

{Foto: Big Data Higgs (CC) KamiPhuc @ Flickr}

Deja tu comentario sobre "También al trabajar con Big Data se cometen errores"

Nos encantará conocer tu opinión, pero primero tenemos que indicarte que los comentarios están moderados, y no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos a los autores, a cualquier otro comentarista o la empresa propietaria de esta página. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades o suplantando a otros comentaristas. También, procura que tus opiniones estén relacionadas con lo que se comenta en esta entrada. Los comentarios off-topic, promocionales, o que incumplan todas estas normas básicas serán eliminados.


Presto mi consentimiento para que, de acuerdo a la normativa europea de protección de datos, T-Systems ITC Iberia S.A.U trate mis datos personales con la finalidad de identificar al autor del comentario previo. Estos datos se pueden ceder a las empresas del grupo Deutsche Telekom AG. No está prevista la realización de transferencias a terceros. Puede ejercer sus derechos de acceso, rectificación, supresión, limitación, oposición y portabilidad de datos solicitándolo por escrito a: T-Systems ITC Iberia SAU, Carrer Pere IV, 313. 08020 Barcelona, o a través de correo electrónico a FMB.TS-IB-PROTEC-DATOS-PERSONALES@t-systems.com. A su vez, puede dirigir cualquier consulta al Delegado de Protección de Datos a la dirección indicada anteriormente con la finalidad de identificar el autor del comentario previo y gestionar su consulta si fuera el caso.