Tags:

Data lake es un término asociado a Big Data. Básicamente, es un repositorio de almacenamiento que contienen una gran cantidad de datos sin procesar. Esos datos se mantienen en ese almacenamiento hasta que sea necesario extraerlos para realizar algún tipo de procesamiento. El data lake utiliza una arquitectura plana (sin jerarquías) para almacenar los datos.

Esto los diferencia de los «data warehouse» jerárquicos, sistemas que almacena datos en ficheros o carpetas. En un data lake se asigna un identificador único a cada elemento de los datos, y de igual manera se etiquetan con metadatos para su posterior identificación. De esta manera, es sencillo obtener los datos correctos para cualquier cuestión que haya que resolver dentro de la organización y los procesos de negocio.

Características principales de un data Lake

  1. Permiten la búsqueda rápida y fácil de los datos. El data lake recoge todos los datos en bruto generados en entornos Big Data y los etiqueta, pero no están organizados. Para conseguir una búsqueda eficiente es necesario contar con algoritmos de machine learning avanzados que cumplan con esta tarea.
  2. Permite analizar correctamente y de manera muy rápida la protección de los datos sensibles e información almacenados en él. De esta manera, en el marco de las normativas más exigentes (como es el caso del RGPD), es más sencillo garantizar la seguridad y la privacidad de los datos sensibles.
  3. Es posible trabajar en tiempo real con los datos. De la misma manera, al poder operar en tiempo real es sencillo preparar y compartir rápidamente los datos fundamentales para extraer analíticas competitivas.
  4. La preparación y adecuación de los datos para su posterior análisis o uso se puede automatizar, algo que ahorra una gran cantidad de tiempo y recursos a los analistas de datos.

Gracias al data lake, se puede disponer de un repositorio al que volcar todos los datos que se generan. Es decir, permite centralizar los datos en un solo lugar accesible. Además, los datos pueden ser normalizados y enriquecidos de manera automática y, además, es posible acceder a ella desde cualquier punto, siempre que se trate de usuarios autorizados.

Los data lakes soportan cualquier tipo de datos, y los datos se conservan para siempre (no solo los que se utilizarán en la actualidad, sino también los que podrían necesitarse en un futuro). En el lado de las desventajas, los data lakes pueden llevar a que se obtenga información no del todo precisa, al contrario de lo que sucede con un Data Warehouse.

Esto es debido a su naturaleza no jerárquica. Por este motivo, un data lake es una herramienta indicada para los Data scientists, mientras que el Data Warehouse lo es para los profesionales de negocio.

Deja tu comentario sobre "¿Qué es un ‘data lake’?"

Nos encantará conocer tu opinión, pero primero tenemos que indicarte que los comentarios están moderados, y no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos a los autores, a cualquier otro comentarista o la empresa propietaria de esta página. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades o suplantando a otros comentaristas. También, procura que tus opiniones estén relacionadas con lo que se comenta en esta entrada. Los comentarios off-topic, promocionales, o que incumplan todas estas normas básicas serán eliminados.


Presto mi consentimiento para que, de acuerdo a la normativa europea de protección de datos, T-Systems ITC Iberia S.A.U trate mis datos personales con la finalidad de identificar al autor del comentario previo. Estos datos se pueden ceder a las empresas del grupo Deutsche Telekom AG. No está prevista la realización de transferencias a terceros. Puede ejercer sus derechos de acceso, rectificación, supresión, limitación, oposición y portabilidad de datos solicitándolo por escrito a: T-Systems ITC Iberia SAU, Carrer Pere IV, 313. 08020 Barcelona, o a través de correo electrónico a FMB.TS-IB-PROTEC-DATOS-PERSONALES@t-systems.com. A su vez, puede dirigir cualquier consulta al Delegado de Protección de Datos a la dirección indicada anteriormente con la finalidad de identificar el autor del comentario previo y gestionar su consulta si fuera el caso.