Las empresas basadas en datosutilizan los catálogos de datospara facilitar la identificación, comprensión y colaboración de los datos. Los catálogos de datos son herramientas esenciales para la administración, la conservación y el gobierno de datos (data governance). Son algo estratégico, muy útiles para la gestión de activos de datos y para mejorar la calidad y la productividad de los análisis.
La razón de ser de estas herramientas es que las bases de datos relacionales y los lagos de datos, entre otras, son potentes para almacenar y actualizar, para consultar, buscar y procesar datos. Sin embargo, no suelen incorporar herramientas o interfaces de usuario para compartir lo que hay en ellas. No ofrecen una manera fácil de evaluar qué hay en ellas desde el exterior.
Es cierto que existenherramientas para extraer metadatos de una base de datos, para producir informes y mucho más, pero tienen ciertas limitaciones que hacen que sean inviables o poco útiles para los requerimientos de una empresa basada en datos. Por ejemplo:
- Requieren demasiada experiencia técnica y es poco probable que sean utilizadas por usuarios finales que no sean técnicos.
- Los métodos son demasiado manuales para empresas con múltiples bases de datos de Big data o con nubes híbridas operativas, por ejemplo.
- Los enfoques no son particularmente útiles para los científicos de datos que desean trabajar, por ejemplo, en experimentos de aprendizaje automático con conjuntos de datos primarios y derivados.
- La estrategia de auditar metadatos de bases de datos no facilita el Data governance.
Los catálogos de datos vienen a suplir estas carencias o a superar estas limitaciones. Son herramientas colaborativas en torno a las fuentes de datos. Son importantes para las organizaciones con científicos de datos que experimentan con el aprendizaje automático y para las que incorporan análisis en aplicaciones orientadas al cliente.
Los catálogos de datosayudan a responder preguntas como qué datos existen, cómo encontrar las mejores fuentes de datos, cómo protegerlos y quién tiene experiencia con ellos. Suelen incluir herramientas para descubrir fuentes de datos, capturar metadatos de esas fuentes y algunas capacidades de gestión de metadatos.
Un catálogo de datoses más que un directorio estructurado, puesto que incluyen relaciones entre fuentes de datos, entidades y objetos. También incluyen, en su mayoría, herramientas para definir diccionarios de datos. Son, en definitiva, herramientas muy útiles para la actividad de cualquier empresa basada en datos.
Deja tu comentario sobre "¿Qué es un «catálogo de datos»?"