Data Lake
¿Que es un data lake? Ventajas del data lake
Un data lake o lago de datos es un repositorio centralizado para todos nuestros datos, donde se pueden almacenar tanto datos estructurados como no estructurados, con sus correspondientes metadatos y que son disponibles bajo demanda en todo momento.
Dentro del data Lake tienen cabida todo tipo de ficheros, independientemente de su fuente, escala o el formato que tengan y con todo ello se pueden ejecutar análisis, visualizaciones y procesos según las necesidades puntuales que tenga la empresa.
1. ¿Cómo crear un data lake?
A pesar de que no existe una metodología estándar para crear un data lake, en su proceso se deben tener en consideración los siguientes pasos:
– Adquisición de datos a tratar. Como punto de inicio se han de obtener de datos y los metadatos, y prepararlos para la incorporación al data lake. Identificando las fuentes y datos de más valor para las tareas a la que pueden ser aplicados.
– Data curation ó grooming data. Tras ello entran en acción el conjunto de procesos que llevan a los datos crudos a datos consumibles por las aplicaciones analíticas. Así los datos pasan a tener formatos interpretables y reconocibles.
– Proveer los datos. En base a metainformación de los datos, se ejecutan los procesos que permiten acceder a los datos contenidos en el data lake en base a las políticas establecidas. Con ello se impide el acceso a datos inapropiados y están en disposición de ser utilizarlos de forma adecuada.
– Preservar de los datos. Finalmente entran en juego los procesos y políticas que determinan los datos a conservarse y hasta cuándo. Del mismo modo sirve para garantizar la disponibilidad de los mismos y que el rendimiento/recursos necesarios para acceder a los datos sea sostenible.
2. Ventajas de usar un data lake
Los principales beneficios del uso de un data lake pasan por ser los siguientes:
- A pesar de que la fuente original del dato esté obsoleta, su contenido puede seguir siendo de utilidad para su análisis.
- Centralizan todos los datos en un mismo lugar, sin importar el origen de los mismos.
- Con el permiso correcto, cualquier usuario relevante puede acceder y enriquecer la información para mejorar la toma de decisiones.
- Los datos procesados son susceptibles de ser procesados por herramientas de Big Data.
- La totalidad de los datos introducidos pueden ser normalizados y tratados.
- Se toman solo los datos según las necesidades puntuales, reduciendo los costes y tiempos.
3. Data lake vs. Data warehouse
Cuando se trata de almacenar una cantidad ingente de datos, es común que al concepto de data lake se asocie el de data warehouse o almacén de datos. El data warehouse, básicamente, son los distintos componentes del data lake que tienen como misión tratar datos estructurados.
Ambos se centran en el almacenamiento de datos, existiendo diferencias como son:
– Accesibilidad. Un data lake ofrece una accesibilidad muy simple, por contra en un data warehouse este asunto es más complejo.
– Almacenamiento. El data lake cuenta con un coste limitado y es ampliable en la nube, mientras que un data warehouse es generalmente más caro.
– Esquema. Los data lakes se basan en esquemas On Read y los data warehouses en esquemas on write.
– Estructura de los datos. Data warehouse solo recoge datos ya estructurados, y data Lake toma datos tanto estructurados como no estructurados.
– Finalidad de los datos. El uso de los datos siempre estar definido en un data warehouse, mientras que en un data lake no siempre es así.
– Flexibilidad. En un data lake es más fácil hacer modificaciones por la ausencia de estructura, por contra es un data warehouse es mucho más complicado.
– Usuarios. Los datos en un data lake son manejados por analistas, en un data warehouse cualquier usuario autorizado a ello puede manejar los datos.