Crear un lago de datos no es simplemente una cuestión de selección de tecnología. Es una disciplina de ingeniería de sistemas compleja que involucra estrategia de datos, cultura organizacional y prácticas de ingeniería. Muchas empresas lo consideran un "almacén universal" que puede almacenar todos los datos, pero ignoran su valor central real para lograr la democratización de los datos, respaldar el análisis avanzado e impulsar la innovación empresarial. Si se implementa incorrectamente, el lago de datos puede convertirse fácilmente en un "pantano de datos" sin mantenimiento y con mala calidad de los datos, lo que resulta en un enorme desperdicio de recursos.
Cómo planificar la arquitectura general del lago de datos
Al planificar una arquitectura de lago de datos, la primera tarea es aclarar los objetivos comerciales. La arquitectura debe servir para escenarios de análisis específicos, como vistas de 360 grados de los clientes, control de riesgos en tiempo real u optimización de la cadena de suministro, en lugar de simplemente perseguir el avance tecnológico. Romper con el diseño de arquitectura impulsado por el negocio a menudo conduce a un dilema, es decir, acumular componentes costosos sin poder generar valor real.
Al planificar la arquitectura, equilibre las necesidades actuales con la escalabilidad futura. Las consideraciones centrales incluyen la separación del almacenamiento y la informática. Para seleccionar los servicios de almacenamiento subyacentes adecuados, determine la estructura de capas de datos y diseñe una capa unificada de control y gestión de seguridad y acceso a datos. Existe un malentendido común sobre el bloqueo prematuro de la tecnología. Sin embargo, se debe dar prioridad a la definición de un marco claro de gobernanza de datos y una estrategia de gestión de metadatos, que es la base para garantizar el funcionamiento saludable a largo plazo del lago de datos.
¿Qué tecnologías de almacenamiento debería elegir para su lago de datos?
Debido a su escalabilidad ilimitada, bajo costo e idoneidad para almacenar datos no estructurados, el almacenamiento de objetos se ha convertido en la base de almacenamiento estándar de facto para los lagos de datos. Por ejemplo, Amazon S3, Alibaba Cloud OSS o Azure Blob pueden guardar datos originales de forma fiable. La clave para la selección de tecnología es comprender los patrones de acceso de los diferentes tipos de datos.
En aquellos escenarios donde se requieren consultas interactivas frecuentes, se puede introducir un formato o motor de consulta de lago de datos sobre la base actual, como Hudi o Delta Lake. Estas tecnologías pueden brindar transacciones ACID, control de versiones y un mejor rendimiento de las consultas. Sin embargo, la selección de tecnología debe coincidir con el conjunto de habilidades y las capacidades de operación y mantenimiento del equipo para evitar la introducción de un conjunto de tecnología compleja que no se puede controlar.
Cómo diseñar un proceso eficiente de acceso a datos
El acceso a los datos de manera eficiente es el "salvavidas" del lago de datos. A nivel de diseño, debemos seguir el principio general de "una vez que se accede, se puede usar varias veces más adelante" y luego comenzar a construir una canalización que tenga funciones automatizadas y que también pueda monitorearse. Para datos por lotes, puede extraerlos del sistema de origen mediante trabajos basados en programación; para la transmisión de datos, debe confiar en colas de mensajes como Kafka para implementar operaciones de ingesta en tiempo real.
El diseño del proceso debe incluir la inspección de la calidad de los datos. En el ingreso se realiza una verificación básica de la integridad, consistencia y actualidad de los datos. Al mismo tiempo, es necesario recopilar y registrar automáticamente los atributos comerciales y los metadatos técnicos de cada dato entrante para formar un catálogo de datos. Los datos sin un linaje y una descripción claros no se pueden descubrir ni utilizar de manera efectiva, incluso si se almacenan en el lago.
Cómo los lagos de datos garantizan la seguridad y los permisos de los datos
La seguridad de los lagos de datos presenta una tendencia tridimensional. A nivel de almacenamiento, se debe utilizar tecnología de cifrado para proteger los datos estáticos y se debe utilizar el aislamiento de la red para evitar el acceso no autorizado. Cuando está en el nivel de acceso, se debe implementar un control de permisos detallado, como políticas de acceso basadas en roles o atributos, para garantizar que los usuarios solo puedan acceder a los datos dentro de su alcance autorizado.
Para la gestión de permisos, es necesario integrarse con el sistema de autenticación de identidad unificado de la empresa y lograr un control preciso a nivel de biblioteca, tabla, columna y fila. Todos los comportamientos de acceso a datos deben tener registros de auditoría completos. La formulación de políticas de seguridad requiere la participación conjunta de los propietarios de datos, los equipos de seguridad y los departamentos legales, y debe realizarse en un estado en el que se pueda garantizar la seguridad. Evitar controles demasiado estrictos que impidan la circulación y el uso legal de los datos.
Cómo se implementa la gobernanza de datos en los lagos de datos
La gobernanza de datos en el lago de datos no se trata de una post-remediación, sino que debe abarcar todo el ciclo de datos, desde su generación hasta su destrucción. En primer lugar, se debe crear un catálogo de activos de datos claro para que los usuarios puedan encontrar y comprender los datos rápidamente. En segundo lugar, se debe establecer un sistema de propietario de datos, en el que el departamento comercial designe a los propietarios de los datos y los haga responsables de la calidad y los estándares de campos de datos específicos.
Se basa en las herramientas y la automatización, que son la clave de la gobernanza. Utilice herramientas de detección de la calidad de los datos para escanear periódicamente los indicadores de datos centrales. Luego, utilice la herramienta de análisis de linaje para rastrear el flujo y el impacto de los datos. Incorporar reglas de gobernanza en el proceso de procesamiento de datos, como hacer cumplir la verificación estándar en las tareas ETL, es mucho más efectivo que simplemente formular un manual de documentación.
Cómo evaluar la efectividad de la implementación del lago de datos
Basta observar cuántos terabytes de datos se almacenan o cuántas fuentes de datos están conectadas no se puede utilizar para evaluar la eficacia del lago de datos. Los indicadores básicos deberían centrarse en el valor empresarial. Es decir, por ejemplo, ¿cuánto se ha acortado el ciclo de lanzamiento del modelo de análisis desarrollado en base al lago de datos? ¿Se ha mejorado la proporción de análisis de autoservicio? ¿Se están volviendo más comunes las decisiones basadas en datos?
Las métricas incluyen la actualización de los datos a nivel técnico, el tiempo de respuesta a las consultas y la utilización del costo de los recursos, así como una tendencia a la baja en la cantidad de problemas de calidad de los datos. Estos indicadores deben revisarse periódicamente y optimizarse continuamente para garantizar que el lago de datos se transforme de un gasto de costos a un activo de datos que impulse el crecimiento empresarial.
¿Es la complejidad de la arquitectura técnica o los obstáculos para la colaboración entre departamentos y la construcción de una cultura de datos los mayores problemas que encuentra durante la construcción del lago de datos de su empresa? Bienvenido a compartir su experiencia práctica en el área de comentarios. Si este artículo te ha inspirado, no dudes en darle me gusta y compartirlo.
Deja una respuesta