KQL Databases para tiempo-real

KQL Databases para tiempo-real

En mi artículo anterior La promesa de Análisis en Tiempo Real con Microsoft Fabric, hago una breve introducción a qué es análisis de datos en tiempo real, cómo usarlo en #MicrosoftFabric y qué valor aporta con algunos casos de uso.

Esos datos en tiempo real requieren de un tipo de base de datos con características muy concretas, que cuando se usan adecuadamente, pueden aportar mucha mejora a la gestión, análisis y #FinOps de la infraestructura.

¿Qué es una base de datos en tiempo real y por qué es necesaria?

Una base de datos en tiempo real es una base de datos que puede manejar datos que cambian constantemente y proporcionar respuestas rápidas y precisas a consultas que reflejan el estado actual de los datos. Las bases de datos en tiempo real son útiles para aplicaciones que requieren información oportuna y consistente, como juegos en línea, negociación de acciones, detección de fraude y análisis de IoT, entre otros muchos casos.

Uno de los desafíos de las bases de datos en tiempo real es equilibrar las compensaciones entre la actualidad de los datos, el rendimiento de las consultas y la coherencia de los datos. La actualización de los datos se refiere a qué tan actualizados están los datos en la base de datos, el rendimiento de las consultas se refiere a qué tan rápido la base de datos puede procesar y devolver los resultados de una consulta, y la consistencia de los datos se refiere a qué tan precisos y coherentes son los datos en diferentes réplicas. o particiones de la base de datos.

Diferentes aplicaciones pueden tener diferentes requisitos y preferencias para estas compensaciones. Por ejemplo, una aplicación de negociación de acciones puede priorizar la actualización y la coherencia de los datos sobre el rendimiento de las consultas, mientras que una aplicación de juegos en línea puede priorizar el rendimiento de las consultas y la actualización de los datos sobre la coherencia.

Contenido del artículo

Tipos de bases de datos en KQL

KQL, o Kusto Query Language, es un lenguaje de consulta para Azure Data Explorer, un servicio que proporciona exploración y análisis de datos rápidos y escalables en grandes volúmenes de datos estructurados, semiestructurados y no estructurados. KQL admite varios tipos de bases de datos, cada una con sus propias características y propósitos.

Los principales tipos de bases de datos en KQL son:

Hot databases: son bases de datos que almacenan los datos más recientes y a los que se accede con más frecuencia, generalmente durante un corto período de tiempo (como horas o días). Las bases de datos activas están optimizadas para altas tasas de ingesta, consultas de baja latencia y alta disponibilidad. Son adecuados para análisis en tiempo real que requieren los datos más recientes posibles, como monitoreo, alertas y detección de anomalías. Las bases de datos activas utilizan una arquitectura de caché aparte, lo que significa que almacenan los datos tanto en la memoria como en el disco, y utilizan un caché para atender las consultas desde la memoria siempre que sea posible. Las bases de datos activas también utilizan una técnica de fragmentación, lo que significa que dividen los datos en fragmentos más pequeños y los distribuyen en varios nodos para el procesamiento paralelo y el equilibrio de carga.

Warm databases: son bases de datos que almacenan los datos menos recientes y a los que se accede con menos frecuencia, generalmente durante un período de tiempo más largo (como semanas o meses). Las bases de datos cálidas están optimizadas para altas tasas de compresión, bajos costos de almacenamiento y un alto rendimiento de consultas. Son adecuados para análisis históricos que requieren grandes cantidades de datos, como informes, agregación y análisis de tendencias. Las bases de datos cálidas utilizan una arquitectura de almacenamiento en columnas, lo que significa que almacenan los datos en columnas en lugar de filas, y utilizan diversas técnicas de compresión y codificación para reducir el tamaño de almacenamiento y mejorar el rendimiento de las consultas. Las bases de datos cálidas también utilizan una técnica de replicación, lo que significa que almacenan múltiples copias de los datos en diferentes nodos para lograr tolerancia a fallas y equilibrio de carga.

Cold databases: son bases de datos que almacenan los datos más antiguos y a los que se accede con menos frecuencia, generalmente durante un período de tiempo muy largo (como años o indefinidamente). Las bases de datos frías están optimizadas para lograr bajos costos de almacenamiento, alta durabilidad y alta escalabilidad. Son adecuados para análisis de archivos que requieren la retención de todos los datos, como cumplimiento, auditoría y copia de seguridad. Las bases de datos frías utilizan una arquitectura de almacenamiento de blobs, lo que significa que almacenan los datos en objetos binarios grandes (blobs) en servicios de almacenamiento en la nube, como Azure Blob Storage o Azure Data Lake Storage. Las bases de datos frías también utilizan una técnica de niveles, lo que significa que mueven los datos de bases de datos calientes o tibias a bases de datos frías según la antigüedad de los datos y la frecuencia de acceso.

Beneficios y desafios de las bases de datos en tiempo real

Creo que los beneficios están claros, a mayor disponibilidad de datos y mayor necesidad de actuación en el menor tiempo posible, significa mayor ventaja competitiva.

Sin embargo, el análisis en tiempo real también plantea algunos desafíos, como:

• Gestionar la calidad e integridad de los datos garantizando la precisión, integridad y coherencia de los datos en diferentes fuentes y sistemas.

• Garantizar la seguridad y privacidad de los datos protegiéndolos del acceso no autorizado, la modificación y la filtración.

• Equilibrar la gobernanza y la agilidad de los datos cumpliendo con las regulaciones y políticas de los datos al tiempo que permite la flexibilidad y creatividad de los usuarios.

• Desarrollar y mantener las habilidades y capacidades adquiriendo y reteniendo el talento y la experiencia de los analistas e ingenieros de datos.

• Elegir y adoptar las tecnologías y herramientas adecuadas mediante la evaluación y selección de las soluciones más adecuadas para los datos y el análisis.

Inicia sesión para ver o añadir un comentario.

Otros usuarios han visto

Ver temas