Qué es un data warehouse

Almacén de datos frente a base de datos

A la hora de crear un sistema de análisis para una organización o un proyecto, tendrá que decidir dónde almacenar sus datos. Aunque no existe una solución única para todos los casos, le ofreceremos un mapa aproximado de las opciones disponibles para el almacenamiento de datos, con el objetivo de ayudarle a encontrar la solución que mejor se adapte a su presupuesto, a la cantidad de datos con la que espera trabajar y a sus necesidades de rendimiento.

Utilizar una base de datos como base de datos de producción y como almacén de datos suele ser una etapa preliminar para las aplicaciones “reales”, pero si estás construyendo una pequeña aplicación interna, un MVP o prototipos, duplicar una sola base de datos es una opción viable. Una vez que esté listo para el lanzamiento (para aplicaciones de consumo), es probable que desee migrar de esta configuración a una opción más escalable a continuación. Si aún no ha seleccionado una base de datos para su aplicación, asegúrese de que soporta réplicas de lectura, lo que nos lleva a la siguiente opción:

Si su base de datos principal soporta réplicas de lectura, la siguiente cosa más perezosa que puede hacer es crear una réplica de lectura de su base de datos principal, es decir, una copia de su base de datos de producción. También puedes configurar otro espacio de nombres para incluir tus datos o eventos de terceros, y llamarlo una victoria.

Tutorial de almacén de datos

En informática, un almacén de datos (DW o DWH), también conocido como almacén de datos empresariales (EDW), es un sistema utilizado para la elaboración de informes y el análisis de datos y se considera un componente fundamental de la inteligencia empresarial[1] Los DW son depósitos centrales de datos integrados procedentes de una o varias fuentes dispares. Almacenan datos actuales e históricos en un único lugar[2] que se utilizan para crear informes analíticos para los trabajadores de toda la empresa[3].

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como los de marketing o ventas). Los datos pueden pasar por un almacén de datos operativos y pueden requerir una limpieza de datos[2] para garantizar la calidad de los datos antes de que se utilicen en el DW para la elaboración de informes.

El típico almacén de datos basado en extracción, transformación y carga (ETL)[4] utiliza capas de preparación, integración de datos y acceso para albergar sus funciones clave. La capa de preparación o base de datos de preparación almacena los datos en bruto extraídos de cada uno de los sistemas de datos de origen dispares. La capa de integración integra los conjuntos de datos dispares transformando los datos de la capa de preparación y almacenando a menudo estos datos transformados en una base de datos del almacén de datos operativos (ODS). A continuación, los datos integrados se trasladan a otra base de datos, a menudo llamada base de datos del almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo llamados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones se denomina a veces esquema en estrella. La capa de acceso ayuda a los usuarios a recuperar los datos[5].

Almacén de datos Oracle

Un almacén de datos es un sistema de gestión de datos que agrega grandes volúmenes de datos de múltiples fuentes en un único repositorio de datos históricos altamente estructurados y unificados. Los datos centralizados en un almacén están listos para ser utilizados para apoyar la inteligencia empresarial (BI), el análisis de datos, la inteligencia artificial y las necesidades de aprendizaje automático para informar la toma de decisiones y mejorar el rendimiento de la organización.

Históricamente, los almacenes de datos se alojaban en las instalaciones y, dado que los datos se almacenaban en una base de datos relacional, debían transformarse antes de cargarse mediante el clásico proceso de extracción, transformación y carga (ETL). Pero, como era de esperar, los sistemas de almacenamiento de datos siguen evolucionando con el ecosistema de integración de datos que los rodea.

Con el auge de las arquitecturas modernas en la nube, los conjuntos de datos más grandes y la necesidad de dar soporte a los proyectos de análisis en tiempo real y de aprendizaje automático, los almacenes se alojan ahora normalmente en la nube y las canalizaciones están cambiando de ETL a Extract, Load, and Transform (ELT), streaming y API. Además, la automatización de los almacenes de datos modernos permite crear modelos de datos, añadir nuevas fuentes y aprovisionar nuevos marts de datos sin escribir ningún código SQL.

Ejemplo de almacén de datos

Un almacén de datos es un tipo de sistema de gestión de datos que está diseñado para permitir y apoyar las actividades de inteligencia empresarial (BI), especialmente la analítica. Los almacenes de datos están destinados exclusivamente a realizar consultas y análisis y suelen contener grandes cantidades de datos históricos. Los datos de un almacén de datos suelen proceder de una amplia gama de fuentes, como archivos de registro de aplicaciones y aplicaciones de transacciones.

Un almacén de datos centraliza y consolida grandes cantidades de datos procedentes de múltiples fuentes. Sus capacidades analíticas permiten a las organizaciones obtener valiosos conocimientos empresariales de sus datos para mejorar la toma de decisiones. Con el tiempo, construye un registro histórico que puede ser muy valioso para los científicos de datos y los analistas de negocios. Debido a estas capacidades, un almacén de datos puede considerarse la “única fuente de verdad” de una organización.

Los almacenes de datos ofrecen la ventaja global y única de permitir a las organizaciones analizar grandes cantidades de datos variantes y extraer un valor significativo de ellos, así como mantener un registro histórico.