Que es un data warehouse

Almacén de datos anbieter

El almacenamiento de datos es el proceso de construcción y uso de un almacén de datos. Un almacén de datos se construye mediante la integración de datos procedentes de múltiples fuentes heterogéneas que apoyan la elaboración de informes analíticos, consultas estructuradas y/o ad hoc, y la toma de decisiones. El almacenamiento de datos implica la limpieza de datos, la integración de datos y la consolidación de datos.

Existen tecnologías de apoyo a la toma de decisiones que ayudan a utilizar los datos disponibles en un almacén de datos. Estas tecnologías ayudan a los ejecutivos a utilizar el almacén de forma rápida y eficaz. Pueden recopilar datos, analizarlos y tomar decisiones basadas en la información presente en el almacén. La información recopilada en un almacén puede utilizarse en cualquiera de los siguientes ámbitos

Este es el enfoque tradicional para integrar bases de datos heterogéneas. Este enfoque se utilizaba para construir envoltorios e integradores sobre múltiples bases de datos heterogéneas. Estos integradores también se conocen como mediadores.

Se trata de una alternativa al enfoque tradicional. Los sistemas de almacén de datos de hoy en día siguen un enfoque basado en la actualización en lugar del enfoque tradicional que se ha comentado anteriormente. En el enfoque basado en la actualización, la información procedente de múltiples fuentes heterogéneas se integra de antemano y se almacena en un almacén. Esta información está disponible para su consulta y análisis directos.

Ejemplo de almacén de datos

En informática, un almacén de datos (DW o DWH), también conocido como almacén de datos empresariales (EDW), es un sistema utilizado para la elaboración de informes y el análisis de datos y se considera un componente central de la inteligencia empresarial[1] Los DW son depósitos centrales de datos integrados procedentes de una o varias fuentes dispares. Almacenan datos actuales e históricos en un único lugar[2] que se utilizan para crear informes analíticos para los trabajadores de toda la empresa[3].

Los datos almacenados en el almacén se cargan desde los sistemas operativos (como los de marketing o ventas). Los datos pueden pasar por un almacén de datos operativos y pueden requerir una limpieza de datos[2] para garantizar la calidad de los datos antes de que se utilicen en el DW para la elaboración de informes.

El típico almacén de datos basado en extracción, transformación y carga (ETL)[4] utiliza capas de preparación, integración de datos y acceso para albergar sus funciones clave. La capa de preparación o base de datos de preparación almacena los datos en bruto extraídos de cada uno de los sistemas de datos de origen dispares. La capa de integración integra los conjuntos de datos dispares transformando los datos de la capa de preparación y almacenando a menudo estos datos transformados en una base de datos del almacén de datos operativos (ODS). A continuación, los datos integrados se trasladan a otra base de datos, a menudo llamada base de datos del almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo llamados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones se denomina a veces esquema en estrella. La capa de acceso ayuda a los usuarios a recuperar los datos[5].

Almacén de datos frente a lago de datos

El almacenamiento de datos es el depósito electrónico seguro de información por parte de una empresa u otra organización. El objetivo del almacenamiento de datos es crear un tesoro de datos históricos que puedan ser recuperados y analizados para proporcionar una visión útil de las operaciones de la organización.

El almacenamiento de datos es un componente vital de la inteligencia empresarial. Este término más amplio engloba la infraestructura de información que las empresas modernas utilizan para hacer un seguimiento de sus éxitos y fracasos pasados y fundamentar sus decisiones para el futuro.

La necesidad de almacenar datos evolucionó cuando las empresas empezaron a depender de los sistemas informáticos para crear, archivar y recuperar documentos empresariales importantes. El concepto de almacenamiento de datos fue introducido en 1988 por los investigadores de IBM Barry Devlin y Paul Murphy.

El almacenamiento de datos está diseñado para permitir el análisis de datos históricos. La comparación de datos consolidados de múltiples fuentes heterogéneas puede proporcionar una visión del rendimiento de una empresa. Un almacén de datos está diseñado para que sus usuarios puedan realizar consultas y análisis sobre datos históricos procedentes de fuentes transaccionales.

Arquitectura del almacén de datos

Un almacén de datos es un depósito central de información que puede analizarse para tomar decisiones más informadas. Los datos fluyen hacia un almacén de datos desde sistemas transaccionales, bases de datos relacionales y otras fuentes, normalmente con una cadencia regular. Los analistas de negocio, los ingenieros de datos, los científicos de datos y los responsables de la toma de decisiones acceden a los datos a través de herramientas de inteligencia de negocio (BI), clientes SQL y otras aplicaciones de análisis.

Los datos y la analítica se han vuelto indispensables para que las empresas sigan siendo competitivas. Los usuarios de las empresas confían en los informes, los cuadros de mando y las herramientas de análisis para extraer información de sus datos, supervisar el rendimiento del negocio y respaldar la toma de decisiones. Los almacenes de datos potencian estos informes, cuadros de mando y herramientas de análisis almacenando los datos de forma eficiente para minimizar la entrada y salida (E/S) de datos y ofrecer resultados de consulta rápidamente a cientos y miles de usuarios de forma simultánea.

Un almacén de datos puede contener varias bases de datos. Dentro de cada base de datos, los datos se organizan en tablas y columnas. Dentro de cada columna, se puede definir una descripción de los datos, como un entero, un campo de datos o una cadena. Las tablas pueden organizarse dentro de esquemas, que pueden considerarse como carpetas. Cuando se ingieren los datos, se almacenan en varias tablas descritas por el esquema. Las herramientas de consulta utilizan el esquema para determinar a qué tablas de datos se debe acceder y analizar.