Contenidos
Almacén de datos java
Un almacén de datos, o almacén de datos empresariales (EDW), es un sistema que agrega datos de diferentes fuentes en un único almacén de datos central y coherente para apoyar el análisis de datos, la minería de datos, la inteligencia artificial (IA) y el aprendizaje automático. Un sistema de almacén de datos permite a una organización ejecutar potentes análisis sobre enormes volúmenes (petabytes y petabytes) de datos históricos de un modo que una base de datos estándar no puede.
Los sistemas de almacén de datos han formado parte de las soluciones de inteligencia empresarial (BI) durante más de tres décadas, pero han evolucionado recientemente con la aparición de nuevos tipos de datos y métodos de alojamiento de datos. Tradicionalmente, un almacén de datos se alojaba en las instalaciones -a menudo en un ordenador central- y su funcionalidad se centraba en la extracción de datos de otras fuentes, la limpieza y la preparación de los datos, y la carga y el mantenimiento de los datos en una base de datos relacional. Más recientemente, un almacén de datos puede alojarse en un dispositivo dedicado o en la nube, y la mayoría de los almacenes de datos han añadido capacidades de análisis y herramientas de visualización y presentación de datos.
Arquitectura del almacén de datos
El almacenamiento de datos es el proceso de construcción y uso de un almacén de datos. Un almacén de datos se construye integrando datos procedentes de múltiples fuentes heterogéneas que soportan la elaboración de informes analíticos, consultas estructuradas y/o ad hoc, y la toma de decisiones. El almacenamiento de datos implica la limpieza de datos, la integración de datos y la consolidación de datos.
Existen tecnologías de apoyo a la toma de decisiones que ayudan a utilizar los datos disponibles en un almacén de datos. Estas tecnologías ayudan a los ejecutivos a utilizar el almacén de forma rápida y eficaz. Pueden recopilar datos, analizarlos y tomar decisiones basadas en la información presente en el almacén. La información recogida en un almacén puede utilizarse en cualquiera de los siguientes ámbitos
Este es el enfoque tradicional para integrar bases de datos heterogéneas. Este enfoque se utilizaba para construir envoltorios e integradores sobre múltiples bases de datos heterogéneas. Estos integradores también se conocen como mediadores.
Se trata de una alternativa al enfoque tradicional. Los sistemas de almacén de datos de hoy en día siguen un enfoque basado en la actualización en lugar del enfoque tradicional que se ha comentado anteriormente. En el enfoque basado en la actualización, la información procedente de múltiples fuentes heterogéneas se integra de antemano y se almacena en un almacén. Esta información está disponible para su consulta y análisis directos.
Ejemplo de almacén de datos
En informática, un almacén de datos (DW o DWH), también conocido como almacén de datos empresariales (EDW), es un sistema utilizado para la elaboración de informes y el análisis de datos y se considera un componente central de la inteligencia empresarial[1] Los DW son depósitos centrales de datos integrados procedentes de una o varias fuentes dispares. Almacenan datos actuales e históricos en un único lugar[2] que se utilizan para crear informes analíticos para los trabajadores de toda la empresa[3].
Los datos almacenados en el almacén se cargan desde los sistemas operativos (como los de marketing o ventas). Los datos pueden pasar por un almacén de datos operativos y pueden requerir una limpieza de datos[2] para garantizar la calidad de los datos antes de que se utilicen en el DW para la elaboración de informes.
El típico almacén de datos basado en extracción, transformación y carga (ETL)[4] utiliza capas de preparación, integración de datos y acceso para albergar sus funciones clave. La capa de preparación o base de datos de preparación almacena los datos en bruto extraídos de cada uno de los sistemas de datos de origen dispares. La capa de integración integra los conjuntos de datos dispares transformando los datos de la capa de preparación y almacenando a menudo estos datos transformados en una base de datos del almacén de datos operativos (ODS). A continuación, los datos integrados se trasladan a otra base de datos, a menudo llamada base de datos del almacén de datos, donde los datos se organizan en grupos jerárquicos, a menudo llamados dimensiones, y en hechos y hechos agregados. La combinación de hechos y dimensiones se denomina a veces esquema en estrella. La capa de acceso ayuda a los usuarios a recuperar los datos[5].
Almacén de datos frente a base de datos
Un almacén de datos es un sistema que reúne los datos derivados de los sistemas operativos y las fuentes de datos externas de una organización para la elaboración de informes y análisis. Un almacén de datos es un depósito central de información que proporciona a los usuarios información actual e histórica de apoyo a la toma de decisiones a la que es difícil acceder o presentar en el almacén de datos operativos tradicional. Su objetivo principal es proporcionar una correlación entre los datos de diferentes sistemas, por ejemplo, conecta el inventario de productos almacenado en un sistema de compras con los pedidos emitidos para un cliente específico, que se almacenan en un sistema diferente. El almacén de datos es el núcleo del sistema de Business Intelligence que se construye para el análisis de datos y la elaboración de informes. Un almacén de datos suele residir en servidores dedicados a esta función que ejecutan un sistema de gestión de bases de datos [DBMS] como SQL Server. Se utiliza una herramienta de software de extracción, transformación y carga [ETL], como SQL Server Integration Services [SSIS], para obtener los datos de cada una de las fuentes apropiadas, incluidos los sistemas ERP que puedan estar en uso. Las herramientas ETL extraen los datos de los sistemas de origen, los leen y los editan, y luego organizan los datos de forma que faciliten el análisis. Un sistema de almacén de datos también puede encontrarse con los siguientes nombres: